云原生可观测-博文-阿里云开发者社区-阿里云

osswangxining

|

Prometheus 监控 Cloud Native

|

博文

Istio on ACK集成生态(2): 扩展AlertManager集成钉钉助力可观测性监控能力

使用Prometheus进行监控是Istio提供的监控能力之一，通过扩展AlertManager集成钉钉助力Istio on ACK可观测性监控能力。

2524 57 57

osswangxining

|

Prometheus 监控 Cloud Native

|

博文

扩展AlertManager集成钉钉助力Istio on ACK可观测性监控能力

阿里云容器服务Kubernetes（简称ACK）支持一键部署Istio，可以参考[文档](https://help.aliyun.com/document_detail/89805.html)在ACK上部署使用Isito。Istio on ACK提供了丰富的监控能力，为网格中的服务收集遥测数据，其中Mixer是负责提供策略控制和遥测收集的Istio组件。使用Prometheus进行监控是Istio

2540 0 0

云上的喵酱

|

10月前

|

存储前端开发数据可视化

|

博文

Grafana Loki，轻量级日志系统

本文介绍了基于Grafana、Loki和Alloy构建的轻量级日志系统。Loki是一个由Grafana Labs开发的日志聚合系统，具备高可用性和多租户支持，专注于日志而非指标，通过标签索引而非内容索引实现高效存储。Alloy则是用于收集和转发日志至Loki的强大工具。文章详细描述了系统的架构、组件及其工作流程，并提供了快速搭建指南，包括准备步骤、部署命令及验证方法。此外，还展示了如何使用Grafana查看日志，以及一些基本的LogQL查询示例。最后，作者探讨了Loki架构的独特之处，提出了“巨型单体模块化”的概念，即一个应用既可单体部署也可分布式部署，整体协同实现全部功能。

3869 70 71

阿里云云原生

|

8月前

|

人工智能 API 数据库

|

博文

MCP Server 开发实战 | 大模型无缝对接 Grafana

以 AI 世界的“USB-C”标准接口——MCP（Model Context Protocol）为例，演示如何通过 MCP Server 实现大模型与阿里云 Grafana 服务的无缝对接，让智能交互更加高效、直观。

2590 116 122

1752192245978413

|

2月前

|

存储 SQL Prometheus

|

博文

图文解析带你精通时序PromQL语法

[阿里云SLS可观测团队发布] 本文通过图文解析深入讲解PromQL的计算原理，涵盖其与SQL的差异、时间线模型、选点机制、聚合函数、窗口函数及常见非预期场景，帮助用户掌握PromQL的核心语法与执行逻辑。

745 10 12

阿里云云原生

|

Arthas Oracle Java

|

博文

可观测可回溯 | Continuous Profiling 实践解析

我们定位异常时，时常无法知晓代码内部发生了什么，因此无从谈起修复和改善代码。Continuous Profiling帮助开发者全面掌握、回溯生产环节代码执行细节，增强可观测性。

1884 0 0

乘云数字DATABUFF

|

21天前

|

机器学习/深度学习人工智能运维

|

博文

AIOps已逝，欢迎进入AgenticOps（运维智能体）时代

GenAI和智能体技术的爆发，为IT运维打开了一扇新的大门，一个更具主动性、自治性和协作性的新时代已经来临，这就是AgenticOps（基于智能体的IT运维）。

184 2 2

开源MES

|

数据采集监控供应链

|

博文

MES系统软件体系架构及应用

MES系统是数字化车间的核心。MES通过数字化生产过程控制，借助自动化和智能化技术手段，实现车间制造控制智能化、生产过程透明化、制造装备数控化和生产信息集成化。生产管理MES系统主要包括车间管理系统、质量管理系统、资源管理系统及数据采集和分析系统等，由技术平台层、网络层以及设备层实现。

2647 1 1

开发者小助手_LS

|

数据采集运维监控

|

博文

阿里千万实例可观测采集器-iLogtail正式开源

11月23日，阿里正式开源可观测数据采集器iLogtail。作为阿里内部可观测数据采集的基础设施，iLogtail承载了阿里巴巴集团、蚂蚁的日志、监控、Trace、事件等多种可观测数据的采集工作。iLogtail运行在服务器、容器、K8s、嵌入式等多种环境，支持采集数百种可观测数据，目前已经有千万级的安装量，每天采集数十PB的可观测数据，广泛应用于线上监控、问题分析/定位、运营分析、安全分析等多种场景。

2224 0 0

游客vz3ulepoozjvy

|

运维 Prometheus 监控

|

博文

🎉 WatchAlert - 开源多数据源告警引擎【运维研发必备能力】

WatchAlert 是一个开源的多数据源告警引擎，支持从 Prometheus、Elasticsearch、Kubernetes 等多种数据源获取监控数据，并根据预定义的告警规则触发告警。它具备多数据源支持、灵活的告警规则、多渠道告警通知、可扩展架构和高性能等核心特性，帮助团队更高效地监控和响应问题。项目地址：https://github.com/opsre/WatchAlert

1567 18 18

成喆

|

存储 SQL 机器学习/深度学习

|

博文

可观测平台下告警降噪实践——GOPS分享

本文介绍阿里云SLS丁来强（花名成喆）在GOPS2021上海站分享时的议题内容，结尾有PPT下载链接。

1988 0 1

阿里云云原生

|

8月前

|

人工智能监控安全

|

博文

从 DeepSeek 敏感信息泄露谈可观测系统的数据安全预防

探讨了 SLS 中增强数据安全的几种方式：权限精细化管控有效减少了潜在安全风险；接入层脱敏技术阻止敏感数据落库，提升了隐私保护；StoreView 字段集控制通过限制查询数据范围，降低数据泄露损害。智能监控系统提供实时监测，快速识别并阻断异常拖库行为，为企业提供了迅速响应和抵御威胁的能力。

590 5 6

真的很搞笑

|

tengine Java 测试技术

|

博文

PTS压测问题之调试返回403如何解决

PTS（Performance Testing Service）是一项面向网站、应用等提供的压力测试服务，用于模拟不同场景下的用户访问，评估系统的性能表现；在进行PTS压测时，可能会出现一些异常或报错，本合集将PTS压测中频繁出现的问题及其解决办法进行汇编，旨在帮助用户更有效地进行性能测试和问题定位。

715 2 2

InfoQ

|

SQL 存储监控

|

博文

深入可观测底层：OpenTelemetry 链路传递核心原理

本文会系统讲解链路传递一些基本概念，同时结合案例讲解链路传递的过程。

3433 1 1

陈志林

|

存储运维 Prometheus

|

博文

GIAC-2022sh 学习笔记 | 云原生时代的可观测体系在大规模应用中的落地实践

496 0 1

嚯嚯嚯www

|

弹性计算 Prometheus 运维

|

博文

【数据可观测】阿里云的Grafana云监控大盘服务

阿里云发布的grafana托管服务，更是为云上的资产提供了高效的监控数据可观测能力。阿里云grafana弹性、免运维，可以方便的对接云上云下的各种数据源。

2808 1 1

ux6t45lknjgbo

|

存储 Prometheus 监控

|

博文

当 OpenTelemetry 遇上阿里云 Prometheus

本文以构建系统可观测（重点为指标监控体系）为切入点，对比 OpenTelemetry 与 Prometheus 的相同与差异，后重点介绍如何将应用的 OpenTelemetry 指标接入 Prometheus 及背后原理，最后介绍阿里云可观测监控 Prometheus 版拥抱 OpenTelemetry 及相关落地实践案例，希望能更好的帮助读者更好的理解 OpenTelemetry 及与 Prometheus 的生态融合。

1315 0 0

jiangxindc.com

|

JavaScript Java 中间件

|

博文

可观测性之Micrometer Tracing

益复杂的软件架构导致系统在出现问题的时候，发现问题和排查问题的效率极低。那这个问题如何解决呢？就需要引入一个称为链路追踪的系统。

1384 1 1

阿里云云原生

|

9月前

|

存储缓存 Prometheus

|

博文

阿里云下一代可观测时序引擎-MetricStore 2.0

我们开发了 MetricStore 2.0 版本，从存储到计算进行了全面升级，致力于成为阿里云下一代可观测时序引擎。

518 48 49

阿里云云原生

|

弹性计算 Prometheus 运维

|

博文

统一观测｜如何使用 Prometheus 监控 Windows

阿里云 Prometheus 与阿里云容器服务和 ECS 无缝集成，默认提供了 Windows 的 CPU、内存、磁盘、网络和进程等 5 方面的核心监控指标采集，同时提供了对应的优化后的专家级监控大盘和告警指标模板，为用户提供了免运维、开箱即用的 Windows 监控能力。

1222 0 0

观测云

|

存储缓存监控

|

博文

Redis可观测最佳实践，5大关键指标最全解析！

一文带您了解Redis

3026 1 2

阿里云开发者

|

7月前

|

监控 Kubernetes Go

|

博文

日志采集效能跃迁：iLogtail 到 LoongCollector 的全面升级

LoongCollector 在日志场景中实现了全面的重磅升级，从功能、性能、稳定性等各个方面均进行了深度优化和提升，本文我们将对 LoongCollector 的升级进行详细介绍。

624 86 88

云故事栏目组

|

存储 Prometheus 运维

|

博文

【云故事探索】NO.8：揭秘餐饮行业龙头 SaaS 厂商神州商龙的全栈可观测实践

天津市神州商龙科技股份有限公司成立于1998年，专为餐饮行业提供数字化解决方案。公司服务10万余家知名餐饮企业，确保用餐体验的稳定性至关重要。在业务容器化和微服务化过程中，神州商龙面临技术架构多样性、高可用要求及成本控制等挑战。通过尝试自建Prometheus和SkyWalking监控方案，最终选择阿里云Prometheus和日志服务SLS，实现了统一可观测平台，提升了监控效率、缩短故障排查时间、增强系统稳定性和优化资源利用率。未来，神州商龙计划引入机器学习和AI技术，提升自动化运维水平，并进一步整合业务系统监控数据。

479 3 3

做运维的乔不思

|

存储运维监控

|

博文

SRE方法论之监控设计

监控系统的四个黄金指标是：延迟（Latency）、流量（Traffic）、错误（Errors）、饱和度（Saturation）

1206 1 1

阿里云云原生

|

消息中间件弹性计算 Prometheus

|

博文

问题盘点｜使用 Prometheus 监控 Kafka，我们该关注哪些指标

Kafka 作为当前广泛使用的中间件产品，承担了重要/核心业务数据流转，其稳定运行关乎整个业务系统可用性。本文旨在分享阿里云 Prometheus 在阿里云 Kafka 和自建 Kafka 的监控实践。

3032 30 33

阿里云云原生

|

存储 Prometheus Kubernetes

|

博文

对比开源丨Prometheus 服务多场景存储压测全解析

谁不想要一个省心又好用的监控呢？用数据说话，让我们看看不同集群规模下，阿里云Prometheus 服务Vs开源版本的存储性能压测对比吧！

951 0 0

阿里云云原生

|

存储运维监控

|

博文

深入浅出 eBPF｜你要了解的 7 个核心问题

eBPF 提供的只是一个框架和机制，核心还是需要用 eBPF 的人对软件栈的理解，找到合适的插桩点，能够和应用问题进行关联。

1112 0 0

乘云数字DATABUFF

|

1月前

|

运维监控数据可视化

|

博文

别让运维跪着查日志了！给老板看的“业务观测”大盘才是真香

深夜告警、业务暴跌、全员背锅？一次支付故障暴露传统监控盲区。我们通过业务观测，将技术指标转化为老板听得懂的“人话”，实现从被动救火到主动洞察的跨越。让技术团队不再跪着查日志，而是站着驱动业务增长。

173 9 9

乘云数字DATABUFF

|

1月前

|

存储运维监控

|

博文

云原生NPM与传统NPM的差异

本文对比传统NPM与云原生NPM在部署、流量采集、资源影响等方面的差异，聚焦Packet处理，分析二者优劣。随着eBPF等新技术应用，云原生NPM正加速发展，助力高效网络监控与故障定位。

130 1 1

阿里云云原生

|

9月前

|

人工智能运维监控

|

博文

从大规模恶意攻击 DeepSeek 事件看 AI 创新隐忧：安全可观测体系建设刻不容缓

唯有通过全行业的协同努力，加强整体、完善的网络安全可观测建设，才能为 AI 技术的创新和发展构建一个安全而稳固的环境。我们期盼并相信，在攻克这些网络安全难题之后，AI 创新将迎来更加安全、灿烂的未来。

448 4 4

扬流

|

SQL 运维资源调度

|

博文

开源大数据可观测性方案实践 - 助力集群运维智能化、便捷化

在本篇文章中，我们将介绍大数据集群领域所需的可观测性，实践大数据集群可观测所需要的条件和面临的挑战，以及阿里云EMR 产品如何通过 EMR Doctor 实现大数据可观测并向用户提供相关能力。

17785 4 5

jiangxindc.com

|

缓存 Prometheus 监控

|

博文

可观测性神器之 Micrometer

对于大部分开发人员来说可能用过普罗米修斯 Grafana 这样的监控系统，从未听说过 Micrometer 工具，这里就详细的来介绍下可观测性神器 Micrometer，让你在开发时使用它就和使用 SLFJ 日志系统一样简单易用，有效的提升系统的健壮性和可靠性。

859 6 6

技术小达人

|

存储移动开发运维

|

博文

移动域全链路可观测架构和关键技术

871 0 0

阿里云云原生

|

9月前

|

SQL 运维监控

|

博文

高效定位 Go 应用问题：Go 可观测性功能深度解析

为进一步赋能用户在复杂场景下快速定位与解决问题，我们结合近期发布的一系列全新功能，精心梳理了一套从接入到问题发现、再到问题排查与精准定位的最佳实践指南。

290 6 7

技术内容小助手

|

12月前

|

存储人工智能运维

|

博文

AI + 可观测最佳实践：让业务从“看见”到“洞察”

本文介绍了AI Ops的概念及其在提升系统运维效率、洞察力和可观测性方面的作用。主要内容分为三个部分：一是监控、观测与洞察的区别及挑战，强调了数据整合和语义对齐的重要性；二是AI与计算如何重塑可观测性，通过UModel数字图谱和多模态存储分析架构实现数据联通；三是最佳实践与未来展望，展示了阿里云AI Stack可观测解决方案的应用案例，并总结了可观测性的四个发展阶段，最终愿景是借助AI力量让每个人成为多领域的专家。

909 9 9

星尘安全

|

云安全安全 Cloud Native

|

博文

一文了解什么是CNAPP

在云计算蓬勃发展的今天，企业面临的安全挑战愈发复杂。传统安全方案已力不逮，CNAPP（云原生应用保护平台）应运而生，革新云安全领域。CNAPP专为云环境设计，提供全生命周期安全保护，具备微隔离、访问控制、数据保护等功能，并利用自动化与AI技术简化管理、智能响应威胁，适用于多云、DevOps等多种场景。尽管存在技术复杂性和成本等挑战，CNAPP仍将持续进化，变得更加智能、自动且易于集成，助力企业构建稳健的云安全体系。

962 0 0

阿里云云原生

|

存储 Prometheus Kubernetes

|

博文

对比开源丨Prometheus 服务多场景存储压测全解析

作为国内领先的云服务提供商，阿里云提供了优秀的可观测全套解决方案，阿里云 Prometheus 服务正是其中重要一环，相比于开源版本 Prometheus，阿里云的 Prometheus 服务无论是易用性、扩展性、性能均有大幅度提升。

446 0 0

EMQ

|

监控数据可视化 NoSQL

|

博文

易操作、可观测的 MQTT Dashboard，集群数据尽在掌握

全新EMQX Dashbord一览，可观测性和可操作性大幅提升，通过Web页面轻松管理和监控MQTT集群，助力高效开发。

735 0 0

阿里云云原生

|

存储编解码 Prometheus

|

博文

可观测｜时序数据降采样在Prometheus实践复盘

基于 Prometheus 的监控实践中，尤其是在规模较大时，时序数据的存储与查询是其中非常关键，而且问题点较多的一环。如何应对大数据量下的长周期查询，原生的 Prometheus 体系并未能给出一个令人满意的答案。对此，ARMS Prometheus 近期上线了降采样功能，为解决这个问题做出了新的尝试。

822 0 0

阿里云云原生

|

9月前

|

监控中间件 Go

|

博文

免去繁琐的手动埋点，Gin 框架可观测性最佳实践

本文将着重介绍 Gin 框架官方推荐的几种可观测性方案并进行对比，从而得出 Gin 框架可观测性的最佳实践。

262 4 4

技术内容小助手

|

11月前

|

运维监控 Cloud Native

|

博文

构建深度可观测、可集成的网络智能运维平台

本文介绍了构建深度可观测、可集成的网络智能运维平台（简称NIS），旨在解决云上网络运维面临的复杂挑战。内容涵盖云网络运维的三大难题、打造云原生AIOps工具集的解决思路、可观测性对业务稳定的重要性，以及产品发布的亮点，包括流量分析NPM、网络架构巡检和自动化运维OpenAPI，助力客户实现自助运维与优化。

771 10 10

-开发达人-

|

传感器人工智能监控

|

博文

Gartner发布《2023年十大战略技术趋势》，应用可观测性入选！

1219 1 1

阿里云云原生

|

存储运维监控

|

博文

跟误告警说再见，Smart Metrics 帮你用算法配告警

本文从两类常见的无效告警规则入手，分析有效告警配置难，误告警泛滥的原因，介绍 Smart Metrics 是如何帮助用户解决告警难配的问题的，并介绍一些最佳实践。

1337 0 0

观测云

|

数据采集 Kubernetes 网络协议

|

博文

eBPF 实践 -- 网络可观测

观测云采集器，是一款开源、一体式的数据采集 Agent，它提供全平台操作系统支持，拥有全面数据采集能力，涵盖基础设施、指标、日志、应用性能、用户访问以及安全巡检等各种场景。通过 eBPF 技术的引入，观测云采集器实践了网络传输层和应用层的部分协议的可观测。

764 0 0

元乙

|

监控 Kubernetes 数据可视化

|

博文

可观测监控方案大全-SLS全栈监控

为了便于用户快速接入和监控业务系统，SLS提供了全栈监控的APP，将各类监控数据汇总到一个实例中进行统一的管理和监控。全栈监控基于SLS的监控数据采集、存储、分析、可视化、告警、AIOps等能力构建。

2092 1 1

乘云数字DATABUFF

|

2月前

|

运维监控数据可视化

|

博文

从巴比馒头的“洗菜流水线”，来看“telemetry pipeline”工具的火热兴起

以巴比馒头自动化洗菜为喻，探讨运维领域“数据清洗”难题。DataHub作为国产可视化遥测管道工具，支持多源数据接入与低代码编排，实现日志、指标、链路等数据的高效处理与统一管理，助力企业构建高质量可观测体系。（238字）

214 4 4

游客uqb2obj6pe7ry

|

JavaScript API 开发工具

|

博文

（H5-Web3D-ThreeJS）在网页三维CAD中绘制窗户模型

本文介绍了如何使用mxcad3d在网页中创建一个简单的三维窗户模型。通过官方教程搭建环境，编写绘制窗户模型的代码，并在点击按钮后展示模型效果。最终模型包括窗框和玻璃部分，具备丰富的三维建模功能和便捷的API支持。

404 6 6

木弓-SLS

|

存储运维监控

|

博文

CloudLens for OSS--数据洞察可观测平台发布

日志服务联合阿里云OSS推出CloudLens for OSS，支持Bucket粒度的统一管理视图，支持资源用量、访问分析、异常检测、安全分析等可视化分析能力，提供场景化运维管理，实现Bucket资产的可观测性。

435 0 0

阿里云云原生

|

存储数据采集 Prometheus

|

博文

基于 OPLG 从 0 到 1 构建统一可观测平台实践

随着软件复杂度的不断提升，单体应用架构逐步向分布式和微服务的架构演进，整体的调用环境也越来越复杂，仅靠日志和指标渐渐难以快速定位复杂环境下的问题。对于全栈可观测的诉求也变得愈加强烈，Traces、Metrics 和 Logs 的连接也愈发紧密。

1747 1 3

清华土著

|

运维监控 Cloud Native

|

博文

云杉网络DeepFlow帮助5G核心网和电信云构建可观测性

为什么5G核心网和电信云需要可观测性？在过去的2021年，其实5G核心网在全球发生了多次影响范围大、持续时间长、社会影响广的故障。2021年的4月份加拿大Rogers发生了一次长达26个小时全国范围的移动通信网故障，故障发生后缺乏快速定位手段，导致故障难以在短时间内定位、消除。

418 0 0

云原生可观测

最新

全部内容

博文

问答

电子书

视频

学习

活动

Istio on ACK集成生态(2): 扩展AlertManager集成钉钉助力可观测性监控能力

扩展AlertManager集成钉钉助力Istio on ACK可观测性监控能力

Grafana Loki，轻量级日志系统

MCP Server 开发实战 | 大模型无缝对接 Grafana

图文解析带你精通时序PromQL语法

可观测可回溯 | Continuous Profiling 实践解析

AIOps已逝，欢迎进入AgenticOps（运维智能体）时代

MES系统软件体系架构及应用

阿里千万实例可观测采集器-iLogtail正式开源

🎉 WatchAlert - 开源多数据源告警引擎【运维研发必备能力】

可观测平台下告警降噪实践——GOPS分享

从 DeepSeek 敏感信息泄露谈可观测系统的数据安全预防

PTS压测问题之调试返回403如何解决

深入可观测底层：OpenTelemetry 链路传递核心原理

GIAC-2022sh 学习笔记 | 云原生时代的可观测体系在大规模应用中的落地实践

【数据可观测】阿里云的Grafana云监控大盘服务

当 OpenTelemetry 遇上阿里云 Prometheus

可观测性之Micrometer Tracing

阿里云下一代可观测时序引擎-MetricStore 2.0

统一观测｜如何使用 Prometheus 监控 Windows

Redis可观测最佳实践，5大关键指标最全解析！

日志采集效能跃迁：iLogtail 到 LoongCollector 的全面升级

【云故事探索】NO.8：揭秘餐饮行业龙头 SaaS 厂商神州商龙的全栈可观测实践

SRE方法论之监控设计

问题盘点｜使用 Prometheus 监控 Kafka，我们该关注哪些指标

对比开源丨Prometheus 服务多场景存储压测全解析

深入浅出 eBPF｜你要了解的 7 个核心问题

别让运维跪着查日志了！给老板看的“业务观测”大盘才是真香

云原生NPM与传统NPM的差异

从大规模恶意攻击 DeepSeek 事件看 AI 创新隐忧：安全可观测体系建设刻不容缓

开源大数据可观测性方案实践 - 助力集群运维智能化、便捷化

可观测性神器之 Micrometer

移动域全链路可观测架构和关键技术

高效定位 Go 应用问题：Go 可观测性功能深度解析

AI + 可观测最佳实践：让业务从“看见”到“洞察”

一文了解什么是CNAPP

对比开源丨Prometheus 服务多场景存储压测全解析

易操作、可观测的 MQTT Dashboard，集群数据尽在掌握

可观测｜时序数据降采样在Prometheus实践复盘

免去繁琐的手动埋点，Gin 框架可观测性最佳实践

构建深度可观测、可集成的网络智能运维平台

Gartner发布《2023年十大战略技术趋势》，应用可观测性入选！

跟误告警说再见，Smart Metrics 帮你用算法配告警

eBPF 实践 -- 网络可观测

可观测监控方案大全-SLS全栈监控

从巴比馒头的“洗菜流水线”，来看“telemetry pipeline”工具的火热兴起

（H5-Web3D-ThreeJS）在网页三维CAD中绘制窗户模型

CloudLens for OSS--数据洞察可观测平台发布

基于 OPLG 从 0 到 1 构建统一可观测平台实践

云杉网络DeepFlow帮助5G核心网和电信云构建可观测性

活跃用户

相关产品