云原生可观测-博文-阿里云开发者社区-阿里云

osswangxining

|

存储 Prometheus 监控

|

博文

Istio on ACK集成生态(1): 集成TSDB助力可观测性存储

使用Prometheus进行监控是Istio提供的监控能力之一，通过集成TSDB有效地解决持久化存储的问题。

2866 0 0

osswangxining

|

Prometheus 监控 Cloud Native

|

博文

扩展AlertManager集成钉钉助力Istio on ACK可观测性监控能力

阿里云容器服务Kubernetes（简称ACK）支持一键部署Istio，可以参考[文档](https://help.aliyun.com/document_detail/89805.html)在ACK上部署使用Isito。Istio on ACK提供了丰富的监控能力，为网格中的服务收集遥测数据，其中Mixer是负责提供策略控制和遥测收集的Istio组件。使用Prometheus进行监控是Istio

2498 0 0

云上的喵酱

|

9月前

|

存储前端开发数据可视化

|

博文

Grafana Loki，轻量级日志系统

本文介绍了基于Grafana、Loki和Alloy构建的轻量级日志系统。Loki是一个由Grafana Labs开发的日志聚合系统，具备高可用性和多租户支持，专注于日志而非指标，通过标签索引而非内容索引实现高效存储。Alloy则是用于收集和转发日志至Loki的强大工具。文章详细描述了系统的架构、组件及其工作流程，并提供了快速搭建指南，包括准备步骤、部署命令及验证方法。此外，还展示了如何使用Grafana查看日志，以及一些基本的LogQL查询示例。最后，作者探讨了Loki架构的独特之处，提出了“巨型单体模块化”的概念，即一个应用既可单体部署也可分布式部署，整体协同实现全部功能。

3276 70 71

阿里云云原生

|

7月前

|

人工智能 API 数据库

|

博文

MCP Server 开发实战 | 大模型无缝对接 Grafana

以 AI 世界的“USB-C”标准接口——MCP（Model Context Protocol）为例，演示如何通过 MCP Server 实现大模型与阿里云 Grafana 服务的无缝对接，让智能交互更加高效、直观。

2290 117 123

1752192245978413

|

1月前

|

存储 SQL Prometheus

|

博文

图文解析带你精通时序PromQL语法

[阿里云SLS可观测团队发布] 本文通过图文解析深入讲解PromQL的计算原理，涵盖其与SQL的差异、时间线模型、选点机制、聚合函数、窗口函数及常见非预期场景，帮助用户掌握PromQL的核心语法与执行逻辑。

528 10 12

阿里云云原生

|

存储运维监控

|

博文

深入浅出 eBPF｜你要了解的 7 个核心问题

eBPF 提供的只是一个框架和机制，核心还是需要用 eBPF 的人对软件栈的理解，找到合适的插桩点，能够和应用问题进行关联。

972 0 0

游客vz3ulepoozjvy

|

11月前

|

运维 Prometheus 监控

|

博文

🎉 WatchAlert - 开源多数据源告警引擎【运维研发必备能力】

WatchAlert 是一个开源的多数据源告警引擎，支持从 Prometheus、Elasticsearch、Kubernetes 等多种数据源获取监控数据，并根据预定义的告警规则触发告警。它具备多数据源支持、灵活的告警规则、多渠道告警通知、可扩展架构和高性能等核心特性，帮助团队更高效地监控和响应问题。项目地址：https://github.com/opsre/WatchAlert

1421 18 18

阿里云云原生

|

Arthas Oracle Java

|

博文

可观测可回溯 | Continuous Profiling 实践解析

我们定位异常时，时常无法知晓代码内部发生了什么，因此无从谈起修复和改善代码。Continuous Profiling帮助开发者全面掌握、回溯生产环节代码执行细节，增强可观测性。

1689 0 0

yestodorrow

|

Web App开发域名解析监控

|

博文

前端可观测性的宣讲-1022

702 0 1

ux6t45lknjgbo

|

存储 Prometheus 监控

|

博文

当 OpenTelemetry 遇上阿里云 Prometheus

本文以构建系统可观测（重点为指标监控体系）为切入点，对比 OpenTelemetry 与 Prometheus 的相同与差异，后重点介绍如何将应用的 OpenTelemetry 指标接入 Prometheus 及背后原理，最后介绍阿里云可观测监控 Prometheus 版拥抱 OpenTelemetry 及相关落地实践案例，希望能更好的帮助读者更好的理解 OpenTelemetry 及与 Prometheus 的生态融合。

1163 0 0

开发者小助手_LS

|

存储传感器运维

|

博文

阿里可观测性数据引擎的技术实践

相比传统的告警、监控，可观测性能够以更加“白盒”的方式看透整个复杂的系统，帮助我们更好的观察系统的运行状况，快速定位和解决问题。就像发动机而言，告警只是告诉你发动机是否有问题，而一些包含转速、温度、压力的仪表盘能够帮我们大致确定是哪个部分可能有问题，而真正定位细节问题还需要观察每个部件的传感器数据才行。

1550 1 2

成喆

|

存储 SQL 机器学习/深度学习

|

博文

可观测平台下告警降噪实践——GOPS分享

本文介绍阿里云SLS丁来强（花名成喆）在GOPS2021上海站分享时的议题内容，结尾有PPT下载链接。

1855 0 1

开发者小助手_LS

|

数据采集运维监控

|

博文

阿里千万实例可观测采集器-iLogtail正式开源

11月23日，阿里正式开源可观测数据采集器iLogtail。作为阿里内部可观测数据采集的基础设施，iLogtail承载了阿里巴巴集团、蚂蚁的日志、监控、Trace、事件等多种可观测数据的采集工作。iLogtail运行在服务器、容器、K8s、嵌入式等多种环境，支持采集数百种可观测数据，目前已经有千万级的安装量，每天采集数十PB的可观测数据，广泛应用于线上监控、问题分析/定位、运营分析、安全分析等多种场景。

2067 0 0

啊逗

|

7月前

|

监控测试技术 Go

|

博文

告别传统Log追踪！GOAT如何用HTTP接口重塑代码监控

本文介绍了GOAT（Golang Application Tracing）工具的使用方法，通过一个Echo问答服务实例，详细展示了代码埋点与追踪技术的应用。内容涵盖初始化配置、自动埋点、手动调整埋点、数据监控及清理埋点等核心功能。GOAT适用于灰度发布、功能验证、性能分析、Bug排查和代码重构等场景，助力Go项目质量保障与平稳发布。工具以轻量高效的特点，为开发团队提供数据支持，优化决策流程。

476 89 89

真的很搞笑

|

缓存负载均衡测试技术

|

博文

pts压测问题之接口超时如何解决

PTS（Performance Testing Service）是一项面向网站、应用等提供的压力测试服务，用于模拟不同场景下的用户访问，评估系统的性能表现；在进行PTS压测时，可能会出现一些异常或报错，本合集将PTS压测中频繁出现的问题及其解决办法进行汇编，旨在帮助用户更有效地进行性能测试和问题定位。

709 1 1

阿里云云原生

|

消息中间件存储弹性计算

|

博文

可观测实践｜如何利用 Prometheus 精细化观测云产品

随着企业使用越来越多的云产品，如何监控不同云产品运行状态，又该如何建立统一大盘，不妨看看如何通过阿里云Prometheus解决上述问题。

599 0 0

开源MES

|

数据采集监控供应链

|

博文

MES系统软件体系架构及应用

MES系统是数字化车间的核心。MES通过数字化生产过程控制，借助自动化和智能化技术手段，实现车间制造控制智能化、生产过程透明化、制造装备数控化和生产信息集成化。生产管理MES系统主要包括车间管理系统、质量管理系统、资源管理系统及数据采集和分析系统等，由技术平台层、网络层以及设备层实现。

2495 1 1

观测云

|

存储缓存监控

|

博文

Redis可观测最佳实践，5大关键指标最全解析！

一文带您了解Redis

2925 1 2

乘云数字DATABUFF

|

25天前

|

运维监控数据可视化

|

博文

从巴比馒头的“洗菜流水线”，来看“telemetry pipeline”工具的火热兴起

以巴比馒头自动化洗菜为喻，探讨运维领域“数据清洗”难题。DataHub作为国产可视化遥测管道工具，支持多源数据接入与低代码编排，实现日志、指标、链路等数据的高效处理与统一管理，助力企业构建高质量可观测体系。（238字）

162 4 4

太业

|

JSON 运维 Kubernetes

|

博文

K8s场景下Logtail组件可观测方案升级-Logtail事件监控发布

SLS针对Logtail本身以及Logtail的管控组件alibaba-log-controller，采用K8s事件的方式，将处理流程中的关键事件透出，从而让用户能够更清楚的感知其中发生的异常。

721 0 0

真的很搞笑

|

tengine Java 测试技术

|

博文

PTS压测问题之调试返回403如何解决

PTS（Performance Testing Service）是一项面向网站、应用等提供的压力测试服务，用于模拟不同场景下的用户访问，评估系统的性能表现；在进行PTS压测时，可能会出现一些异常或报错，本合集将PTS压测中频繁出现的问题及其解决办法进行汇编，旨在帮助用户更有效地进行性能测试和问题定位。

631 2 2

阿里云开发者

|

6月前

|

监控 Kubernetes Go

|

博文

日志采集效能跃迁：iLogtail 到 LoongCollector 的全面升级

LoongCollector 在日志场景中实现了全面的重磅升级，从功能、性能、稳定性等各个方面均进行了深度优化和提升，本文我们将对 LoongCollector 的升级进行详细介绍。

555 86 88

学堂小助手

|

监控 Serverless 开发工具

|

博文

函数计算的可观测性|学习笔记

快速学习函数计算的可观测性

306 0 0

EMQ

|

监控数据可视化 NoSQL

|

博文

易操作、可观测的 MQTT Dashboard，集群数据尽在掌握

全新EMQX Dashbord一览，可观测性和可操作性大幅提升，通过Web页面轻松管理和监控MQTT集群，助力高效开发。

647 0 0

阿里云云原生

|

存储数据采集 Prometheus

|

博文

基于 OPLG 从 0 到 1 构建统一可观测平台实践

随着软件复杂度的不断提升，单体应用架构逐步向分布式和微服务的架构演进，整体的调用环境也越来越复杂，仅靠日志和指标渐渐难以快速定位复杂环境下的问题。对于全栈可观测的诉求也变得愈加强烈，Traces、Metrics 和 Logs 的连接也愈发紧密。

1662 1 3

做运维的乔不思

|

存储运维监控

|

博文

SRE方法论之监控设计

监控系统的四个黄金指标是：延迟（Latency）、流量（Traffic）、错误（Errors）、饱和度（Saturation）

1112 1 1

阿里云云原生

|

7月前

|

人工智能监控安全

|

博文

从 DeepSeek 敏感信息泄露谈可观测系统的数据安全预防

探讨了 SLS 中增强数据安全的几种方式：权限精细化管控有效减少了潜在安全风险；接入层脱敏技术阻止敏感数据落库，提升了隐私保护；StoreView 字段集控制通过限制查询数据范围，降低数据泄露损害。智能监控系统提供实时监测，快速识别并阻断异常拖库行为，为企业提供了迅速响应和抵御威胁的能力。

505 6 7

技术内容小助手

|

11月前

|

存储人工智能运维

|

博文

AI + 可观测最佳实践：让业务从“看见”到“洞察”

本文介绍了AI Ops的概念及其在提升系统运维效率、洞察力和可观测性方面的作用。主要内容分为三个部分：一是监控、观测与洞察的区别及挑战，强调了数据整合和语义对齐的重要性；二是AI与计算如何重塑可观测性，通过UModel数字图谱和多模态存储分析架构实现数据联通；三是最佳实践与未来展望，展示了阿里云AI Stack可观测解决方案的应用案例，并总结了可观测性的四个发展阶段，最终愿景是借助AI力量让每个人成为多领域的专家。

845 9 9

InfoQ

|

SQL 存储监控

|

博文

深入可观测底层：OpenTelemetry 链路传递核心原理

本文会系统讲解链路传递一些基本概念，同时结合案例讲解链路传递的过程。

3299 1 1

观测云

|

JSON 监控负载均衡

|

博文

Nginx可观测实践分享，一篇文章带你快速入门

一文带你快速了解Nginx

499 0 0

成喆

|

存储 SQL 数据采集

|

博文

可观测性平台下的低代码技术实践——PyCon2021分享

本文介绍阿里云SLS丁来强（花名成喆）在PyCon2021上海站分享时的议题内容，结尾有录播的视频和PPT下载链接。

682 0 0

中间件小哥

|

存储 Prometheus 监控

|

博文

浅谈可观测架构模式

可观测性（ Observability ）主要是指了解程序内部运行情况的能力。关于可观测性的架构设计主要涉及三个部分：日志（logging）、度量（Metrics）和追踪（Tracing）。本文将从这三个方面阐述可观测性架构的设计。

2135 0 0

-开发达人-

|

传感器人工智能监控

|

博文

Gartner发布《2023年十大战略技术趋势》，应用可观测性入选！

1178 1 1

真的很搞笑

|

测试技术

|

博文

PTS压测问题之下载接口额外收费如何解决

PTS（Performance Testing Service）是一项面向网站、应用等提供的压力测试服务，用于模拟不同场景下的用户访问，评估系统的性能表现；在进行PTS压测时，可能会出现一些异常或报错，本合集将PTS压测中频繁出现的问题及其解决办法进行汇编，旨在帮助用户更有效地进行性能测试和问题定位。

314 2 2

阿里云云原生

|

存储 Prometheus 监控

|

博文

统一观测丨使用 Prometheus 监控 Nginx Ingress 网关最佳实践

1021 0 0

阿里云云原生

|

存储 Prometheus Kubernetes

|

博文

对比开源丨Prometheus 服务多场景存储压测全解析

作为国内领先的云服务提供商，阿里云提供了优秀的可观测全套解决方案，阿里云 Prometheus 服务正是其中重要一环，相比于开源版本 Prometheus，阿里云的 Prometheus 服务无论是易用性、扩展性、性能均有大幅度提升。

398 0 0

阿里云云原生

|

消息中间件弹性计算 Prometheus

|

博文

问题盘点｜使用 Prometheus 监控 Kafka，我们该关注哪些指标

Kafka 作为当前广泛使用的中间件产品，承担了重要/核心业务数据流转，其稳定运行关乎整个业务系统可用性。本文旨在分享阿里云 Prometheus 在阿里云 Kafka 和自建 Kafka 的监控实践。

2941 30 33

阿里云云原生

|

存储运维监控

|

博文

跟误告警说再见，Smart Metrics 帮你用算法配告警

本文从两类常见的无效告警规则入手，分析有效告警配置难，误告警泛滥的原因，介绍 Smart Metrics 是如何帮助用户解决告警难配的问题的，并介绍一些最佳实践。

1274 0 0

Kindling

|

存储自然语言处理运维

|

博文

各路大神云集探讨eBPF技术在可观测性领域的落地现状和未来可能

本周的Kindling研讨会云集了可观测性领域的各路大神，大家就当前可观测性领域的现状和未来进行了交流和探讨。

385 0 0

乘云数字DATABUFF

|

10天前

|

运维监控数据可视化

|

博文

别让运维跪着查日志了！给老板看的“业务观测”大盘才是真香

深夜告警、业务暴跌、全员背锅？一次支付故障暴露传统监控盲区。我们通过业务观测，将技术指标转化为老板听得懂的“人话”，实现从被动救火到主动洞察的跨越。让技术团队不再跪着查日志，而是站着驱动业务增长。

94 9 9

带你读小助手

|

数据可视化测试技术数据安全/隐私保护

|

博文

通过可观测可视化Grafana版进行数据可视化展示与分析

使用可观测可视化Grafana版进行数据可视化展示与分析。

689 1 1

InfoQ

|

消息中间件自然语言处理 Kubernetes

|

博文

知乎团队在 Istio 使用 Opentelemetry 做可观测的最佳实践

云原生架构下，可观测领域的 OpenTelemetry 无疑是新时代的可观测标准。它提供的一些组件与工具极大地帮助了企业构建供应商无关的观测架构。

1281 1 1

阿里云云原生

|

Prometheus Kubernetes 监控

|

博文

通过Kubernetes监控探索应用架构，发现预期外的流量

Kubernetes 监控立足于应用监控之下的 Kubernetes 容器界面和底层操作系统，是 Kubernetes 集群软件栈端到端可观测性的一体化解决方案，在 Kubernetes 监控中可以同时看到关联的所有层的观测数据。我们希望通过 Kubernetes 监控的一系列最佳实践，让大家能够使用 Kubernetes 监控解决 Kubernetes 环境下棘手的可观测问题。

394 0 0

技术工程师

|

SQL 人工智能机器人

|

博文

《阿里云可观测最佳实践》——1.深绘智能（上）

377 0 0

-开发达人-

|

机器学习/深度学习存储人工智能

|

博文

首次引入！用因果推理做部分可观测强化学习｜AAAI 2023

413 0 0

观测云

|

存储运维监控

|

博文

客户案例｜橡树黑卡携手观测云，实现会员体系业务可观测

橡树黑卡（www.oakvip.cn）是国内领先的付费会员制权益服务平台，提供付费会员解决方案设计、产品研发、数字供应链管理、活动运营、客服咨询等一站式服务。

487 0 0

阿里云云原生

|

存储 Prometheus 运维

|

博文

云原生可观测套件：构建无处不在的可观测基础设施

近日，全球权威 IT 研究与顾问咨询公司 Gartner 发布《2023 年十大战略技术趋势》报告，「应用可观测性」再次成为其中热门趋势之一。阿里云原生可观测套件 ACOS Prometheus监控、ARMS、Grafana服务皆迎来重大更新，进一步覆盖不同监控长江。

1284 0 0

阿里云云原生

|

存储运维 Prometheus

|

博文

从Opentracing、OpenCensus 到 OpenTelemetry，看可观测数据标准演进史

一文读懂Opentelemetry!

1459 1 1

探索云世界

|

5月前

|

存储运维开发工具

|

博文

警惕日志采集失败的 6 大经典雷区：从本地管理反模式到 LoongCollector 标准实践

本文总结了日志管理中的六大反模式及优化建议，涵盖日志轮转、存储选择、并发写入等常见问题，帮助提升日志采集的完整性与系统可观测性，适用于运维及开发人员优化日志管理策略。

191 5 5

阿里云云原生

|

7月前

|

数据采集监控 Oracle

|

博文

GraalVM 24 正式发布阿里巴巴贡献重要特性 —— 支持 Java Agent 插桩

阿里巴巴是 GraalVM 全球顾问委员会的唯一中国代表，阿里云程序语言与编译器团队和可观测团队合作实现了 GraalVM 应用的无侵入可观测能力，并在 ARMS 平台上线了该功能。目前在 GraalVM 24 中发布的是支持 Java agent 的第一步，其余能力将在 GraalVM 的后续版本中陆续发布。

522 22 23

云原生可观测

最新

全部内容

博文

问答

电子书

视频

学习

活动

Istio on ACK集成生态(1): 集成TSDB助力可观测性存储

扩展AlertManager集成钉钉助力Istio on ACK可观测性监控能力

Grafana Loki，轻量级日志系统

MCP Server 开发实战 | 大模型无缝对接 Grafana

图文解析带你精通时序PromQL语法

深入浅出 eBPF｜你要了解的 7 个核心问题

🎉 WatchAlert - 开源多数据源告警引擎【运维研发必备能力】

可观测可回溯 | Continuous Profiling 实践解析

前端可观测性的宣讲-1022

当 OpenTelemetry 遇上阿里云 Prometheus

阿里可观测性数据引擎的技术实践

可观测平台下告警降噪实践——GOPS分享

阿里千万实例可观测采集器-iLogtail正式开源

告别传统Log追踪！GOAT如何用HTTP接口重塑代码监控

pts压测问题之接口超时如何解决

可观测实践｜如何利用 Prometheus 精细化观测云产品

MES系统软件体系架构及应用

Redis可观测最佳实践，5大关键指标最全解析！

从巴比馒头的“洗菜流水线”，来看“telemetry pipeline”工具的火热兴起

K8s场景下Logtail组件可观测方案升级-Logtail事件监控发布

PTS压测问题之调试返回403如何解决

日志采集效能跃迁：iLogtail 到 LoongCollector 的全面升级

函数计算的可观测性|学习笔记

易操作、可观测的 MQTT Dashboard，集群数据尽在掌握

基于 OPLG 从 0 到 1 构建统一可观测平台实践

SRE方法论之监控设计

从 DeepSeek 敏感信息泄露谈可观测系统的数据安全预防

AI + 可观测最佳实践：让业务从“看见”到“洞察”

深入可观测底层：OpenTelemetry 链路传递核心原理

Nginx可观测实践分享，一篇文章带你快速入门

可观测性平台下的低代码技术实践——PyCon2021分享

浅谈可观测架构模式

Gartner发布《2023年十大战略技术趋势》，应用可观测性入选！

PTS压测问题之下载接口额外收费如何解决

统一观测丨使用 Prometheus 监控 Nginx Ingress 网关最佳实践

对比开源丨Prometheus 服务多场景存储压测全解析

问题盘点｜使用 Prometheus 监控 Kafka，我们该关注哪些指标

跟误告警说再见，Smart Metrics 帮你用算法配告警

各路大神云集探讨eBPF技术在可观测性领域的落地现状和未来可能

别让运维跪着查日志了！给老板看的“业务观测”大盘才是真香

通过可观测可视化Grafana版进行数据可视化展示与分析

知乎团队在 Istio 使用 Opentelemetry 做可观测的最佳实践

通过Kubernetes监控探索应用架构，发现预期外的流量

《阿里云可观测最佳实践》——1.深绘智能（上）

首次引入！用因果推理做部分可观测强化学习｜AAAI 2023

客户案例 ｜ 橡树黑卡携手观测云，实现会员体系业务可观测

云原生可观测套件：构建无处不在的可观测基础设施

从Opentracing、OpenCensus 到 OpenTelemetry，看可观测数据标准演进史

警惕日志采集失败的 6 大经典雷区：从本地管理反模式到 LoongCollector 标准实践

GraalVM 24 正式发布阿里巴巴贡献重要特性 —— 支持 Java Agent 插桩

活跃用户

相关产品

客户案例｜橡树黑卡携手观测云，实现会员体系业务可观测