开发者社区> 云原生> 云原生可观测

云原生可观测

关注

云原生可观测基于Prometheus、Grafana 、OpenTelemetry 等核心产品, 形成指标、链路存储分析、异构数据源集成的数据层, 通过标准PromQL和SQL提供大盘展示、告警与探索能力。

0
今日
2157
内容
4
活动
289
关注
|
Prometheus 监控 Cloud Native
|

扩展AlertManager集成钉钉助力Istio on ACK可观测性监控能力

阿里云容器服务Kubernetes(简称ACK)支持一键部署Istio,可以参考[文档](https://help.aliyun.com/document_detail/89805.html)在ACK上部署使用Isito。Istio on ACK提供了丰富的监控能力,为网格中的服务收集遥测数据,其中Mixer是负责提供策略控制和遥测收集的Istio组件。使用Prometheus进行监控是Istio

2470 0
|
9月前
|
存储 前端开发 数据可视化
|

Grafana Loki,轻量级日志系统

本文介绍了基于Grafana、Loki和Alloy构建的轻量级日志系统。Loki是一个由Grafana Labs开发的日志聚合系统,具备高可用性和多租户支持,专注于日志而非指标,通过标签索引而非内容索引实现高效存储。Alloy则是用于收集和转发日志至Loki的强大工具。文章详细描述了系统的架构、组件及其工作流程,并提供了快速搭建指南,包括准备步骤、部署命令及验证方法。此外,还展示了如何使用Grafana查看日志,以及一些基本的LogQL查询示例。最后,作者探讨了Loki架构的独特之处,提出了“巨型单体模块化”的概念,即一个应用既可单体部署也可分布式部署,整体协同实现全部功能。

2873 70
|
6天前
|
运维 监控 数据可视化
|

从巴比馒头的“洗菜流水线”,来看“telemetry pipeline”工具的火热兴起

以巴比馒头自动化洗菜为喻,探讨运维领域“数据清洗”难题。DataHub作为国产可视化遥测管道工具,支持多源数据接入与低代码编排,实现日志、指标、链路等数据的高效处理与统一管理,助力企业构建高质量可观测体系。(238字)

71 4
|
Arthas Oracle Java
|

可观测可回溯 | Continuous Profiling 实践解析

我们定位异常时,时常无法知晓代码内部发生了什么,因此无从谈起修复和改善代码。​Continuous Profiling帮助开发者全面掌握、回溯生产环节代码执行细节,增强可观测性。​

1545 0
|
24天前
|
存储 SQL Prometheus
|

图文解析带你精通时序PromQL语法

[阿里云SLS可观测团队发布] 本文通过图文解析深入讲解PromQL的计算原理,涵盖其与SQL的差异、时间线模型、选点机制、聚合函数、窗口函数及常见非预期场景,帮助用户掌握PromQL的核心语法与执行逻辑。

341 9
|
7月前
|
人工智能 API 数据库
|

MCP Server 开发实战 | 大模型无缝对接 Grafana

以 AI 世界的“USB-C”标准接口——MCP(Model Context Protocol)为例,演示如何通过 MCP Server 实现大模型与阿里云 Grafana 服务的无缝对接,让智能交互更加高效、直观。

2047 116
|
11月前
|
运维 Prometheus 监控
|

🎉 WatchAlert - 开源多数据源告警引擎【运维研发必备能力】

WatchAlert 是一个开源的多数据源告警引擎,支持从 Prometheus、Elasticsearch、Kubernetes 等多种数据源获取监控数据,并根据预定义的告警规则触发告警。它具备多数据源支持、灵活的告警规则、多渠道告警通知、可扩展架构和高性能等核心特性,帮助团队更高效地监控和响应问题。项目地址:https://github.com/opsre/WatchAlert

1256 18
|
7月前
|
人工智能 监控 安全
|

从 DeepSeek 敏感信息泄露谈可观测系统的数据安全预防

探讨了 SLS 中增强数据安全的几种方式:权限精细化管控有效减少了潜在安全风险;接入层脱敏技术阻止敏感数据落库,提升了隐私保护;StoreView 字段集控制通过限制查询数据范围,降低数据泄露损害。智能监控系统提供实时监测,快速识别并阻断异常拖库行为,为企业提供了迅速响应和抵御威胁的能力。

412 6
|
6天前
|
SQL 运维
|

【故障定位系列】波动度故障

本文探讨SQL耗时故障的自适应定位方法,针对不同波动程度的故障,提出通过自学习正常区间特征(如方差、标准差)实现异常检测,并结合上下游响应时间比例关系判断根因,辅以实战案例验证定位准确性。

45 1
|
消息中间件 弹性计算 Prometheus
|

问题盘点|使用 Prometheus 监控 Kafka,我们该关注哪些指标

Kafka 作为当前广泛使用的中间件产品,承担了重要/核心业务数据流转,其稳定运行关乎整个业务系统可用性。本文旨在分享阿里云 Prometheus 在阿里云 Kafka 和自建 Kafka 的监控实践。

2882 30
|
存储 Prometheus 监控
|

当 OpenTelemetry 遇上阿里云 Prometheus

本文以构建系统可观测(重点为指标监控体系)为切入点,对比 OpenTelemetry 与 Prometheus 的相同与差异,后重点介绍如何将应用的 OpenTelemetry 指标接入 Prometheus 及背后原理,最后介绍阿里云可观测监控 Prometheus 版拥抱 OpenTelemetry 及相关落地实践案例,希望能更好的帮助读者更好的理解 OpenTelemetry 及与 Prometheus 的生态融合。

1052 0
|
存储 缓存 监控
|

Redis可观测最佳实践,5大关键指标最全解析!

一文带您了解Redis

2856 1
|
数据采集 运维 监控
|

阿里千万实例可观测采集器-iLogtail正式开源

11月23日,阿里正式开源可观测数据采集器iLogtail。作为阿里内部可观测数据采集的基础设施,iLogtail承载了阿里巴巴集团、蚂蚁的日志、监控、Trace、事件等多种可观测数据的采集工作。iLogtail运行在服务器、容器、K8s、嵌入式等多种环境,支持采集数百种可观测数据,目前已经有千万级的安装量,每天采集数十PB的可观测数据,广泛应用于线上监控、问题分析/定位、运营分析、安全分析等多种场景。

1988 0
|
数据采集 监控 供应链
|

MES系统软件体系架构及应用

MES系统是数字化车间的核心。MES通过数字化生产过程控制,借助自动化和智能化技术手段,实现车间制造控制智能化、生产过程透明化、制造装备数控化和生产信息集成化。生产管理MES系统主要包括车间管理系统、质量管理系统、资源管理系统及数据采集和分析系统等,由技术平台层、网络层以及设备层实现。

2395 1
|
存储 数据采集 Prometheus
|

基于 OPLG 从 0 到 1 构建统一可观测平台实践

随着软件复杂度的不断提升,单体应用架构逐步向分布式和微服务的架构演进,整体的调用环境也越来越复杂,仅靠日志和指标渐渐难以快速定位复杂环境下的问题。对于全栈可观测的诉求也变得愈加强烈,Traces、Metrics 和 Logs 的连接也愈发紧密。

1594 1
|
SQL 存储 监控
|

深入可观测底层:OpenTelemetry 链路传递核心原理

本文会系统讲解链路传递一些基本概念,同时结合案例讲解链路传递的过程。

3226 1
|
运维 Prometheus 监控
|

可观测告警运维系统调研——SLS告警与多款方案对比

本文介绍对比多款告警监控运维平台方案,覆盖阿里云SLS、Azure、AWS、自建系统(ELK、Prometheus、TICK)等方案。

5189 0
|
存储 运维 监控
|

SRE方法论之监控设计

监控系统的四个黄金指标是:延迟(Latency)、流量(Traffic)、错误(Errors)、饱和度(Saturation)

1054 1
|
10月前
|
运维 监控 Cloud Native
|

构建深度可观测、可集成的网络智能运维平台

本文介绍了构建深度可观测、可集成的网络智能运维平台(简称NIS),旨在解决云上网络运维面临的复杂挑战。内容涵盖云网络运维的三大难题、打造云原生AIOps工具集的解决思路、可观测性对业务稳定的重要性,以及产品发布的亮点,包括流量分析NPM、网络架构巡检和自动化运维OpenAPI,助力客户实现自助运维与优化。

676 11
|
存储 运维 监控
|

跟误告警说再见,Smart Metrics 帮你用算法配告警

本文从两类常见的无效告警规则入手,分析有效告警配置难,误告警泛滥的原因,介绍 Smart Metrics 是如何帮助用户解决告警难配的问题的,并介绍一些最佳实践。

1222 0
|
弹性计算 Prometheus 运维
|

【数据可观测】阿里云的Grafana云监控大盘服务

阿里云发布的grafana托管服务,更是为云上的资产提供了高效的监控数据可观测能力。阿里云grafana弹性、免运维,可以方便的对接云上云下的各种数据源。

2685 1
|
运维 监控 数据可视化
|

高德打车构建可观测性系统实践

互联网工程的高速发展,分布式、微服务、容器化架构的流行,互联网已全面进入云原生时代。构建系统的方式由最初的单体大应用演变为分布式架构,一台服务器可能仅存几小时甚至几分钟,这种复杂性大大增加了把系统运行状态可视化的难度。

2474 0
|
弹性计算 Prometheus 运维
|

统一观测|如何使用 Prometheus 监控 Windows

阿里云 Prometheus 与阿里云容器服务和 ECS 无缝集成,默认提供了 Windows 的 CPU、内存、磁盘、网络和进程等 5 方面的核心监控指标采集,同时提供了对应的优化后的专家级监控大盘和告警指标模板,为用户提供了免运维、开箱即用的 Windows 监控能力。

1123 0
|
存储 Prometheus 监控
|

Dubbo 可观测性实践之 Metrics 功能解析

Dubbo3 的建设规划有上云,可观测性是上云必不可少的能力,集群间根据实例可用性负载均衡、Kubernetes 弹性伸缩、建立实例健康模型等等运用场景都需要可观测性。

1022 0
|
存储 SQL 机器学习/深度学习
|

可观测平台下告警降噪实践——GOPS分享

本文介绍阿里云SLS丁来强(花名成喆)在GOPS2021上海站分享时的议题内容,结尾有PPT下载链接。

1746 0
|
SQL 机器学习/深度学习 运维
|

这才是可观测告警运维平台——20个SLS告警运维场景

本文以20个SLS告警运维场景说明可观测告警运维平台的痛点需求。

2507 0
|
7月前
|
监控 Go 数据处理
|

阿里云可观测 2025 年 3 月产品动态

阿里云可观测 2025 年 3 月产品动态

319 23
|
8月前
|
人工智能 运维 监控
|

从大规模恶意攻击 DeepSeek 事件看 AI 创新隐忧:安全可观测体系建设刻不容缓

唯有通过全行业的协同努力,加强整体、完善的网络安全可观测建设,才能为 AI 技术的创新和发展构建一个安全而稳固的环境。我们期盼并相信,在攻克这些网络安全难题之后,AI 创新将迎来更加安全、灿烂的未来。

357 4
|
存储 移动开发 运维
|

移动域全链路可观测架构和关键技术

移动域全链路可观测架构和关键技术

763 0
|
数据采集 弹性计算 运维
|

阿里巴巴高级技术专家姜文锋:云服务器可观测能力的探索与实践

本篇内容分享了云服务器可观测能力的探索与实践。

856 0
|
数据采集 应用服务中间件 API
|

【最佳实践】ingest对异源数据结构化处理,并由Elastic Stack实现可观测性分析

本文将讲述如何运用Elasticsearch的 ingest 节点实现数据结构化,并对数据进行处理。

1863 0
|
11月前
|
存储 人工智能 运维
|

AI + 可观测最佳实践:让业务从“看见”到“洞察”

本文介绍了AI Ops的概念及其在提升系统运维效率、洞察力和可观测性方面的作用。主要内容分为三个部分:一是监控、观测与洞察的区别及挑战,强调了数据整合和语义对齐的重要性;二是AI与计算如何重塑可观测性,通过UModel数字图谱和多模态存储分析架构实现数据联通;三是最佳实践与未来展望,展示了阿里云AI Stack可观测解决方案的应用案例,并总结了可观测性的四个发展阶段,最终愿景是借助AI力量让每个人成为多领域的专家。

794 9
EMQ
|
JSON 运维 Prometheus
|

易操作、可观测、可扩展,EMQX如何简化物联网应用开发

本文将从可操作性、可观测性、扩展性三个方面分享大规模分布式物联网MQTT消息服务器EMQX 5.0在运维监测、问题排查以及功能扩展中的功能优化,探索如何利用这些优化助力物联网应用开发。

610 15
|
SQL 运维 Java
|

ARMS Java 应用诊断-全景图首次发布!

随着更多企业迁移上云,应用运行环境、网络发生变化。当应用遇到故障需要问题定位时,一些传统问题定位手段由于效率、准确性等问题已无法满足 SRE 运维需求。本文以问题驱动为视角,结合阿里巴巴自身实践与客户服务经验,完整梳理可观测时代 Java 应用诊断知识图谱。

2157 0
|
监控 Kubernetes 安全
|

关于 eBPF 安全可观测性,你需要知道的那些事儿

聊一聊eBPF 安全可观测性。

1825 0
|
机器学习/深度学习 监控 Kubernetes
|

What is observability?|一文读懂什么是系统可观测性

一文带你走近可观测世界

1102 0
|
4月前
|
人工智能 Prometheus 监控
|

阿里云可观测 2025 年 4 月产品动态

阿里云可观测 2025 年 4 月产品动态

129 1
|
8月前
|
SQL 运维 监控
|

高效定位 Go 应用问题:Go 可观测性功能深度解析

为进一步赋能用户在复杂场景下快速定位与解决问题,我们结合近期发布的一系列全新功能,精心梳理了一套从接入到问题发现、再到问题排查与精准定位的最佳实践指南。

203 6
|
12月前
|
缓存 NoSQL Linux
|

Linux调试

本文介绍了Linux调试、性能分析和追踪的培训资料,涵盖调试、性能分析和追踪的基础知识及常用工具。

726 63
|
云安全 安全 Cloud Native
|

一文了解什么是CNAPP

在云计算蓬勃发展的今天,企业面临的安全挑战愈发复杂。传统安全方案已力不逮,CNAPP(云原生应用保护平台)应运而生,革新云安全领域。CNAPP专为云环境设计,提供全生命周期安全保护,具备微隔离、访问控制、数据保护等功能,并利用自动化与AI技术简化管理、智能响应威胁,适用于多云、DevOps等多种场景。尽管存在技术复杂性和成本等挑战,CNAPP仍将持续进化,变得更加智能、自动且易于集成,助力企业构建稳健的云安全体系。

871 0
|
Prometheus 监控 Cloud Native
|

grafana展示的CPU利用率与实际不符的问题探究

观察到`mpstat`命令显示单核CPU的`%usr`和`%sys`分别持续在70%和20%,而Grafana监控数据显示较低。问题源于Grafana表达式计算的是CPU时间增量而非利用率。`mpstat`通过`/proc/stat`获取数据并计算CPU利用率,而`node-exporter`直接导出原始数据。调整Grafana表达式以匹配`mpstat`的计算方式后,两者结果一致。解决方案是修正Grafana查询以准确反映CPU占用率。

581 1

可观测性简史-可观测性价值精讲ppt-业务系统的护城河

可观测性价值精讲,文末随附可观测性简史,可以快速注册体验可观测性平台,构建业务系统的护城河,指标体系和价值体系

406 1
|
存储 Prometheus 监控
|

云原生网关的可观测性体系实践

云原生网关是阿里云微服务引擎(MSE)下的一款托管类型网关产品,其将传统的流量网关与微服务网关进行了整合,本文将讲述如何基于云原生网关去搭建网关场景的可观测性体系。

802 0
|
存储 自然语言处理 运维
|

基于 eBPF 的 Kubernetes 可观测实践

阿里云可观测团队构建了 kubernetes 统一监控,无侵入式地提供多语言、应用性能黄金指标,支持多种协议,结合 Kubernetes 管控层与网络系统层监控,提供全栈一体式的可观测体验。通过流量拓扑、链路、资源的关系,可进行关联分析,进一步提升在 Kubernetes 环境下排查问题的效率。

1243 0
|
存储 自然语言处理 监控
|

Kindling项目目标:利用eBPF技术带来的可观测性的上帝视角 ——关联内核可观测数据的trace

当前可观测性领域存在三大痛点:1. 探针自动化覆盖依赖人工;2. 探针难以覆盖多语言的微服务业务;3. APM trace缺少内核可观测数据。针对三大痛点,Kindling分别是如何解决的呢?

736 0
|
JSON 监控 负载均衡
|

Nginx可观测实践分享,一篇文章带你快速入门

一文带你快速了解Nginx

462 0
|
消息中间件 存储 缓存
|

一文带你迅速看懂Kafka可观测优秀实践

一文看懂Kafka

940 0
|
存储 Prometheus 监控
|

浅谈可观测架构模式

可观测性( Observability )主要是指了解程序内部运行情况的能力。关于可观测性的架构设计主要涉及三个部分:日志(logging)、度量(Metrics)和追踪(Tracing)。本文将从这三个方面阐述可观测性架构的设计。

2066 0
我要发布