开发者社区> 云原生> 云原生可观测

云原生可观测

关注

云原生可观测基于Prometheus、Grafana 、OpenTelemetry 等核心产品, 形成指标、链路存储分析、异构数据源集成的数据层, 通过标准PromQL和SQL提供大盘展示、告警与探索能力。

0
今日
2157
内容
4
活动
289
关注
|
9月前
|
存储 前端开发 数据可视化
|

Grafana Loki,轻量级日志系统

本文介绍了基于Grafana、Loki和Alloy构建的轻量级日志系统。Loki是一个由Grafana Labs开发的日志聚合系统,具备高可用性和多租户支持,专注于日志而非指标,通过标签索引而非内容索引实现高效存储。Alloy则是用于收集和转发日志至Loki的强大工具。文章详细描述了系统的架构、组件及其工作流程,并提供了快速搭建指南,包括准备步骤、部署命令及验证方法。此外,还展示了如何使用Grafana查看日志,以及一些基本的LogQL查询示例。最后,作者探讨了Loki架构的独特之处,提出了“巨型单体模块化”的概念,即一个应用既可单体部署也可分布式部署,整体协同实现全部功能。

2860 70
|
4天前
|
运维 监控 数据可视化
|

从巴比馒头的“洗菜流水线”,来看“telemetry pipeline”工具的火热兴起

以巴比馒头自动化洗菜为喻,探讨运维领域“数据清洗”难题。DataHub作为国产可视化遥测管道工具,支持多源数据接入与低代码编排,实现日志、指标、链路等数据的高效处理与统一管理,助力企业构建高质量可观测体系。(238字)

65 4
|
22天前
|
存储 SQL Prometheus
|

图文解析带你精通时序PromQL语法

[阿里云SLS可观测团队发布] 本文通过图文解析深入讲解PromQL的计算原理,涵盖其与SQL的差异、时间线模型、选点机制、聚合函数、窗口函数及常见非预期场景,帮助用户掌握PromQL的核心语法与执行逻辑。

336 9
|
Arthas Oracle Java
|

可观测可回溯 | Continuous Profiling 实践解析

我们定位异常时,时常无法知晓代码内部发生了什么,因此无从谈起修复和改善代码。​Continuous Profiling帮助开发者全面掌握、回溯生产环节代码执行细节,增强可观测性。​

1538 0
|
11月前
|
运维 Prometheus 监控
|

🎉 WatchAlert - 开源多数据源告警引擎【运维研发必备能力】

WatchAlert 是一个开源的多数据源告警引擎,支持从 Prometheus、Elasticsearch、Kubernetes 等多种数据源获取监控数据,并根据预定义的告警规则触发告警。它具备多数据源支持、灵活的告警规则、多渠道告警通知、可扩展架构和高性能等核心特性,帮助团队更高效地监控和响应问题。项目地址:https://github.com/opsre/WatchAlert

1252 18
|
4天前
|
SQL 运维
|

【故障定位系列】波动度故障

本文探讨SQL耗时故障的自适应定位方法,针对不同波动程度的故障,提出通过自学习正常区间特征(如方差、标准差)实现异常检测,并结合上下游响应时间比例关系判断根因,辅以实战案例验证定位准确性。

45 1
|
7月前
|
人工智能 API 数据库
|

MCP Server 开发实战 | 大模型无缝对接 Grafana

以 AI 世界的“USB-C”标准接口——MCP(Model Context Protocol)为例,演示如何通过 MCP Server 实现大模型与阿里云 Grafana 服务的无缝对接,让智能交互更加高效、直观。

2036 116
|
7月前
|
人工智能 监控 安全
|

从 DeepSeek 敏感信息泄露谈可观测系统的数据安全预防

探讨了 SLS 中增强数据安全的几种方式:权限精细化管控有效减少了潜在安全风险;接入层脱敏技术阻止敏感数据落库,提升了隐私保护;StoreView 字段集控制通过限制查询数据范围,降低数据泄露损害。智能监控系统提供实时监测,快速识别并阻断异常拖库行为,为企业提供了迅速响应和抵御威胁的能力。

406 6
|
消息中间件 弹性计算 Prometheus
|

问题盘点|使用 Prometheus 监控 Kafka,我们该关注哪些指标

Kafka 作为当前广泛使用的中间件产品,承担了重要/核心业务数据流转,其稳定运行关乎整个业务系统可用性。本文旨在分享阿里云 Prometheus 在阿里云 Kafka 和自建 Kafka 的监控实践。

2877 30
|
存储 Prometheus 监控
|

当 OpenTelemetry 遇上阿里云 Prometheus

本文以构建系统可观测(重点为指标监控体系)为切入点,对比 OpenTelemetry 与 Prometheus 的相同与差异,后重点介绍如何将应用的 OpenTelemetry 指标接入 Prometheus 及背后原理,最后介绍阿里云可观测监控 Prometheus 版拥抱 OpenTelemetry 及相关落地实践案例,希望能更好的帮助读者更好的理解 OpenTelemetry 及与 Prometheus 的生态融合。

1045 0
|
存储 缓存 监控
|

Redis可观测最佳实践,5大关键指标最全解析!

一文带您了解Redis

2849 1
|
存储 运维 监控
|

SRE方法论之监控设计

监控系统的四个黄金指标是:延迟(Latency)、流量(Traffic)、错误(Errors)、饱和度(Saturation)

1051 1
|
数据采集 监控 供应链
|

MES系统软件体系架构及应用

MES系统是数字化车间的核心。MES通过数字化生产过程控制,借助自动化和智能化技术手段,实现车间制造控制智能化、生产过程透明化、制造装备数控化和生产信息集成化。生产管理MES系统主要包括车间管理系统、质量管理系统、资源管理系统及数据采集和分析系统等,由技术平台层、网络层以及设备层实现。

2389 1
|
存储 运维 监控
|

跟误告警说再见,Smart Metrics 帮你用算法配告警

本文从两类常见的无效告警规则入手,分析有效告警配置难,误告警泛滥的原因,介绍 Smart Metrics 是如何帮助用户解决告警难配的问题的,并介绍一些最佳实践。

1219 0
|
SQL 存储 监控
|

深入可观测底层:OpenTelemetry 链路传递核心原理

本文会系统讲解链路传递一些基本概念,同时结合案例讲解链路传递的过程。

3220 1
|
数据采集 运维 监控
|

阿里千万实例可观测采集器-iLogtail正式开源

11月23日,阿里正式开源可观测数据采集器iLogtail。作为阿里内部可观测数据采集的基础设施,iLogtail承载了阿里巴巴集团、蚂蚁的日志、监控、Trace、事件等多种可观测数据的采集工作。iLogtail运行在服务器、容器、K8s、嵌入式等多种环境,支持采集数百种可观测数据,目前已经有千万级的安装量,每天采集数十PB的可观测数据,广泛应用于线上监控、问题分析/定位、运营分析、安全分析等多种场景。

1982 0
|
7月前
|
监控 Go 数据处理
|

阿里云可观测 2025 年 3 月产品动态

阿里云可观测 2025 年 3 月产品动态

316 23
|
10月前
|
运维 监控 Cloud Native
|

构建深度可观测、可集成的网络智能运维平台

本文介绍了构建深度可观测、可集成的网络智能运维平台(简称NIS),旨在解决云上网络运维面临的复杂挑战。内容涵盖云网络运维的三大难题、打造云原生AIOps工具集的解决思路、可观测性对业务稳定的重要性,以及产品发布的亮点,包括流量分析NPM、网络架构巡检和自动化运维OpenAPI,助力客户实现自助运维与优化。

672 11
|
弹性计算 Prometheus 运维
|

统一观测|如何使用 Prometheus 监控 Windows

阿里云 Prometheus 与阿里云容器服务和 ECS 无缝集成,默认提供了 Windows 的 CPU、内存、磁盘、网络和进程等 5 方面的核心监控指标采集,同时提供了对应的优化后的专家级监控大盘和告警指标模板,为用户提供了免运维、开箱即用的 Windows 监控能力。

1121 0
|
存储 数据采集 Prometheus
|

基于 OPLG 从 0 到 1 构建统一可观测平台实践

随着软件复杂度的不断提升,单体应用架构逐步向分布式和微服务的架构演进,整体的调用环境也越来越复杂,仅靠日志和指标渐渐难以快速定位复杂环境下的问题。对于全栈可观测的诉求也变得愈加强烈,Traces、Metrics 和 Logs 的连接也愈发紧密。

1589 1
|
JavaScript Java 中间件
|

可观测性之Micrometer Tracing

益复杂的软件架构导致系统在出现问题的时候,发现问题和排查问题的效率极低。那这个问题如何解决呢?就需要引入一个称为链路追踪的系统。

1215 1
|
弹性计算 Prometheus 运维
|

【数据可观测】阿里云的Grafana云监控大盘服务

阿里云发布的grafana托管服务,更是为云上的资产提供了高效的监控数据可观测能力。阿里云grafana弹性、免运维,可以方便的对接云上云下的各种数据源。

2679 1
|
数据采集 弹性计算 运维
|

阿里巴巴高级技术专家姜文锋:云服务器可观测能力的探索与实践

本篇内容分享了云服务器可观测能力的探索与实践。

852 0
|
机器学习/深度学习 监控 Kubernetes
|

What is observability?|一文读懂什么是系统可观测性

一文带你走近可观测世界

1100 0
|
11月前
|
存储 人工智能 运维
|

AI + 可观测最佳实践:让业务从“看见”到“洞察”

本文介绍了AI Ops的概念及其在提升系统运维效率、洞察力和可观测性方面的作用。主要内容分为三个部分:一是监控、观测与洞察的区别及挑战,强调了数据整合和语义对齐的重要性;二是AI与计算如何重塑可观测性,通过UModel数字图谱和多模态存储分析架构实现数据联通;三是最佳实践与未来展望,展示了阿里云AI Stack可观测解决方案的应用案例,并总结了可观测性的四个发展阶段,最终愿景是借助AI力量让每个人成为多领域的专家。

792 9
|
存储 缓存 运维
|

基础篇丨链路追踪(Tracing)其实很简单

基础篇丨链路追踪(Tracing)其实很简单

740 0
|
存储 运维 监控
|

企业如何从 0 到 1 构建整套全链路追踪体系

今天,我来跟大家分享 ARMS 在全链路追踪领域的最佳实践,分享主要分为四部分。首先,是对分布式链路追踪的整体简介。其次,是对 ARMS 在分布式链路追踪领域的核心能力进行介绍。然后,介绍如何从 0 到 1 构建整套全链路追踪体系。最后,介绍一些最佳实践案例。

592 0
|
存储 SQL 机器学习/深度学习
|

可观测平台下告警降噪实践——GOPS分享

本文介绍阿里云SLS丁来强(花名成喆)在GOPS2021上海站分享时的议题内容,结尾有PPT下载链接。

1744 0
|
云安全 安全 Cloud Native
|

一文了解什么是CNAPP

在云计算蓬勃发展的今天,企业面临的安全挑战愈发复杂。传统安全方案已力不逮,CNAPP(云原生应用保护平台)应运而生,革新云安全领域。CNAPP专为云环境设计,提供全生命周期安全保护,具备微隔离、访问控制、数据保护等功能,并利用自动化与AI技术简化管理、智能响应威胁,适用于多云、DevOps等多种场景。尽管存在技术复杂性和成本等挑战,CNAPP仍将持续进化,变得更加智能、自动且易于集成,助力企业构建稳健的云安全体系。

869 0
|
存储 Prometheus 监控
|

云原生网关的可观测性体系实践

云原生网关是阿里云微服务引擎(MSE)下的一款托管类型网关产品,其将传统的流量网关与微服务网关进行了整合,本文将讲述如何基于云原生网关去搭建网关场景的可观测性体系。

798 0
|
消息中间件 存储 缓存
|

一文带你迅速看懂Kafka可观测优秀实践

一文看懂Kafka

938 0
|
运维 Prometheus 监控
|

可观测告警运维系统调研——SLS告警与多款方案对比

本文介绍对比多款告警监控运维平台方案,覆盖阿里云SLS、Azure、AWS、自建系统(ELK、Prometheus、TICK)等方案。

5182 0
|
12月前
|
缓存 NoSQL Linux
|

Linux调试

本文介绍了Linux调试、性能分析和追踪的培训资料,涵盖调试、性能分析和追踪的基础知识及常用工具。

724 64
|
Prometheus 监控 Cloud Native
|

grafana展示的CPU利用率与实际不符的问题探究

观察到`mpstat`命令显示单核CPU的`%usr`和`%sys`分别持续在70%和20%,而Grafana监控数据显示较低。问题源于Grafana表达式计算的是CPU时间增量而非利用率。`mpstat`通过`/proc/stat`获取数据并计算CPU利用率,而`node-exporter`直接导出原始数据。调整Grafana表达式以匹配`mpstat`的计算方式后,两者结果一致。解决方案是修正Grafana查询以准确反映CPU占用率。

581 1
|
存储 Prometheus Kubernetes
|

对比开源丨Prometheus 服务多场景存储压测全解析

谁不想要一个省心又好用的监控呢?用数据说话,让我们看看不同集群规模下,阿里云Prometheus 服务Vs开源版本的存储性能压测对比吧!

899 0
|
SQL 运维 Java
|

ARMS Java 应用诊断-全景图首次发布!

随着更多企业迁移上云,应用运行环境、网络发生变化。当应用遇到故障需要问题定位时,一些传统问题定位手段由于效率、准确性等问题已无法满足 SRE 运维需求。本文以问题驱动为视角,结合阿里巴巴自身实践与客户服务经验,完整梳理可观测时代 Java 应用诊断知识图谱。

2154 0
|
存储 SQL 运维
|

友邦人寿可观测体系设计与落地

面对微服务化、容器化改造,访问链路和部署复杂度的提升,如何更好地观测应用成为了无法回避的挑战。不妨看看友邦人寿如何进行可观测性建设规划与落地。

918 0
|
存储 自然语言处理 运维
|

各路大神云集探讨eBPF技术在可观测性领域的落地现状和未来可能

本周的Kindling研讨会云集了可观测性领域的各路大神,大家就当前可观测性领域的现状和未来进行了交流和探讨。

340 0
|
存储 自然语言处理 监控
|

Kindling项目目标:利用eBPF技术带来的可观测性的上帝视角 ——关联内核可观测数据的trace

当前可观测性领域存在三大痛点:1. 探针自动化覆盖依赖人工;2. 探针难以覆盖多语言的微服务业务;3. APM trace缺少内核可观测数据。针对三大痛点,Kindling分别是如何解决的呢?

734 0
|
存储 移动开发 运维
|

移动域全链路可观测架构和关键技术

移动域全链路可观测架构和关键技术

761 0
|
运维 监控 数据可视化
|

高德打车构建可观测性系统实践

互联网工程的高速发展,分布式、微服务、容器化架构的流行,互联网已全面进入云原生时代。构建系统的方式由最初的单体大应用演变为分布式架构,一台服务器可能仅存几小时甚至几分钟,这种复杂性大大增加了把系统运行状态可视化的难度。

2469 0
|
4月前
|
人工智能 Prometheus 监控
|

阿里云可观测 2025 年 4 月产品动态

阿里云可观测 2025 年 4 月产品动态

125 1
|
7月前
|
监控 Java Go
|

无感改造,完美监控:Docker 多阶段构建 Go 应用无侵入观测

本文将介绍一种基于 Docker 多阶段构建的无侵入 Golang 应用观测方法,通过此方法用户无需对 Golang 应用源代码或者编译指令做任何改造,即可零成本为 Golang 应用注入可观测能力。

370 85
|
8月前
|
人工智能 监控 安全
|

从 DeepSeek 敏感信息泄露谈可观测系统的数据安全预防

本文将探讨 SLS 中增强数据安全的几种方式:权限精细化管控有效减少了潜在安全风险;接入层脱敏技术阻止敏感数据落库,提升了隐私保护;StoreView 字段集控制通过限制查询数据范围,降低数据泄露损害。智能监控系统提供实时监测,快速识别并阻断异常拖库行为,为企业提供了迅速响应和抵御威胁的能力。

343 2
|
Prometheus 监控 Cloud Native
|

可观测Grafana入门训练营,帮助同学们由浅入深的对阿里云Grafana服务拥有全面了解

可观测Grafana入门训练营,帮助同学们由浅入深的对阿里云Grafana服务拥有全面了解

461 0
|
消息中间件 存储 缓存
|

RocketMQ 5.0 可观测能力升级: Tracing 链路追踪介绍|学习笔记

快速学习 RocketMQ 5.0 可观测能力升级: Tracing 链路追踪介绍

1038 0
|
缓存 Prometheus 监控
|

可观测性神器之 Micrometer

对于大部分开发人员来说可能用过普罗米修斯 Grafana 这样的监控系统,从未听说过 Micrometer 工具,这里就详细的来介绍下可观测性神器 Micrometer,让你在开发时使用它就和使用 SLFJ 日志系统一样简单易用,有效的提升系统的健壮性和可靠性。

782 6
|
存储 自然语言处理 Oracle
|

eBPF程序摄像头——力争解决可观测性领域未来最有价值且最有挑战的难题

eBPF程序摄像头期望帮你定位Trace追踪工具无法排查的问题;生产环境无法复现的问题;需要打日志紧急发布的问题;系统内核无法观测的问题......

285 0
|
监控 Kubernetes 安全
|

关于 eBPF 安全可观测性,你需要知道的那些事儿

聊一聊eBPF 安全可观测性。

1823 0
我要发布