开发者社区> 云原生> 云原生可观测

云原生可观测

关注

云原生可观测基于Prometheus、Grafana 、OpenTelemetry 等核心产品, 形成指标、链路存储分析、异构数据源集成的数据层, 通过标准PromQL和SQL提供大盘展示、告警与探索能力。

0
今日
2181
内容
4
活动
313
关注
|
存储 前端开发 数据可视化
|

Grafana Loki,轻量级日志系统

本文介绍了基于Grafana、Loki和Alloy构建的轻量级日志系统。Loki是一个由Grafana Labs开发的日志聚合系统,具备高可用性和多租户支持,专注于日志而非指标,通过标签索引而非内容索引实现高效存储。Alloy则是用于收集和转发日志至Loki的强大工具。文章详细描述了系统的架构、组件及其工作流程,并提供了快速搭建指南,包括准备步骤、部署命令及验证方法。此外,还展示了如何使用Grafana查看日志,以及一些基本的LogQL查询示例。最后,作者探讨了Loki架构的独特之处,提出了“巨型单体模块化”的概念,即一个应用既可单体部署也可分布式部署,整体协同实现全部功能。

5500 70
|
5月前
|
机器学习/深度学习 人工智能 运维
|

AIOps已逝,欢迎进入AgenticOps(运维智能体)时代

GenAI和智能体技术的爆发,为IT运维打开了一扇新的大门,一个更具主动性、自治性和协作性的新时代已经来临,这就是AgenticOps(基于智能体的IT运维)。

1320 2
|
运维 Prometheus 监控
|

🎉 WatchAlert - 开源多数据源告警引擎【运维研发必备能力】

WatchAlert 是一个开源的多数据源告警引擎,支持从 Prometheus、Elasticsearch、Kubernetes 等多种数据源获取监控数据,并根据预定义的告警规则触发告警。它具备多数据源支持、灵活的告警规则、多渠道告警通知、可扩展架构和高性能等核心特性,帮助团队更高效地监控和响应问题。项目地址:https://github.com/opsre/WatchAlert

1963 18
|
2月前
|
消息中间件 人工智能 缓存
|

一行命令,给你的 OpenClaw 龙虾装上 X 光机——阿里云可观测,让养虾更经济更安全

本文将聊聊如何用一行命令,给你的 OpenClaw 装上一台 X 光机——让每一次 LLM 调用、每一步工具执行、每一个 Token 的消耗,都从水下浮出水面。

835 6
|
5月前
|
人工智能 运维 监控
|

FinOps for AI 概述

本文探讨生成式AI带来的新型成本挑战,如cost-per-token计费、GPU资源稀缺与波动定价。提出通过FinOps实践实现AI支出管控:建立成本基线、优化资源分配、实施配额与标记、加强跨团队协作,并将财务监控与业务成果对齐,推动AI成本管理从“爬”到“跑”的渐进式成熟。

550 1
|
2月前
|
SQL 人工智能 安全
|

我们用 AI Observe Stack 观测了 OpenClaw,发现 AI Agent 背后的这些隐患

本文基于 AI Observe Stack 构建的 OpenClaw 可观测系统是使用 AI 在一天内完成的。用户也可以用阿里云 SelectDB 云服务或者开源 Apache Doris 在几分钟内快速搭建起来亲身体验

1203 5
|
人工智能 API 数据库
|

MCP Server 开发实战 | 大模型无缝对接 Grafana

以 AI 世界的“USB-C”标准接口——MCP(Model Context Protocol)为例,演示如何通过 MCP Server 实现大模型与阿里云 Grafana 服务的无缝对接,让智能交互更加高效、直观。

3970 124
|
人工智能 监控 安全
|

从 DeepSeek 敏感信息泄露谈可观测系统的数据安全预防

探讨了 SLS 中增强数据安全的几种方式:权限精细化管控有效减少了潜在安全风险;接入层脱敏技术阻止敏感数据落库,提升了隐私保护;StoreView 字段集控制通过限制查询数据范围,降低数据泄露损害。智能监控系统提供实时监测,快速识别并阻断异常拖库行为,为企业提供了迅速响应和抵御威胁的能力。

1084 5
|
存储 缓存 Prometheus
|

阿里云下一代可观测时序引擎-MetricStore 2.0

我们开发了 MetricStore 2.0 版本,从存储到计算进行了全面升级,致力于成为阿里云下一代可观测时序引擎。

818 47
|
监控 中间件 Go
|

免去繁琐的手动埋点,Gin 框架可观测性最佳实践

本文将着重介绍 Gin 框架官方推荐的几种可观测性方案并进行对比,从而得出 Gin 框架可观测性的最佳实践。

590 4
|
7月前
|
存储 SQL Prometheus
|

图文解析带你精通时序PromQL语法

[阿里云SLS可观测团队发布] 本文通过图文解析深入讲解PromQL的计算原理,涵盖其与SQL的差异、时间线模型、选点机制、聚合函数、窗口函数及常见非预期场景,帮助用户掌握PromQL的核心语法与执行逻辑。

1140 10
|
SQL 监控 数据挖掘
|

SLS 重磅升级:超大规模数据实现完全精确分析

SLS 全新推出的「SQL 完全精确」模式,通过“限”与“换”的策略切换,在快速分析与精确计算之间实现平衡,满足用户对于超大数据规模分析结果精确的刚性需求。标志着其在超大规模日志数据分析领域再次迈出了重要的一步。

887 118
|
缓存 NoSQL Linux
|

Linux调试

本文介绍了Linux调试、性能分析和追踪的培训资料,涵盖调试、性能分析和追踪的基础知识及常用工具。

1466 63
|
2月前
|
存储 人工智能 运维
|

为 OpenClaw 注入企业级长期记忆——AgentLoop MemoryStore 集成方案

OpenClaw 是一款个人 AI 助理平台,其原生记忆系统通过系统提示词、会话历史和本地 Markdown 记忆文件三层结构,为 Agent 提供基础的跨会话记忆能力。然而,原生系统在记忆提取维度、更新机制、检索精度和运维成本等方面存在明显局限,难以满足企业级场景的高质量个性化需求。 本文介绍如何将 OpenClaw 与阿里云 AgentLoop MemoryStore 集成,以获得更强大的长期记忆能力。AgentLoop MemoryStore 是一款完全托管的企业级 Agent 记忆管理产品,具备多维度记忆提取、智能记忆更新、异步流水线架构和分层检索等特性。

613 4
|
存储 运维 监控
|

SRE方法论之监控设计

监控系统的四个黄金指标是:延迟(Latency)、流量(Traffic)、错误(Errors)、饱和度(Saturation)

1629 1
|
存储 运维 监控
|

跟误告警说再见,Smart Metrics 帮你用算法配告警

本文从两类常见的无效告警规则入手,分析有效告警配置难,误告警泛滥的原因,介绍 Smart Metrics 是如何帮助用户解决告警难配的问题的,并介绍一些最佳实践。

1747 0
|
5月前
|
人工智能 监控 测试技术
|

如何实践FinOps入门指南

本文系统阐述了FinOps(云财务运营)的四阶段采用路径:研究、提出、准备与启动。通过数据收集、利益相关者沟通、战略提案和团队协作,助力组织实现云成本透明化、优化支出并推动业务价值。适用于希望落地FinOps的个人与团队,提供实用框架与执行指南。

331 1
|
5月前
|
存储 人工智能 关系型数据库
|

告别数据库“膨胀”:Dify x SLS 构建高可用生产级 AI 架构

告别数据库“膨胀”!借助SLS打造高可用生产级的Dify日志场景,通过将工作流日志从PostgreSQL迁移至SLS,实现存储压力降低95%+、成本下降近10倍,并支持实时分析、监控告警与数据闭环,彻底解决高并发下的连接池打满、慢查询频发等痛点,助力AI应用高效稳定运行!

494 4
|
监控 测试技术 Go
|

告别传统Log追踪!GOAT如何用HTTP接口重塑代码监控

本文介绍了GOAT(Golang Application Tracing)工具的使用方法,通过一个Echo问答服务实例,详细展示了代码埋点与追踪技术的应用。内容涵盖初始化配置、自动埋点、手动调整埋点、数据监控及清理埋点等核心功能。GOAT适用于灰度发布、功能验证、性能分析、Bug排查和代码重构等场景,助力Go项目质量保障与平稳发布。工具以轻量高效的特点,为开发团队提供数据支持,优化决策流程。

825 90
|
6月前
|
运维 监控 数据可视化
|

别让运维跪着查日志了!给老板看的“业务观测”大盘才是真香

深夜告警、业务暴跌、全员背锅?一次支付故障暴露传统监控盲区。我们通过业务观测,将技术指标转化为老板听得懂的“人话”,实现从被动救火到主动洞察的跨越。让技术团队不再跪着查日志,而是站着驱动业务增长。

446 9
|
存储 Prometheus 监控
|

Dubbo 可观测性实践之 Metrics 功能解析

Dubbo3 的建设规划有上云,可观测性是上云必不可少的能力,集群间根据实例可用性负载均衡、Kubernetes 弹性伸缩、建立实例健康模型等等运用场景都需要可观测性。

1371 0
|
弹性计算 Prometheus 运维
|

【数据可观测】阿里云的Grafana云监控大盘服务

阿里云发布的grafana托管服务,更是为云上的资产提供了高效的监控数据可观测能力。阿里云grafana弹性、免运维,可以方便的对接云上云下的各种数据源。

3154 1
|
SQL 存储 监控
|

深入可观测底层:OpenTelemetry 链路传递核心原理

本文会系统讲解链路传递一些基本概念,同时结合案例讲解链路传递的过程。

3768 1
|
存储 Prometheus 监控
|

当 OpenTelemetry 遇上阿里云 Prometheus

本文以构建系统可观测(重点为指标监控体系)为切入点,对比 OpenTelemetry 与 Prometheus 的相同与差异,后重点介绍如何将应用的 OpenTelemetry 指标接入 Prometheus 及背后原理,最后介绍阿里云可观测监控 Prometheus 版拥抱 OpenTelemetry 及相关落地实践案例,希望能更好的帮助读者更好的理解 OpenTelemetry 及与 Prometheus 的生态融合。

1708 0
|
Prometheus 监控 Kubernetes
|

可观测数据采集端的管控方案的简单对比

当前,主流的日志采集产品除了SLS的ilogtail,还有Elastic Agent、Fluentd、Telegraf、Sysdig、Logkit、Loggie、Flume等。详细的对比结果见下表: 备注: ○ 集群监控:表示工具可以查看管理采集端的运行状态、采集速度等数据 ○ 集群管理:表示工具可以对管理采集端的采集配置、运行参数等进行添加、修改、删除

1148 0
|
消息中间件 Prometheus 运维
|

RocketMQ 5.0 可观测能力升级:Metrics 指标分析

RocketMQ 的消息是按照队列的方式分区有序储存的,这种队列模型使得生产者、消费者和读写队列都是多对多的映射关系,彼此之间可以无限水平扩展。对比传统的消息队列如 RabbitMQ 是很大的优势,尤其是在流式处理场景下能够保证同一队列的消息被相同的消费者处理,对于批量处理、聚合处理更友好。

1041 0
|
Arthas Oracle Java
|

可观测可回溯 | Continuous Profiling 实践解析

我们定位异常时,时常无法知晓代码内部发生了什么,因此无从谈起修复和改善代码。​Continuous Profiling帮助开发者全面掌握、回溯生产环节代码执行细节,增强可观测性。​

2546 0
|
人工智能 运维 监控
|

从大规模恶意攻击 DeepSeek 事件看 AI 创新隐忧:安全可观测体系建设刻不容缓

唯有通过全行业的协同努力,加强整体、完善的网络安全可观测建设,才能为 AI 技术的创新和发展构建一个安全而稳固的环境。我们期盼并相信,在攻克这些网络安全难题之后,AI 创新将迎来更加安全、灿烂的未来。

611 5
|
存储 Prometheus 监控
|

统一观测丨使用 Prometheus 监控 Nginx Ingress 网关最佳实践

统一观测丨使用 Prometheus 监控 Nginx Ingress 网关最佳实践

1225 0
|
缓存 Prometheus 监控
|

可观测性神器之 Micrometer

对于大部分开发人员来说可能用过普罗米修斯 Grafana 这样的监控系统,从未听说过 Micrometer 工具,这里就详细的来介绍下可观测性神器 Micrometer,让你在开发时使用它就和使用 SLFJ 日志系统一样简单易用,有效的提升系统的健壮性和可靠性。

1106 6
|
机器学习/深度学习 监控 Kubernetes
|

What is observability?|一文读懂什么是系统可观测性

一文带你走近可观测世界

1376 0
|
5月前
|
存储 监控 安全
|

FinOps如何管理共享云成本

本页面介绍共享云成本管理,涵盖其重要性、分配方法及各方职责。通过公平、透明的成本分摊,提升财务责任与预算准确性,推动组织优化云支出。

297 0
|
存储 人工智能 运维
|

AI + 可观测最佳实践:让业务从“看见”到“洞察”

本文介绍了AI Ops的概念及其在提升系统运维效率、洞察力和可观测性方面的作用。主要内容分为三个部分:一是监控、观测与洞察的区别及挑战,强调了数据整合和语义对齐的重要性;二是AI与计算如何重塑可观测性,通过UModel数字图谱和多模态存储分析架构实现数据联通;三是最佳实践与未来展望,展示了阿里云AI Stack可观测解决方案的应用案例,并总结了可观测性的四个发展阶段,最终愿景是借助AI力量让每个人成为多领域的专家。

1122 9
|
存储 运维 监控
|

客户案例 | 橡树黑卡携手观测云,实现会员体系业务可观测

橡树黑卡是国内领先的付费会员制权益服务平台,提供付费会员解决方案设计、产品研发、数字供应链管理、活动运营、客服咨询等一站式服务。

731 0
|
存储 Prometheus Kubernetes
|

对比开源丨Prometheus 服务多场景存储压测全解析

谁不想要一个省心又好用的监控呢?用数据说话,让我们看看不同集群规模下,阿里云Prometheus 服务Vs开源版本的存储性能压测对比吧!

1140 0
|
消息中间件 弹性计算 Prometheus
|

问题盘点|使用 Prometheus 监控 Kafka,我们该关注哪些指标

Kafka 作为当前广泛使用的中间件产品,承担了重要/核心业务数据流转,其稳定运行关乎整个业务系统可用性。本文旨在分享阿里云 Prometheus 在阿里云 Kafka 和自建 Kafka 的监控实践。

3369 30
|
存储 SQL 传感器
|

阿里可观测性数据引擎的技术实践

非常有幸参加了QCon上海站的可观测分会场,并和大家分享阿里在可观测性数据引擎的一些思考和技术实践,本文主要是对于分享的文字整理。

1886 1
|
5月前
|
监控 Cloud Native 安全
|

FinOps云成本分配指南

成本分配是FinOps核心实践,通过层级结构、标签等元数据将云成本精准归因至部门、项目或所有者,实现成本展示与回收。需跨财务、工程、业务团队协作,建立强制标签策略并推动执行,提升财务透明度、问责制及优化能力。衡量指标包括标签合规率、成本分配时效等,成熟实施可显著增强组织云成本管控力。

400 4
|
运维 监控 数据可视化
|

可观测性和传统监控的三大区别

可观测性和传统监控的三大区别

970 0
|
存储 消息中间件 Prometheus
|

统一观测丨使用 Prometheus 监控 SNMP,我们该关注哪些指标?

统一观测丨使用 Prometheus 监控 SNMP,我们该关注哪些指标?

835 0
EMQ
|
监控 数据可视化 NoSQL
|

易操作、可观测的 MQTT Dashboard,集群数据尽在掌握

全新EMQX Dashbord一览,可观测性和可操作性大幅提升,通过Web页面轻松管理和监控MQTT集群,助力高效开发。

936 0
|
存储 弹性计算 运维
|

阿里云技术专家杨泽强:弹性计算云上可观测能力构建

可观测性的发展趋势为标准化与多样化

1125 0
|
人工智能 运维 监控
|

科技云报道:云原生时代,IT运维视角为何要转向可观测性?

监控技术和工具革新迫在眉睫

469 0
|
数据采集 监控 Oracle
|

GraalVM 24 正式发布阿里巴巴贡献重要特性 —— 支持 Java Agent 插桩

阿里巴巴是 GraalVM 全球顾问委员会的唯一中国代表,阿里云程序语言与编译器团队和可观测团队合作实现了 GraalVM 应用的无侵入可观测能力,并在 ARMS 平台上线了该功能。目前在 GraalVM 24 中发布的是支持 Java agent 的第一步,其余能力将在 GraalVM 的后续版本中陆续发布。

768 23
|
传感器 人工智能 监控
|

Gartner发布《2023年十大战略技术趋势》,应用可观测性入选!

Gartner发布《2023年十大战略技术趋势》,应用可观测性入选!

1374 1
|
JavaScript Java 中间件
|

可观测性之Micrometer Tracing

益复杂的软件架构导致系统在出现问题的时候,发现问题和排查问题的效率极低。那这个问题如何解决呢?就需要引入一个称为链路追踪的系统。

1716 1
|
存储 Prometheus 监控
|

云原生网关的可观测性体系实践

云原生网关是阿里云微服务引擎(MSE)下的一款托管类型网关产品,其将传统的流量网关与微服务网关进行了整合,本文将讲述如何基于云原生网关去搭建网关场景的可观测性体系。

1021 0
|
存储 Prometheus 监控
|

基于Elasticsearch的指标可观测实践

主要介绍Elasticsearch为什么做时序引擎、Elasticsearch做时序引擎的挑战、Elasticsearch 时序引擎特性介绍、阿里云基于Elasticsearch TimeStream介绍。文章结尾更有关于《阿里云Elasticsearch在时序场景下的深入探索》的demo演示视频。

1924 145
我要发布