开发者社区> 云原生> 云原生可观测

云原生可观测

关注

云原生可观测基于Prometheus、Grafana 、OpenTelemetry 等核心产品, 形成指标、链路存储分析、异构数据源集成的数据层, 通过标准PromQL和SQL提供大盘展示、告警与探索能力。

0
今日
2172
内容
4
活动
296
关注
|
Prometheus 监控 Cloud Native
|

Istio on ACK集成生态(2): 扩展AlertManager集成钉钉助力可观测性监控能力

使用Prometheus进行监控是Istio提供的监控能力之一,通过扩展AlertManager集成钉钉助力Istio on ACK可观测性监控能力。

2527 57
|
10月前
|
存储 前端开发 数据可视化
|

Grafana Loki,轻量级日志系统

本文介绍了基于Grafana、Loki和Alloy构建的轻量级日志系统。Loki是一个由Grafana Labs开发的日志聚合系统,具备高可用性和多租户支持,专注于日志而非指标,通过标签索引而非内容索引实现高效存储。Alloy则是用于收集和转发日志至Loki的强大工具。文章详细描述了系统的架构、组件及其工作流程,并提供了快速搭建指南,包括准备步骤、部署命令及验证方法。此外,还展示了如何使用Grafana查看日志,以及一些基本的LogQL查询示例。最后,作者探讨了Loki架构的独特之处,提出了“巨型单体模块化”的概念,即一个应用既可单体部署也可分布式部署,整体协同实现全部功能。

3928 70
|
8月前
|
人工智能 API 数据库
|

MCP Server 开发实战 | 大模型无缝对接 Grafana

以 AI 世界的“USB-C”标准接口——MCP(Model Context Protocol)为例,演示如何通过 MCP Server 实现大模型与阿里云 Grafana 服务的无缝对接,让智能交互更加高效、直观。

2620 116
|
Arthas Oracle Java
|

可观测可回溯 | Continuous Profiling 实践解析

我们定位异常时,时常无法知晓代码内部发生了什么,因此无从谈起修复和改善代码。​Continuous Profiling帮助开发者全面掌握、回溯生产环节代码执行细节,增强可观测性。​

1909 0
|
2月前
|
存储 SQL Prometheus
|

图文解析带你精通时序PromQL语法

[阿里云SLS可观测团队发布] 本文通过图文解析深入讲解PromQL的计算原理,涵盖其与SQL的差异、时间线模型、选点机制、聚合函数、窗口函数及常见非预期场景,帮助用户掌握PromQL的核心语法与执行逻辑。

769 10
|
数据采集 运维 监控
|

阿里千万实例可观测采集器-iLogtail正式开源

11月23日,阿里正式开源可观测数据采集器iLogtail。作为阿里内部可观测数据采集的基础设施,iLogtail承载了阿里巴巴集团、蚂蚁的日志、监控、Trace、事件等多种可观测数据的采集工作。iLogtail运行在服务器、容器、K8s、嵌入式等多种环境,支持采集数百种可观测数据,目前已经有千万级的安装量,每天采集数十PB的可观测数据,广泛应用于线上监控、问题分析/定位、运营分析、安全分析等多种场景。

2243 0
|
数据采集 监控 供应链
|

MES系统软件体系架构及应用

MES系统是数字化车间的核心。MES通过数字化生产过程控制,借助自动化和智能化技术手段,实现车间制造控制智能化、生产过程透明化、制造装备数控化和生产信息集成化。生产管理MES系统主要包括车间管理系统、质量管理系统、资源管理系统及数据采集和分析系统等,由技术平台层、网络层以及设备层实现。

2675 1
|
25天前
|
机器学习/深度学习 人工智能 运维
|

AIOps已逝,欢迎进入AgenticOps(运维智能体)时代

GenAI和智能体技术的爆发,为IT运维打开了一扇新的大门,一个更具主动性、自治性和协作性的新时代已经来临,这就是AgenticOps(基于智能体的IT运维)。

206 2
|
存储 Prometheus 监控
|

当 OpenTelemetry 遇上阿里云 Prometheus

本文以构建系统可观测(重点为指标监控体系)为切入点,对比 OpenTelemetry 与 Prometheus 的相同与差异,后重点介绍如何将应用的 OpenTelemetry 指标接入 Prometheus 及背后原理,最后介绍阿里云可观测监控 Prometheus 版拥抱 OpenTelemetry 及相关落地实践案例,希望能更好的帮助读者更好的理解 OpenTelemetry 及与 Prometheus 的生态融合。

1342 0
|
1天前
|
存储 人工智能 关系型数据库
|

告别数据库“膨胀”:Dify x SLS 构建高可用生产级 AI 架构

告别数据库“膨胀”!借助SLS打造高可用生产级的Dify日志场景,通过将工作流日志从PostgreSQL迁移至SLS,实现存储压力降低95%+、成本下降近10倍,并支持实时分析、监控告警与数据闭环,彻底解决高并发下的连接池打满、慢查询频发等痛点,助力AI应用高效稳定运行!

33 2
|
存储 缓存 监控
|

Redis可观测最佳实践,5大关键指标最全解析!

一文带您了解Redis

3050 1
|
1天前
|
监控 Cloud Native 安全
|

FinOps云成本分配指南

成本分配是FinOps核心实践,通过层级结构、标签等元数据将云成本精准归因至部门、项目或所有者,实现成本展示与回收。需跨财务、工程、业务团队协作,建立强制标签策略并推动执行,提升财务透明度、问责制及优化能力。衡量指标包括标签合规率、成本分配时效等,成熟实施可显著增强组织云成本管控力。

31 3
|
JavaScript Java 中间件
|

可观测性之Micrometer Tracing

益复杂的软件架构导致系统在出现问题的时候,发现问题和排查问题的效率极低。那这个问题如何解决呢?就需要引入一个称为链路追踪的系统。

1405 1
|
存储 SQL 机器学习/深度学习
|

可观测平台下告警降噪实践——GOPS分享

本文介绍阿里云SLS丁来强(花名成喆)在GOPS2021上海站分享时的议题内容,结尾有PPT下载链接。

2010 0
|
弹性计算 Prometheus 运维
|

【数据可观测】阿里云的Grafana云监控大盘服务

阿里云发布的grafana托管服务,更是为云上的资产提供了高效的监控数据可观测能力。阿里云grafana弹性、免运维,可以方便的对接云上云下的各种数据源。

2829 1
|
运维 Prometheus 监控
|

🎉 WatchAlert - 开源多数据源告警引擎【运维研发必备能力】

WatchAlert 是一个开源的多数据源告警引擎,支持从 Prometheus、Elasticsearch、Kubernetes 等多种数据源获取监控数据,并根据预定义的告警规则触发告警。它具备多数据源支持、灵活的告警规则、多渠道告警通知、可扩展架构和高性能等核心特性,帮助团队更高效地监控和响应问题。项目地址:https://github.com/opsre/WatchAlert

1587 18
|
SQL 存储 监控
|

深入可观测底层:OpenTelemetry 链路传递核心原理

本文会系统讲解链路传递一些基本概念,同时结合案例讲解链路传递的过程。

3450 1
|
存储 运维 监控
|

SRE方法论之监控设计

监控系统的四个黄金指标是:延迟(Latency)、流量(Traffic)、错误(Errors)、饱和度(Saturation)

1227 1
|
1天前
|
人工智能 运维 监控
|

FinOps for AI 概述

本文探讨生成式AI带来的新型成本挑战,如cost-per-token计费、GPU资源稀缺与波动定价。提出通过FinOps实践实现AI支出管控:建立成本基线、优化资源分配、实施配额与标记、加强跨团队协作,并将财务监控与业务成果对齐,推动AI成本管理从“爬”到“跑”的渐进式成熟。

25 0
|
1天前
|
人工智能 监控 测试技术
|

如何实践FinOps入门指南

本文系统阐述了FinOps(云财务运营)的四阶段采用路径:研究、提出、准备与启动。通过数据收集、利益相关者沟通、战略提案和团队协作,助力组织实现云成本透明化、优化支出并推动业务价值。适用于希望落地FinOps的个人与团队,提供实用框架与执行指南。

24 0
|
消息中间件 弹性计算 Prometheus
|

问题盘点|使用 Prometheus 监控 Kafka,我们该关注哪些指标

Kafka 作为当前广泛使用的中间件产品,承担了重要/核心业务数据流转,其稳定运行关乎整个业务系统可用性。本文旨在分享阿里云 Prometheus 在阿里云 Kafka 和自建 Kafka 的监控实践。

3046 30
|
1天前
|
存储 监控 安全
|

FinOps如何管理共享云成本

本页面介绍共享云成本管理,涵盖其重要性、分配方法及各方职责。通过公平、透明的成本分摊,提升财务责任与预算准确性,推动组织优化云支出。

22 1
|
9月前
|
存储 缓存 Prometheus
|

阿里云下一代可观测时序引擎-MetricStore 2.0

我们开发了 MetricStore 2.0 版本,从存储到计算进行了全面升级,致力于成为阿里云下一代可观测时序引擎。

531 48
|
缓存 NoSQL Linux
|

Linux调试

本文介绍了Linux调试、性能分析和追踪的培训资料,涵盖调试、性能分析和追踪的基础知识及常用工具。

845 63
|
安全 算法 API
|

如何在DocuSign中设置PKCE(Proof Key for Code Exchange)

在使用DocuSign进行电子签名时,安全性至关重要。PKCE提供了一个额外的安全层,特别是在移动设备或基于浏览器的应用中,有效防止授权码泄露或被未授权的第三方使用。

400 0
|
存储 移动开发 运维
|

移动域全链路可观测架构和关键技术

移动域全链路可观测架构和关键技术

886 0
|
9月前
|
人工智能 运维 监控
|

从大规模恶意攻击 DeepSeek 事件看 AI 创新隐忧:安全可观测体系建设刻不容缓

唯有通过全行业的协同努力,加强整体、完善的网络安全可观测建设,才能为 AI 技术的创新和发展构建一个安全而稳固的环境。我们期盼并相信,在攻克这些网络安全难题之后,AI 创新将迎来更加安全、灿烂的未来。

455 4
|
存储 Prometheus 监控
|

统一观测丨使用 Prometheus 监控 Nginx Ingress 网关最佳实践

统一观测丨使用 Prometheus 监控 Nginx Ingress 网关最佳实践

1080 0
EMQ
|
监控 数据可视化 NoSQL
|

易操作、可观测的 MQTT Dashboard,集群数据尽在掌握

全新EMQX Dashbord一览,可观测性和可操作性大幅提升,通过Web页面轻松管理和监控MQTT集群,助力高效开发。

749 0
|
1月前
|
存储 运维 监控
|

云原生NPM与传统NPM的差异

本文对比传统NPM与云原生NPM在部署、流量采集、资源影响等方面的差异,聚焦Packet处理,分析二者优劣。随着eBPF等新技术应用,云原生NPM正加速发展,助力高效网络监控与故障定位。

141 1
|
8月前
|
人工智能 监控 安全
|

从 DeepSeek 敏感信息泄露谈可观测系统的数据安全预防

探讨了 SLS 中增强数据安全的几种方式:权限精细化管控有效减少了潜在安全风险;接入层脱敏技术阻止敏感数据落库,提升了隐私保护;StoreView 字段集控制通过限制查询数据范围,降低数据泄露损害。智能监控系统提供实时监测,快速识别并阻断异常拖库行为,为企业提供了迅速响应和抵御威胁的能力。

598 5
|
存储 Prometheus 运维
|

【云故事探索】NO.8:揭秘餐饮行业龙头 SaaS 厂商神州商龙的全栈可观测实践

天津市神州商龙科技股份有限公司成立于1998年,专为餐饮行业提供数字化解决方案。公司服务10万余家知名餐饮企业,确保用餐体验的稳定性至关重要。在业务容器化和微服务化过程中,神州商龙面临技术架构多样性、高可用要求及成本控制等挑战。通过尝试自建Prometheus和SkyWalking监控方案,最终选择阿里云Prometheus和日志服务SLS,实现了统一可观测平台,提升了监控效率、缩短故障排查时间、增强系统稳定性和优化资源利用率。未来,神州商龙计划引入机器学习和AI技术,提升自动化运维水平,并进一步整合业务系统监控数据。

489 3
|
监控 Kubernetes 数据可视化
|

可观测监控方案大全-SLS全栈监控

为了便于用户快速接入和监控业务系统,SLS提供了全栈监控的APP,将各类监控数据汇总到一个实例中进行统一的管理和监控。全栈监控基于SLS的监控数据采集、存储、分析、可视化、告警、AIOps等能力构建。

2102 1
|
存储 人工智能 运维
|

QCon大会精彩分享:数据湖、可观测、自动驾驶训练,阿里云存储独家技术详解与案例实践!

QCon 全球软件开发大会是由极客邦科技旗下 InfoQ 中国主办的综合性技术盛会,每年在伦敦、北京、纽约、圣保罗、上海、旧金山召开。自2007年3月份开始举办以来,已经有超万名有多年从业经验的技术人员参加过QCon大会。QCon 内容源于实践并面向社区,演讲嘉宾依据热点话题,面向5年以上工作经验的技术团队负责人、架构师、工程总监、开发人员分享技术创新和实践。

1488 2
|
1月前
|
运维 监控 数据可视化
|

别让运维跪着查日志了!给老板看的“业务观测”大盘才是真香

深夜告警、业务暴跌、全员背锅?一次支付故障暴露传统监控盲区。我们通过业务观测,将技术指标转化为老板听得懂的“人话”,实现从被动救火到主动洞察的跨越。让技术团队不再跪着查日志,而是站着驱动业务增长。

183 9
|
11月前
|
运维 监控 Cloud Native
|

构建深度可观测、可集成的网络智能运维平台

本文介绍了构建深度可观测、可集成的网络智能运维平台(简称NIS),旨在解决云上网络运维面临的复杂挑战。内容涵盖云网络运维的三大难题、打造云原生AIOps工具集的解决思路、可观测性对业务稳定的重要性,以及产品发布的亮点,包括流量分析NPM、网络架构巡检和自动化运维OpenAPI,助力客户实现自助运维与优化。

779 10
|
SQL 运维 资源调度
|

开源大数据可观测性方案实践 - 助力集群运维智能化、便捷化

在本篇文章中,我们将介绍大数据集群领域所需的可观测性,实践大数据集群可观测所需要的条件和面临的挑战,以及阿里云EMR 产品如何通过 EMR Doctor 实现大数据可观测并向用户提供相关能力。

17794 4
|
弹性计算 Prometheus 运维
|

统一观测|如何使用 Prometheus 监控 Windows

阿里云 Prometheus 与阿里云容器服务和 ECS 无缝集成,默认提供了 Windows 的 CPU、内存、磁盘、网络和进程等 5 方面的核心监控指标采集,同时提供了对应的优化后的专家级监控大盘和告警指标模板,为用户提供了免运维、开箱即用的 Windows 监控能力。

1234 0
|
数据采集 Kubernetes 网络协议
|

eBPF 实践 -- 网络可观测

观测云采集器,是一款开源、一体式的数据采集 Agent,它提供全平台操作系统支持,拥有全面数据采集能力,涵盖基础设施、指标、日志、应用性能、用户访问以及安全巡检等各种场景。通过 eBPF 技术的引入,观测云采集器实践了网络传输层和应用层的部分协议的可观测。

772 0
|
存储 运维 监控
|

企业如何从 0 到 1 构建整套全链路追踪体系

今天,我来跟大家分享 ARMS 在全链路追踪领域的最佳实践,分享主要分为四部分。首先,是对分布式链路追踪的整体简介。其次,是对 ARMS 在分布式链路追踪领域的核心能力进行介绍。然后,介绍如何从 0 到 1 构建整套全链路追踪体系。最后,介绍一些最佳实践案例。

717 0
|
存储 SQL 传感器
|

阿里可观测性数据引擎的技术实践

非常有幸参加了QCon上海站的可观测分会场,并和大家分享阿里在可观测性数据引擎的一些思考和技术实践,本文主要是对于分享的文字整理。

1745 1
|
存储 数据采集 Prometheus
|

基于 OPLG 从 0 到 1 构建统一可观测平台实践

随着软件复杂度的不断提升,单体应用架构逐步向分布式和微服务的架构演进,整体的调用环境也越来越复杂,仅靠日志和指标渐渐难以快速定位复杂环境下的问题。对于全栈可观测的诉求也变得愈加强烈,Traces、Metrics 和 Logs 的连接也愈发紧密。

1759 1
|
运维 监控 Cloud Native
|

云杉网络DeepFlow帮助5G核心网和电信云构建可观测性

为什么5G核心网和电信云需要可观测性?在过去的2021年,其实5G核心网在全球发生了多次影响范围大、持续时间长、社会影响广的故障。2021年的4月份加拿大Rogers发生了一次长达26个小时全国范围的移动通信网故障,故障发生后缺乏快速定位手段,导致故障难以在短时间内定位、消除。

424 0
|
9月前
|
SQL 运维 监控
|

高效定位 Go 应用问题:Go 可观测性功能深度解析

为进一步赋能用户在复杂场景下快速定位与解决问题,我们结合近期发布的一系列全新功能,精心梳理了一套从接入到问题发现、再到问题排查与精准定位的最佳实践指南。

297 6
|
11月前
|
人工智能 大数据 网络性能优化
|

构建超大带宽、超高性能及稳定可观测的全球互联网络

本次课程聚焦构建超大带宽、超高性能及稳定可观测的全球互联网络。首先介绍全球互联网络的功能与应用场景,涵盖云企业网、转发路由器等产品。接着探讨AI时代下全球互联网络面临的挑战,如大规模带宽需求、超低时延、极致稳定性和全面可观测性,并分享相应的解决方案,包括升级转发路由器、基于时延的流量调度和增强网络稳定性。最后宣布降价措施,降低数据与算力连接成本,助力企业全球化发展。

469 8
|
云安全 安全 Cloud Native
|

一文了解什么是CNAPP

在云计算蓬勃发展的今天,企业面临的安全挑战愈发复杂。传统安全方案已力不逮,CNAPP(云原生应用保护平台)应运而生,革新云安全领域。CNAPP专为云环境设计,提供全生命周期安全保护,具备微隔离、访问控制、数据保护等功能,并利用自动化与AI技术简化管理、智能响应威胁,适用于多云、DevOps等多种场景。尽管存在技术复杂性和成本等挑战,CNAPP仍将持续进化,变得更加智能、自动且易于集成,助力企业构建稳健的云安全体系。

972 0
|
tengine Java 测试技术
|

PTS压测问题之调试返回403如何解决

PTS(Performance Testing Service)是一项面向网站、应用等提供的压力测试服务,用于模拟不同场景下的用户访问,评估系统的性能表现;在进行PTS压测时,可能会出现一些异常或报错,本合集将PTS压测中频繁出现的问题及其解决办法进行汇编,旨在帮助用户更有效地进行性能测试和问题定位。

725 2
|
存储 运维 监控
|

深入浅出 eBPF|你要了解的 7 个核心问题

eBPF 提供的只是一个框架和机制,核心还是需要用 eBPF 的人对软件栈的理解,找到合适的插桩点,能够和应用问题进行关联。

1123 0
|
人工智能 运维 监控
|

科技云报道:云原生时代,IT运维视角为何要转向可观测性?

监控技术和工具革新迫在眉睫

373 0
|
机器学习/深度学习 消息中间件 数据采集
|

可观测性-Elastic Stack 实战手册

业界对可观测性的定义由Logging(日志),Metrics (指标)和 Tracing(跟踪)组成。其中大多数软件都仅在一个领域内发力,这导致了实施可观测性时的高昂成本。需要建设多个技术栈的软件,才能实现完整的可观测性。大多数企业基本都使用了 5个+ 的技术栈,有的甚至能达到10个技术栈。

783 0
我要发布