一文看懂可观测:盯得住系统,扛得住稳定

简介: 一文看懂可观测:盯得住系统,扛得住稳定


庞大的 IT 系统犹如一个超级工程

如何保障这个超级工程高效又稳定?

要靠可观测(Observability)


//  什么是可观测?


可观测(Observability)是对 IT 基础设施、系统应用、业务及用户反馈等关键环节的监控、分析和系统诊断能力。


作为系统中的“大脑”,「 可观测 」加工处理各类数据,最核心的有三种:日志(Log)指标(Metric)以及链路(Trace)


这三类数据,是构建系统情况全方位“大屏”的基石,一旦有任何“风吹草动”,相关团队就能第一时间侦测到,及时干预、诊断和修复异常情况。


8a6feee01543c2aef4ca00695b27cc14.png


Gartner 已将应用可观测列为“2023 年十大战略技术趋势”,它已逐渐从运维排查问题工具,进化成为生产力工具。


创办于2009年的阿里云,始终在技术上坚持创新与突破,在可观测领域中也成为国内唯一入选 Gartner 应用性能监控与可观测魔力象限报告的云厂商。


c1e575c3fa27b8aaede7933fcece4a50.png


//  「 可观测 」产品如何诞生?


—  始于业务需求

2012 年左右,淘宝电商业务爆发,阿里程序员们采用了微服务架构重构了整个业务逻辑。应用服务更加灵活敏捷,但运维管理却愈发复杂,甚至当时没有一个业务架构师能够讲清楚整个业务系统架构是什么样的。此刻,谁能盯好如此高速运转且复杂多样的系统,成为一个十分急迫的需求!


f6bc676f7806565536de8de73744fe64.jpg


2013年,阿里集团正式运营服务器规模达到5000(5K)的“飞天”集群,成为世界上第一个对外提供5K云计算服务能力的公司,庞大的服务器规模也让运维监控难度陡然提升。


—  基于自身需求研发

于是,这一年阿里云可观测的里程碑产品,EagleEye 、iLogtail 相继诞生。


6d636233e768003fced9f407f35d6f28.jpg


a25e57055fbc27efa75b61a3ef7c0ab8.jpg


这两位,可以说是阿里云可观测的双子星,生于云,长于云,是云原生最具代表性的产品之一。并且二者不断升级迭代,不仅提高内部系统运维协作效率,还大幅度降低了运维成本。


—  上线全栈统一可观测平台

在不断努力下,「可观测」已经在阿里云落地成为成熟的全栈统一可观测平台。


5cb39ce0280fc4205bd31a31d1dcd4dd.jpg


现如今,已经可以对外向开发者和客户提供数据采集、加工、投递、分析、应用(告警&可视化)等一系列能力,以及大规模、低成本、实时性的平台化服务。


//  服务千行百业,拥抱开源生态


截至目前,阿里云可观测产品已为数十万云上客户提供服务,我们也不断收到来自千行百业的用户们的反馈和新需求。


9b57004f37cf6317cdc8d628a70a6c05.png


正是伴随着技术进步与开发需求变化,在可观测领域,开源的OpenTelemetry是一个可能的最优解。


33a7d66b6b27996ac18ea22d2d6b02a0.png


基于此,阿里云可观测系统全面升级啦!


划重点如下:

—  核心产品全面拥抱OpenTelemetry开源生态及标准

应用实时监控服务ARMS等核心产品全面拥抱OpenTelemetry开源生态及标准,实现端到端的可观测全覆盖,并全新推出AI大模型应用的观测视图。


—  SLS日志服务实现引擎重磅升级

同时,作为可观测的核心基石的阿里云日志服务SLS,也实现了引擎重磅升级,数据加工及处理的性能提升10倍,并降低60%成本,三大全新能力一次性上线。


最后,压轴播放一个好消息,此次升级的 ARMS 与 SLS 服务均已在阿里云官网上线,企业和开发者可登录官网搜索“应用实时监控服务 ARMS”免费试用体验!


相关实践学习
通过轻量消息队列(原MNS)主题HTTP订阅+ARMS实现自定义数据多渠道告警
本场景将自定义告警信息同时分发至多个通知渠道的需求,例如短信、电子邮件及钉钉群组等。通过采用轻量消息队列(原 MNS)的主题模型的HTTP订阅方式,并结合应用实时监控服务提供的自定义集成能力,使得您能够以简便的配置方式实现上述多渠道同步通知的功能。
目录
相关文章
|
Java Spring 数据格式
使用Feign实现Form表单提交
原文:http://www.itmuch.com/spring-cloud-sum/feign-form-params/ 之前,笔者写了《使用Spring Cloud Feign上传文件》。
4675 0
|
5月前
|
运维 监控 Cloud Native
不是监控不行,是你观测得不够:聊聊新一代可观测性(Observability)的真相
不是监控不行,是你观测得不够:聊聊新一代可观测性(Observability)的真相
376 7
|
存储 人工智能 运维
重磅!阿里云可观测产品家族全新升级,AI +数据双驱动,打造全栈可观测体系
近日,阿里云可观测产品家族正式发布云监控 2.0,隶属产品日志服务 SLS、云监控 CMS、应用实时监控服务 ARMS 迎来重磅升级。
1610 112
|
2月前
|
Web App开发 人工智能 安全
阿里云/本地部署OpenClaw 及Live Chrome功能详解:免登录网页自动化、大模型对接教程
在日常工作与生活中,大量重复网页操作占据了我们大量时间:查询快递、下载账单、填写表单、抓取商品信息、同步数据、查询票务等。这些任务流程固定、操作繁琐,却不得不手动完成。OpenClaw在2026年3月推出的**Live Chrome Session Attach**浏览器自动化能力,彻底改变这一现状。它可以让AI直接接管你正在使用的Chrome浏览器,**复用已登录状态,无需重新登录任何网站**,像人一样点击、输入、滚动、截图、提取内容,实现真正意义上的网页自动化。
1303 1
|
9月前
|
存储 运维 数据可视化
Jaeger,一个链路追踪神器!
在微服务架构中,一次请求可能经过多个服务节点,带来复杂的调用关系。如何追踪请求全链路、快速定位问题、优化性能,成为开发与运维的关键挑战。链路追踪(Tracing)技术应运而生,而 Jaeger 作为业界主流的开源分布式链路追踪系统,提供了强大的支持。本文将带你全面了解 Jaeger 的核心概念、架构原理、使用方式及实际项目中的落地方法,助你快速掌握链路追踪技术,提升系统的可观测性与稳定性。
1636 2
Jaeger,一个链路追踪神器!
|
运维 Prometheus 监控
基于阿里云可观测产品构建企业级告警体系的通用路径与最佳实践
本文围绕企业级告警体系构建展开,探讨了监控与告警在系统稳定性中的重要作用。通过梳理监控对象、分析指标、采集数据及配置规则等环节,提出告警体系建设的通用流程,并针对多平台告警、误报、告警风暴等问题提供解决思路。结合阿里云可观测产品,分享了某电商企业的实践案例,展示了如何通过标签规范、日志标准和统一管理平台实现高效告警处置,为构建全面且实用的告警体系提供了参考指南。
1189 1
|
10月前
|
人工智能 自然语言处理 数据可视化
企业AI落地开源五剑客:Open-WebUI、Dify、RAGFlow、FastGPT、n8n
面对企业AI落地的数据安全、技术门槛和业务整合三大痛点,本文推荐五款开源利器:Open-WebUI(零代码交互)、Dify(低代码工厂)、RAGFlow(知识处理)、FastGPT(内容生成)和n8n(流程自动化)。这些工具提供开源可控、私有化部署和模块化扩展能力,助力企业低成本构建完整AI解决方案,突破传统闭源方案的成本与灵活性限制。
|
8月前
|
人工智能 缓存 算法
《人机协同的边界与价值:开放世界游戏系统重构中的AI工具实战指南》
本文复盘了开放世界游戏“动态实体调度系统”重构项目中,借助Cursor与CodeBuddy实现人机协同开发的30天实践。项目初期因代码耦合、性能不达标陷入技术死锁,团队通过“CodeBuddy全局架构拆解+Cursor局部编码优化”的组合模式,完成模块拆分、算法重构、资源泄漏排查与兼容性测试四大核心任务。AI工具在全局逻辑拆解、隐性问题定位、测试用例生成等方面效率提升显著,而人类聚焦业务规则定义、方案决策与细节优化,形成“AI搭框架、人类填细节”的协作模式。
311 12
|
人工智能 网络协议 数据中心
阿里云基础设施网络2024年创新总结
本文将盘点阿里云基础设施网络团队2024年在AI时代可预期网络的技术突破、学术成果、开源生态共建与重要会议技术布道等,与业界同仁一同探讨和展望AI时代的网络技术发展热点和趋势。
阿里云基础设施网络2024年创新总结
|
监控 Java Go
阿里云可观测全面拥抱 OpenTelemetry 社区
阿里云可观测全面拥抱 OpenTelemetry 社区
220 1
阿里云可观测全面拥抱 OpenTelemetry 社区

热门文章

最新文章