一文看懂可观测:盯得住系统,扛得住稳定

简介: 一文看懂可观测:盯得住系统,扛得住稳定


庞大的 IT 系统犹如一个超级工程

如何保障这个超级工程高效又稳定?

要靠可观测(Observability)


//  什么是可观测?


可观测(Observability)是对 IT 基础设施、系统应用、业务及用户反馈等关键环节的监控、分析和系统诊断能力。


作为系统中的“大脑”,「 可观测 」加工处理各类数据,最核心的有三种:日志(Log)指标(Metric)以及链路(Trace)


这三类数据,是构建系统情况全方位“大屏”的基石,一旦有任何“风吹草动”,相关团队就能第一时间侦测到,及时干预、诊断和修复异常情况。


8a6feee01543c2aef4ca00695b27cc14.png


Gartner 已将应用可观测列为“2023 年十大战略技术趋势”,它已逐渐从运维排查问题工具,进化成为生产力工具。


创办于2009年的阿里云,始终在技术上坚持创新与突破,在可观测领域中也成为国内唯一入选 Gartner 应用性能监控与可观测魔力象限报告的云厂商。


c1e575c3fa27b8aaede7933fcece4a50.png


//  「 可观测 」产品如何诞生?


—  始于业务需求

2012 年左右,淘宝电商业务爆发,阿里程序员们采用了微服务架构重构了整个业务逻辑。应用服务更加灵活敏捷,但运维管理却愈发复杂,甚至当时没有一个业务架构师能够讲清楚整个业务系统架构是什么样的。此刻,谁能盯好如此高速运转且复杂多样的系统,成为一个十分急迫的需求!


f6bc676f7806565536de8de73744fe64.jpg


2013年,阿里集团正式运营服务器规模达到5000(5K)的“飞天”集群,成为世界上第一个对外提供5K云计算服务能力的公司,庞大的服务器规模也让运维监控难度陡然提升。


—  基于自身需求研发

于是,这一年阿里云可观测的里程碑产品,EagleEye 、iLogtail 相继诞生。


6d636233e768003fced9f407f35d6f28.jpg


a25e57055fbc27efa75b61a3ef7c0ab8.jpg


这两位,可以说是阿里云可观测的双子星,生于云,长于云,是云原生最具代表性的产品之一。并且二者不断升级迭代,不仅提高内部系统运维协作效率,还大幅度降低了运维成本。


—  上线全栈统一可观测平台

在不断努力下,「可观测」已经在阿里云落地成为成熟的全栈统一可观测平台。


5cb39ce0280fc4205bd31a31d1dcd4dd.jpg


现如今,已经可以对外向开发者和客户提供数据采集、加工、投递、分析、应用(告警&可视化)等一系列能力,以及大规模、低成本、实时性的平台化服务。


//  服务千行百业,拥抱开源生态


截至目前,阿里云可观测产品已为数十万云上客户提供服务,我们也不断收到来自千行百业的用户们的反馈和新需求。


9b57004f37cf6317cdc8d628a70a6c05.png


正是伴随着技术进步与开发需求变化,在可观测领域,开源的OpenTelemetry是一个可能的最优解。


33a7d66b6b27996ac18ea22d2d6b02a0.png


基于此,阿里云可观测系统全面升级啦!


划重点如下:

—  核心产品全面拥抱OpenTelemetry开源生态及标准

应用实时监控服务ARMS等核心产品全面拥抱OpenTelemetry开源生态及标准,实现端到端的可观测全覆盖,并全新推出AI大模型应用的观测视图。


—  SLS日志服务实现引擎重磅升级

同时,作为可观测的核心基石的阿里云日志服务SLS,也实现了引擎重磅升级,数据加工及处理的性能提升10倍,并降低60%成本,三大全新能力一次性上线。


最后,压轴播放一个好消息,此次升级的 ARMS 与 SLS 服务均已在阿里云官网上线,企业和开发者可登录官网搜索“应用实时监控服务 ARMS”免费试用体验!


相关实践学习
通过轻量消息队列(原MNS)主题HTTP订阅+ARMS实现自定义数据多渠道告警
本场景将自定义告警信息同时分发至多个通知渠道的需求,例如短信、电子邮件及钉钉群组等。通过采用轻量消息队列(原 MNS)的主题模型的HTTP订阅方式,并结合应用实时监控服务提供的自定义集成能力,使得您能够以简便的配置方式实现上述多渠道同步通知的功能。
目录
相关文章
|
运维 Prometheus 监控
基于阿里云可观测产品构建企业级告警体系的通用路径与最佳实践
本文围绕企业级告警体系构建展开,探讨了监控与告警在系统稳定性中的重要作用。通过梳理监控对象、分析指标、采集数据及配置规则等环节,提出告警体系建设的通用流程,并针对多平台告警、误报、告警风暴等问题提供解决思路。结合阿里云可观测产品,分享了某电商企业的实践案例,展示了如何通过标签规范、日志标准和统一管理平台实现高效告警处置,为构建全面且实用的告警体系提供了参考指南。
1270 1
|
存储 人工智能 运维
重磅!阿里云可观测产品家族全新升级,AI +数据双驱动,打造全栈可观测体系
近日,阿里云可观测产品家族正式发布云监控 2.0,隶属产品日志服务 SLS、云监控 CMS、应用实时监控服务 ARMS 迎来重磅升级。
1671 113
|
2月前
|
Web App开发 人工智能 安全
阿里云/本地部署OpenClaw 及Live Chrome功能详解:免登录网页自动化、大模型对接教程
在日常工作与生活中,大量重复网页操作占据了我们大量时间:查询快递、下载账单、填写表单、抓取商品信息、同步数据、查询票务等。这些任务流程固定、操作繁琐,却不得不手动完成。OpenClaw在2026年3月推出的**Live Chrome Session Attach**浏览器自动化能力,彻底改变这一现状。它可以让AI直接接管你正在使用的Chrome浏览器,**复用已登录状态,无需重新登录任何网站**,像人一样点击、输入、滚动、截图、提取内容,实现真正意义上的网页自动化。
1551 1
|
10月前
|
人工智能 自然语言处理 数据可视化
企业AI落地开源五剑客:Open-WebUI、Dify、RAGFlow、FastGPT、n8n
面对企业AI落地的数据安全、技术门槛和业务整合三大痛点,本文推荐五款开源利器:Open-WebUI(零代码交互)、Dify(低代码工厂)、RAGFlow(知识处理)、FastGPT(内容生成)和n8n(流程自动化)。这些工具提供开源可控、私有化部署和模块化扩展能力,助力企业低成本构建完整AI解决方案,突破传统闭源方案的成本与灵活性限制。
|
人工智能 网络协议 数据中心
阿里云基础设施网络2024年创新总结
本文将盘点阿里云基础设施网络团队2024年在AI时代可预期网络的技术突破、学术成果、开源生态共建与重要会议技术布道等,与业界同仁一同探讨和展望AI时代的网络技术发展热点和趋势。
阿里云基础设施网络2024年创新总结
|
人工智能 监控 数据库
LLM 应用可观测性:从 Trace 视角展开的探索与实践之旅
基于大语言模型的应用在性能、成本、效果等方面存在一系列实际痛点,本文通过分析 LLM 应用模式以及关注点差异来阐明可观测技术挑战,近期阿里云可观测推出了面向 LLM 应用的可观测解决方案以及最佳实践,一起来了解下吧。
20898 141
LLM 应用可观测性:从 Trace 视角展开的探索与实践之旅
|
移动开发 监控 网络协议
每个端侧产品都需要的用户体验监控
ARMS RUM 是阿里云应用实时监控服务(ARMS)下的用户体验监控(RUM)产品,覆盖 Web/H5、各类平台小程序、Android、iOS、Flutter、ReactNative、Windows、macOS 等平台框架。接入 SDK 后会主动采集端侧页面性能、资源加载、API 调用、异常崩溃、卡顿、用户操作、系统信息等数据,还支持事件、日志、异常等数据按需自定义上报以满足业务数据分析需求,提供全面的性能分析、异常分析、产品分析、会话分析能力,帮助快速跟踪定位问题原因,提升产品用户使用体验。
1136 122
|
存储 运维 监控
构建高效运维体系:从监控到自动化的全方位实践指南
在当今数字化时代,企业对运维(Operations)的需求日益增长。运维不仅仅是保持系统运行那么简单,它涉及到监控、日志管理、故障排除、性能优化和自动化等多个层面。本文将从实际操作的角度出发,详细探讨如何构建一个高效的运维体系。通过具体案例,我们将了解不同运维工具和方法的应用,以及它们是如何帮助企业提高生产效率和降低运营风险的。无论你是刚接触运维的新手,还是经验丰富的专家,这篇文章都将为你提供宝贵的参考和启示。
|
运维 Prometheus 监控
从幕后走到台前!过去十年,我们在阿里云如何建设可观测体系?
从幕后走到台前!过去十年,我们在阿里云如何建设可观测体系?
4313 46
|
存储 运维 负载均衡
带你读《云原生架构白皮书2022新版》——云原生微服务(上)
带你读《云原生架构白皮书2022新版》——云原生微服务(上)
739 85