一文看懂可观测:盯得住系统,扛得住稳定

本文涉及的产品
应用实时监控服务-应用监控,每月50GB免费额度
日志服务 SLS,月写入数据量 50GB 1个月
简介: 一文看懂可观测:盯得住系统,扛得住稳定


庞大的 IT 系统犹如一个超级工程

如何保障这个超级工程高效又稳定?

要靠可观测(Observability)


//  什么是可观测?


可观测(Observability)是对 IT 基础设施、系统应用、业务及用户反馈等关键环节的监控、分析和系统诊断能力。


作为系统中的“大脑”,「 可观测 」加工处理各类数据,最核心的有三种:日志(Log)指标(Metric)以及链路(Trace)


这三类数据,是构建系统情况全方位“大屏”的基石,一旦有任何“风吹草动”,相关团队就能第一时间侦测到,及时干预、诊断和修复异常情况。


8a6feee01543c2aef4ca00695b27cc14.png


Gartner 已将应用可观测列为“2023 年十大战略技术趋势”,它已逐渐从运维排查问题工具,进化成为生产力工具。


创办于2009年的阿里云,始终在技术上坚持创新与突破,在可观测领域中也成为国内唯一入选 Gartner 应用性能监控与可观测魔力象限报告的云厂商。


c1e575c3fa27b8aaede7933fcece4a50.png


//  「 可观测 」产品如何诞生?


—  始于业务需求

2012 年左右,淘宝电商业务爆发,阿里程序员们采用了微服务架构重构了整个业务逻辑。应用服务更加灵活敏捷,但运维管理却愈发复杂,甚至当时没有一个业务架构师能够讲清楚整个业务系统架构是什么样的。此刻,谁能盯好如此高速运转且复杂多样的系统,成为一个十分急迫的需求!


f6bc676f7806565536de8de73744fe64.jpg


2013年,阿里集团正式运营服务器规模达到5000(5K)的“飞天”集群,成为世界上第一个对外提供5K云计算服务能力的公司,庞大的服务器规模也让运维监控难度陡然提升。


—  基于自身需求研发

于是,这一年阿里云可观测的里程碑产品,EagleEye 、iLogtail 相继诞生。


6d636233e768003fced9f407f35d6f28.jpg


a25e57055fbc27efa75b61a3ef7c0ab8.jpg


这两位,可以说是阿里云可观测的双子星,生于云,长于云,是云原生最具代表性的产品之一。并且二者不断升级迭代,不仅提高内部系统运维协作效率,还大幅度降低了运维成本。


—  上线全栈统一可观测平台

在不断努力下,「可观测」已经在阿里云落地成为成熟的全栈统一可观测平台。


5cb39ce0280fc4205bd31a31d1dcd4dd.jpg


现如今,已经可以对外向开发者和客户提供数据采集、加工、投递、分析、应用(告警&可视化)等一系列能力,以及大规模、低成本、实时性的平台化服务。


//  服务千行百业,拥抱开源生态


截至目前,阿里云可观测产品已为数十万云上客户提供服务,我们也不断收到来自千行百业的用户们的反馈和新需求。


9b57004f37cf6317cdc8d628a70a6c05.png


正是伴随着技术进步与开发需求变化,在可观测领域,开源的OpenTelemetry是一个可能的最优解。


33a7d66b6b27996ac18ea22d2d6b02a0.png


基于此,阿里云可观测系统全面升级啦!


划重点如下:

—  核心产品全面拥抱OpenTelemetry开源生态及标准

应用实时监控服务ARMS等核心产品全面拥抱OpenTelemetry开源生态及标准,实现端到端的可观测全覆盖,并全新推出AI大模型应用的观测视图。


—  SLS日志服务实现引擎重磅升级

同时,作为可观测的核心基石的阿里云日志服务SLS,也实现了引擎重磅升级,数据加工及处理的性能提升10倍,并降低60%成本,三大全新能力一次性上线。


最后,压轴播放一个好消息,此次升级的 ARMS 与 SLS 服务均已在阿里云官网上线,企业和开发者可登录官网搜索“应用实时监控服务 ARMS”免费试用体验!


相关实践学习
通过轻量消息队列(原MNS)主题HTTP订阅+ARMS实现自定义数据多渠道告警
本场景将自定义告警信息同时分发至多个通知渠道的需求,例如短信、电子邮件及钉钉群组等。通过采用轻量消息队列(原 MNS)的主题模型的HTTP订阅方式,并结合应用实时监控服务提供的自定义集成能力,使得您能够以简便的配置方式实现上述多渠道同步通知的功能。
目录
相关文章
|
存储 算法 搜索推荐
时间复杂度:一步步理解算法效率
时间复杂度:一步步理解算法效率,更多文章可关注我的微信公众号:Python学习杂记
900 0
|
8月前
|
存储 监控 网络安全
阿里云可观测 2025 年 1 月产品动态
阿里云可观测 2025 年 1 月产品动态。
135 82
|
机器学习/深度学习 人工智能 Cloud Native
2024 天池云原生编程挑战赛决赛名单出炉,冠军来自中山大学、昆仑数智战队
2024 天池云原生编程挑战赛由阿里云主办,云原生应用平台、天池以及市场营销部联合承办,本届大赛成功吸引了超过 20500 支队伍积极参与,参赛者来自 10 多个国家和地区,大赛规模创下历史新高。
919 10
|
5月前
|
缓存 算法 Java
JVM深入原理(八)(一):垃圾回收
弱引用-作用:JVM中使用WeakReference对象来实现软引用,一般在ThreadLocal中,当进行垃圾回收时,被弱引用对象引用的对象就直接被回收.软引用-作用:JVM中使用SoftReference对象来实现软引用,一般在缓存中使用,当程序内存不足时,被引用的对象就会被回收.强引用-作用:可达性算法描述的根对象引用普通对象的引用,指的就是强引用,只要有这层关系存在,被引用的对象就会不被垃圾回收。引用计数法-缺点:如果两个对象循环引用,而又没有其他的对象来引用它们,这样就造成垃圾堆积。
157 0
|
监控 Java
注册并配置ARMS实例
【8月更文挑战第24天】
240 4
|
安全 Java Android开发
JavaWeb解压缩漏洞之ZipSlip与Zip炸弹
JavaWeb解压缩漏洞之ZipSlip与Zip炸弹
380 2
|
存储 运维 监控
构建高效运维体系:从监控到自动化的全方位实践指南
在当今数字化时代,企业对运维(Operations)的需求日益增长。运维不仅仅是保持系统运行那么简单,它涉及到监控、日志管理、故障排除、性能优化和自动化等多个层面。本文将从实际操作的角度出发,详细探讨如何构建一个高效的运维体系。通过具体案例,我们将了解不同运维工具和方法的应用,以及它们是如何帮助企业提高生产效率和降低运营风险的。无论你是刚接触运维的新手,还是经验丰富的专家,这篇文章都将为你提供宝贵的参考和启示。
|
存储 算法 安全
程序员必知:分布式一致性Raft与JRaft
程序员必知:分布式一致性Raft与JRaft
197 0
|
SQL 关系型数据库 MySQL
【MySQL】Mysql索引失效场景(15个必知)(二)
【MySQL】Mysql索引失效场景(15个必知)(二)
598 1
【MySQL】Mysql索引失效场景(15个必知)(二)
|
人工智能 云计算 开发者
【云小宝】
【云小宝】 历经5天时间,今天终于和【太极版】云小宝见面了。[比心][加油]
1503 1
【云小宝】

热门文章

最新文章