一文看懂可观测:盯得住系统,扛得住稳定

本文涉及的产品
应用实时监控服务ARMS - 应用监控,每月50GB免费额度
日志服务 SLS,月写入数据量 50GB 1个月
简介: 一文看懂可观测:盯得住系统,扛得住稳定


庞大的 IT 系统犹如一个超级工程

如何保障这个超级工程高效又稳定?

要靠可观测(Observability)


//  什么是可观测?


可观测(Observability)是对 IT 基础设施、系统应用、业务及用户反馈等关键环节的监控、分析和系统诊断能力。


作为系统中的“大脑”,「 可观测 」加工处理各类数据,最核心的有三种:日志(Log)指标(Metric)以及链路(Trace)


这三类数据,是构建系统情况全方位“大屏”的基石,一旦有任何“风吹草动”,相关团队就能第一时间侦测到,及时干预、诊断和修复异常情况。


8a6feee01543c2aef4ca00695b27cc14.png


Gartner 已将应用可观测列为“2023 年十大战略技术趋势”,它已逐渐从运维排查问题工具,进化成为生产力工具。


创办于2009年的阿里云,始终在技术上坚持创新与突破,在可观测领域中也成为国内唯一入选 Gartner 应用性能监控与可观测魔力象限报告的云厂商。


c1e575c3fa27b8aaede7933fcece4a50.png


//  「 可观测 」产品如何诞生?


—  始于业务需求

2012 年左右,淘宝电商业务爆发,阿里程序员们采用了微服务架构重构了整个业务逻辑。应用服务更加灵活敏捷,但运维管理却愈发复杂,甚至当时没有一个业务架构师能够讲清楚整个业务系统架构是什么样的。此刻,谁能盯好如此高速运转且复杂多样的系统,成为一个十分急迫的需求!


f6bc676f7806565536de8de73744fe64.jpg


2013年,阿里集团正式运营服务器规模达到5000(5K)的“飞天”集群,成为世界上第一个对外提供5K云计算服务能力的公司,庞大的服务器规模也让运维监控难度陡然提升。


—  基于自身需求研发

于是,这一年阿里云可观测的里程碑产品,EagleEye 、iLogtail 相继诞生。


6d636233e768003fced9f407f35d6f28.jpg


a25e57055fbc27efa75b61a3ef7c0ab8.jpg


这两位,可以说是阿里云可观测的双子星,生于云,长于云,是云原生最具代表性的产品之一。并且二者不断升级迭代,不仅提高内部系统运维协作效率,还大幅度降低了运维成本。


—  上线全栈统一可观测平台

在不断努力下,「可观测」已经在阿里云落地成为成熟的全栈统一可观测平台。


5cb39ce0280fc4205bd31a31d1dcd4dd.jpg


现如今,已经可以对外向开发者和客户提供数据采集、加工、投递、分析、应用(告警&可视化)等一系列能力,以及大规模、低成本、实时性的平台化服务。


//  服务千行百业,拥抱开源生态


截至目前,阿里云可观测产品已为数十万云上客户提供服务,我们也不断收到来自千行百业的用户们的反馈和新需求。


9b57004f37cf6317cdc8d628a70a6c05.png


正是伴随着技术进步与开发需求变化,在可观测领域,开源的OpenTelemetry是一个可能的最优解。


33a7d66b6b27996ac18ea22d2d6b02a0.png


基于此,阿里云可观测系统全面升级啦!


划重点如下:

—  核心产品全面拥抱OpenTelemetry开源生态及标准

应用实时监控服务ARMS等核心产品全面拥抱OpenTelemetry开源生态及标准,实现端到端的可观测全覆盖,并全新推出AI大模型应用的观测视图。


—  SLS日志服务实现引擎重磅升级

同时,作为可观测的核心基石的阿里云日志服务SLS,也实现了引擎重磅升级,数据加工及处理的性能提升10倍,并降低60%成本,三大全新能力一次性上线。


最后,压轴播放一个好消息,此次升级的 ARMS 与 SLS 服务均已在阿里云官网上线,企业和开发者可登录官网搜索“应用实时监控服务 ARMS”免费试用体验!


相关实践学习
通过云拨测对指定服务器进行Ping/DNS监测
本实验将通过云拨测对指定服务器进行Ping/DNS监测,评估网站服务质量和用户体验。
目录
相关文章
|
运维 测试技术
千万级乘客排队系统重构&压测方案——总结篇
千万级乘客排队系统重构&压测方案——总结篇
162 1
|
存储 数据采集 运维
业务系统故障率居高不下:有哪些非常有效的治理大招?
业务系统故障率居高不下:有哪些非常有效的治理大招?
331 0
|
Web App开发 JavaScript 前端开发
多个网站遇大面积采集求解决方案
网站URL被大面积扫描采集,关键是IP还多,今天禁止了些IP,但是明天新的IP又来了,主要集中在台州 丽水这些地方,求帮助。 我尝试在服务器安全组禁止IP,但是每天的IP各种各样,心累 39.173.105.217 - - [29/Jul/2022:18:51:16 +0800] "GET /e/3a1e8f5df55c8a23/ HTTP/1.1" 200 60243 "https://mip.english28.com/" "Mozilla/5.0唉,主要是禁止也禁止不完,各种不同的IP都有,请求帮助一个思路,
721 0
多个网站遇大面积采集求解决方案
|
存储 Cloud Native 安全
稳定性「三十六计」- 无状态化
稳定性「三十六计」- 无状态化
|
Kubernetes 监控 Cloud Native
面对不可避免的故障,我们造了一个“上帝视角”的控制台
混沌工程随着云原生的发展逐渐进入大家的视野,通过混沌工程可以很好地发现和解决在云原生化过程中的高可用问题。阿里巴巴在 2019 年开源了底层的混沌工程工具 - chaosblade,今年年初再次开源混沌工程控制台 chaosblade-box,ChaosBlade 品牌进一步升级。本文主要围绕云原生面临的高可用挑战和混沌工程机遇,详细介绍开源控制台的设计、特性和实践和未来规划,旨在帮助企业更好的了解控制台并通过其来实现混沌工程落地,解决云原生系统下高可用问题。
面对不可避免的故障,我们造了一个“上帝视角”的控制台
|
机器学习/深度学习 新零售 缓存
双11备战“核武器”,白天态全链路压测技术大揭秘!
全链路压测诞生于2013年双11的备战阶段,是基于过去多年的压测和容量规划领域的探索和积累创造出来的新的压测方式。全链路压测通过对应用系统进行改造使线上环境可以同时处理正常流量和压测流量,以支持在线上环境进行不影响正常用户访问的集群读写压测,获得最真实的线上实际承载能力数据。
2154 0
双11备战“核武器”,白天态全链路压测技术大揭秘!
|
缓存 监控 前端开发
惊魂48小时,阿里工程师如何紧急定位线上内存泄露?
云计算场景下的大规模分布式系统中,网络异常、磁盘IO异常、时钟跳变、操作系统异常乃至软件本身可能存在bugs等,均给分布式系统正确运行带来了挑战。持续的监控报警完善是打造稳定高可用分布式系统过程中非常重要的工作,这个也就要求我们研发同学从细节处入手,本文将介绍的场景是针对线上报警的一丝异常,抽丝剥茧找到内存泄露的root cause,全程48小时,跟进修复了潜在风险隐患,并进一步丰富完善监控报警体系的过程。
461 0
惊魂48小时,阿里工程师如何紧急定位线上内存泄露?
|
存储 运维 监控
十条运维经验,帮你远离故障
1. 确保变更可以回滚 佛说:“每次创伤都是一次成熟”。这是运维人员的真实写照。从某种意义上讲,运维是一份不断犯错、不断积累经验的工作。以前没有经历的东西,总是不定期的给你痛击。所以请保护好变更的现场,使得变更有回头的机会。
1106 0
|
SQL JavaScript 关系型数据库
避坑:一次离奇性能故障的排查与反思
某客户反馈生产库ETL及报表类SQL全部运行不出来,监控告警近期大量SQL语句执行计划发生变更。客户DBA通过对比新旧执行计划发现执行计划变更的SQL大部分都变成了走索引加上NL的方式,而且不止一个SQL出现这种问题,该生产库上几乎所有的AP类型SQL都出现了该问题。
3397 0
下一篇
无影云桌面