一文看懂可观测:盯得住系统,扛得住稳定

本文涉及的产品
应用实时监控服务-应用监控,每月50GB免费额度
日志服务 SLS,月写入数据量 50GB 1个月
应用实时监控服务-用户体验监控,每月100OCU免费额度
简介: 一文看懂可观测:盯得住系统,扛得住稳定


庞大的 IT 系统犹如一个超级工程

如何保障这个超级工程高效又稳定?

要靠可观测(Observability)


//  什么是可观测?


可观测(Observability)是对 IT 基础设施、系统应用、业务及用户反馈等关键环节的监控、分析和系统诊断能力。


作为系统中的“大脑”,「 可观测 」加工处理各类数据,最核心的有三种:日志(Log)指标(Metric)以及链路(Trace)


这三类数据,是构建系统情况全方位“大屏”的基石,一旦有任何“风吹草动”,相关团队就能第一时间侦测到,及时干预、诊断和修复异常情况。


8a6feee01543c2aef4ca00695b27cc14.png


Gartner 已将应用可观测列为“2023 年十大战略技术趋势”,它已逐渐从运维排查问题工具,进化成为生产力工具。


创办于2009年的阿里云,始终在技术上坚持创新与突破,在可观测领域中也成为国内唯一入选 Gartner 应用性能监控与可观测魔力象限报告的云厂商。


c1e575c3fa27b8aaede7933fcece4a50.png


//  「 可观测 」产品如何诞生?


—  始于业务需求

2012 年左右,淘宝电商业务爆发,阿里程序员们采用了微服务架构重构了整个业务逻辑。应用服务更加灵活敏捷,但运维管理却愈发复杂,甚至当时没有一个业务架构师能够讲清楚整个业务系统架构是什么样的。此刻,谁能盯好如此高速运转且复杂多样的系统,成为一个十分急迫的需求!


f6bc676f7806565536de8de73744fe64.jpg


2013年,阿里集团正式运营服务器规模达到5000(5K)的“飞天”集群,成为世界上第一个对外提供5K云计算服务能力的公司,庞大的服务器规模也让运维监控难度陡然提升。


—  基于自身需求研发

于是,这一年阿里云可观测的里程碑产品,EagleEye 、iLogtail 相继诞生。


6d636233e768003fced9f407f35d6f28.jpg


a25e57055fbc27efa75b61a3ef7c0ab8.jpg


这两位,可以说是阿里云可观测的双子星,生于云,长于云,是云原生最具代表性的产品之一。并且二者不断升级迭代,不仅提高内部系统运维协作效率,还大幅度降低了运维成本。


—  上线全栈统一可观测平台

在不断努力下,「可观测」已经在阿里云落地成为成熟的全栈统一可观测平台。


5cb39ce0280fc4205bd31a31d1dcd4dd.jpg


现如今,已经可以对外向开发者和客户提供数据采集、加工、投递、分析、应用(告警&可视化)等一系列能力,以及大规模、低成本、实时性的平台化服务。


//  服务千行百业,拥抱开源生态


截至目前,阿里云可观测产品已为数十万云上客户提供服务,我们也不断收到来自千行百业的用户们的反馈和新需求。


9b57004f37cf6317cdc8d628a70a6c05.png


正是伴随着技术进步与开发需求变化,在可观测领域,开源的OpenTelemetry是一个可能的最优解。


33a7d66b6b27996ac18ea22d2d6b02a0.png


基于此,阿里云可观测系统全面升级啦!


划重点如下:

—  核心产品全面拥抱OpenTelemetry开源生态及标准

应用实时监控服务ARMS等核心产品全面拥抱OpenTelemetry开源生态及标准,实现端到端的可观测全覆盖,并全新推出AI大模型应用的观测视图。


—  SLS日志服务实现引擎重磅升级

同时,作为可观测的核心基石的阿里云日志服务SLS,也实现了引擎重磅升级,数据加工及处理的性能提升10倍,并降低60%成本,三大全新能力一次性上线。


最后,压轴播放一个好消息,此次升级的 ARMS 与 SLS 服务均已在阿里云官网上线,企业和开发者可登录官网搜索“应用实时监控服务 ARMS”免费试用体验!


相关实践学习
通过云拨测对指定服务器进行Ping/DNS监测
本实验将通过云拨测对指定服务器进行Ping/DNS监测,评估网站服务质量和用户体验。
目录
相关文章
|
4月前
|
监控 安全 搜索推荐
挥别摸鱼现象,内网监控软件护航
在竞争激烈的商业环境中,高效运作对企业至关重要。然而,员工摸鱼不仅降低工作效率,还可能破坏工作氛围,导致人才流失。为此,内网监控软件成为解决方案。例如,**WorkWin** 能监控网页浏览、即时通讯等行为,并灵活分配网络资源;**Dell Network Assistant** 则具备实时报警和数据加密功能;**Broadcom ADX** 提供个性化生产力建议;**OsMonitor** 支持远程控制与屏幕监控。这些工具不仅提升效率,还保护企业信息安全。
41 0
|
存储 测试技术 API
面对大促场景来临,如何从容进行性能测试
面对大促场景来临,如何从容进行性能测试
188 11
|
存储 缓存 测试技术
三十、如何迅速分析出系统I/O的瓶颈在哪里?
最容易想到的是存储空间的使用情况,包括容量、使用量以及剩余空间等。我们通常也称这些为磁盘空间的使用量,因为文件系统的数据最终还是存储在磁盘上。
308 0
|
7月前
|
Kubernetes 测试技术 微服务
白天大流量下发布依然如丝般顺滑
为什么很多互联网公司不敢在白天发布,都选择在半夜发布。要是能摆脱半夜发布的窘境,它不香吗?选择在半夜发布无非是为了减少对用户的影响,出了问题影响面可控。那我们就来谈谈,发布会有哪些问题若您的应用没有上下线的问题,您的任何应用在发布的过程中会造成短暂的服务不可用,短时间内业务监控会出现大量 io 异常...
白天大流量下发布依然如丝般顺滑
|
存储 数据采集 运维
业务系统故障率居高不下:有哪些非常有效的治理大招?
业务系统故障率居高不下:有哪些非常有效的治理大招?
361 0
|
Kubernetes 监控 Cloud Native
面对不可避免的故障,我们造了一个“上帝视角”的控制台
混沌工程随着云原生的发展逐渐进入大家的视野,通过混沌工程可以很好地发现和解决在云原生化过程中的高可用问题。阿里巴巴在 2019 年开源了底层的混沌工程工具 - chaosblade,今年年初再次开源混沌工程控制台 chaosblade-box,ChaosBlade 品牌进一步升级。本文主要围绕云原生面临的高可用挑战和混沌工程机遇,详细介绍开源控制台的设计、特性和实践和未来规划,旨在帮助企业更好的了解控制台并通过其来实现混沌工程落地,解决云原生系统下高可用问题。
面对不可避免的故障,我们造了一个“上帝视角”的控制台
|
机器学习/深度学习 新零售 缓存
双11备战“核武器”,白天态全链路压测技术大揭秘!
全链路压测诞生于2013年双11的备战阶段,是基于过去多年的压测和容量规划领域的探索和积累创造出来的新的压测方式。全链路压测通过对应用系统进行改造使线上环境可以同时处理正常流量和压测流量,以支持在线上环境进行不影响正常用户访问的集群读写压测,获得最真实的线上实际承载能力数据。
2179 0
双11备战“核武器”,白天态全链路压测技术大揭秘!
|
监控 API 流计算
道旅鬼谷子分享:如何打好业务监控的组合拳
公司由于业务迅速扩展,需要针对业务方面进行定制监控。通过选型最终采用了 ARMS 方案。以下篇幅简单介绍了方案的大致概要以及最终效果,以供读者参考。一套组合拳,在数据分析、实时计算、报警、API、持久化存储等方面给我们节省了不少时间,也提供了更多的可能性。所以,最终我们选择了 ARMS。
2775 0
不要被超我拖垮,也不要被本我掌控
诚然,我是一个普通的大学僧。随着年龄的增长,我逐渐得以管中窥豹了这个缤纷的世界。我已经想不起来曾经的自己是怎么看待身边环境的了,更别提怎么看那时候认知里的世界,我现在只能体会到,我此时此刻所能体会到的。
1078 0

热门文章

最新文章