背景
云原生计算基金会(Cloud Native Computing Foundation,CNCF)正式将可观测性引入 IT 领域以来,可观测性市场迅猛发展,涌现出一大批可观测性解决方案,企业也在寻求不同的方式打造可观测性。
然而,传统的监控厂商与新生的可观测性厂商,均使用了相同的术语与概念,这导致用户对于可观测性的定义变得模糊,甚至很难区分哪些是真正的可观测性方案。同时,企业缺乏衡量和评估软件系统内部可观测性的框架或方法,也缺乏反馈可观测性体系建设成熟度水平的框架或方法。
在此背景下,由稳定性保障实验室指导,龙蜥社区、乘云数字等单位共同编写的国内首份《可观测性成熟度模型白皮书》正式发布(以下简称“白皮书”)。《白皮书》详细介绍了可观测性成熟度模型的设计思路,系统性地梳理了各成熟度阶段的能力特征,以帮助企业了解其当前的可观测性建设水平,并为其提供改进的思路。
研究思路
龙蜥社区在可观测性领域进行了很多实践,例如把某个或某类具体的应用,作为我们的监控对象,通过从监控对象在运行过程中的状态、指标、日志,以及其链路上发生的 RT 延迟、微服务调用情况进行汇总,利用智能分析算法给出问题根因结论和修复建议,并根据指标趋势对未来系统运行的情况进行预测,尝试把监控、智能诊断和可观测能力进行联动,让用户知其然又知所以然。
就在一个月前,龙蜥社区系统运维 SIG 发布了 SysOM 3.0 特性,其中基于应用的可观测功能,试图从应用的视角挖掘业务出现问题后的由上到下的根因分析能力,实现系统指标与应用表象的关联,完成从监控到诊断、网络拓扑及链路追踪到 AI 智能化分析的进阶。
SysOM 的产品力也逐渐从底层指标监控、可观测三大支柱数据的采集,上升到 AI 算法加持得出根因结论的能力跃迁,未来也会逐渐往故障预测预警、提升商业化(降低成本、增加业务营收、辅助商业决策)等终极能力进发。
此次《白皮书》编写,也进一步加深了我们对可观测性系统的理解,它一定程度上体现了龙蜥社区在可观测性领域的探索路径,也体现了我们孜孜不倦追求的“观测,让运维更简单”的理念。
正如这首打油诗所总结的:
莫听监控繁杂声,何妨观测且徐行
智能诊断快胜马,一键运维定乾坤
内容概览
《白皮书》历经数月精心编写,旨在为企业、工程师和技术领导者提供一种结构化方法,以评估、提高和优化其软件系统的可观测性水平。
《白皮书》首先介绍了可观测性的发展趋势,为什么需要可观测性成熟度模型,并基于此,进一步的阐述了可观测性成熟度模型的五个阶段的内容。这五个级别代表了不同的可观测性水平和能力,从最基本的监控到与业务目标紧密结合的高级可观测性。
通过以下链接可以下载白皮书内容:
https://openanolis.cn/assets/static/可观测性成熟度模型白皮书.pdf
模型概要介绍
成熟度模型是一种非常实用的工具,帮助组织评估、改进和发展其可观测性能力。通过这套模型,组织可以进行自我评估,还可以引导组织朝着更高水平的可观测性发展。通过该模型明确的步骤,我们可以提高组织内的可观测性,从而为客户提供更可靠和更具有弹性的系统或程序。
成熟度级别越高,IT 系统会变得更加弹性和可靠。我们将能够更快地解决问题的根因,了解变更、故障对业务的影响,并最终为客户提供更好的体验。
借助可观测性成熟度模型,组织可以明确发展的路线,使其能够全面把握系统和应用程序的状态和性能,及时做出反应并解决问题,实现对业务的可持续监测和优化。
该模型设计了五个级别,分别是:
Level 1 :监控(Monitoring)
在这个阶段,我们关注于如何确保系统的各个组件按照预期正常运行。这一阶段的主要目标是实时监测组件的健康状态,出现异常情况时,系统会自动触发警报,通知相关人员。
Level 2 :基础可观测性(Basic Observability)
在这个阶段,我们旨在深入了解系统不正常运行的原因。这一阶段的主要目标是通过采集“三大支柱数据”来洞察系统内部状态,以便明确了解为何系统出现问题。
Level 3 :因果可观测性(Causal Observability)
在这个阶段,我们致力于找到问题的根本性原因。以及如何避免类似问题再次发生。在此阶段,我们引入了网络和拓扑数据,以构建更为全面的系统内部理解。
Level 4 :主动可观测性(Proactive Observability)
这一阶段,我们的目标是实现自动化的根本性原因分析,自动化的响应与处置,以及智能化的预测与风险阻断。
Level 5 :业务可观测性(Business Observability)
在可观测性成熟度模型的最终阶段,我们关注的是从业务角度深入洞察,以确定系统对业务的影响,并从中获取降低成本、增加业务营收、提升转化率等方面的洞察,辅助商业决策。
可观测性成熟度模型的每个级别都必须建立在前一级别已经建立的基础之上,每个级别新增的能力,都应该有助于实现更深度的可观测性能力。
总结
本次《可观测性成熟度模型白皮书》的发布,可以帮助企业确定在可观测性领域的位置,并为前进方向提供指引。它能够为组织提供一种系统性的方法来评估、改进和提升其可观测性体系建设,更有针对性地发展可观测能力、优化资源分配并持续改进。企业通过合理应用该模型,可以更好地应对现代软件系统复杂性带来的挑战,实现更出色的用户体验,提高系统可靠性,并在竞争激烈的市场中取得优势。
更多龙蜥白皮书内容,点击这里查看。
相关链接:2022 龙蜥社区全景白皮书(或公众号【OpenAnolis龙蜥】回复关键字“白皮书”获取)https://openanolis.cn/openanoliswhitepaper
—— 完 ——
加入龙蜥社群
加入微信群:添加社区助理-龙蜥社区小龙(微信:openanolis_assis),备注【龙蜥】与你同在;加入钉钉群:扫描下方钉钉群二维码。
关于龙蜥
龙蜥社区是立足云计算打造面向国际的 Linux 服务器操作系统开源根社区及创新平台。龙蜥操作系统(Anolis OS)是龙蜥社区推出的 Linux 发行版,拥有三大核心能力:提效降本、更加稳定、更加安全。
目前,Anolis OS 23 已发布,全面支持智能计算,兼容主流 AI 框架,支持一键安装 nvidia GPU 驱动、CUDA 库等,完善适配 Intel、兆芯、鲲鹏、龙芯等芯片,并提供全栈国密支持。
加入我们,一起打造面向云时代的操作系统!