《可观测性成熟度模型白皮书》正式发布,龙蜥致力打造更好用户体验

简介: 一文了解软件包构建、镜像构建、内核源码构建、云原生构建 4 大构建服务。

背景

云原生计算基金会(Cloud Native Computing Foundation,CNCF)正式将可观测性引入 IT 领域以来,可观测性市场迅猛发展,涌现出一大批可观测性解决方案,企业也在寻求不同的方式打造可观测性。


然而,传统的监控厂商与新生的可观测性厂商,均使用了相同的术语与概念,这导致用户对于可观测性的定义变得模糊,甚至很难区分哪些是真正的可观测性方案。同时,企业缺乏衡量和评估软件系统内部可观测性的框架或方法,也缺乏反馈可观测性体系建设成熟度水平的框架或方法。


在此背景下,由稳定性保障实验室指导,龙蜥社区、乘云数字等单位共同编写的国内首份《可观测性成熟度模型白皮书》正式发布(以下简称“白皮书”)。《白皮书》详细介绍了可观测性成熟度模型的设计思路系统性地梳理了各成熟度阶段的能力特征,以帮助企业了解其当前的可观测性建设水平,并为其提供改进的思路。

研究思路


龙蜥社区在可观测性领域进行了很多实践,例如把某个或某类具体的应用,作为我们的监控对象,通过从监控对象在运行过程中的状态、指标、日志,以及其链路上发生的 RT 延迟、微服务调用情况进行汇总,利用智能分析算法给出问题根因结论和修复建议,并根据指标趋势对未来系统运行的情况进行预测,尝试把监控、智能诊断和可观测能力进行联动,让用户知其然又知所以然。


就在一个月前,龙蜥社区系统运维 SIG 发布了 SysOM 3.0 特性,其中基于应用的可观测功能,试图从应用的视角挖掘业务出现问题后的由上到下的根因分析能力,实现系统指标与应用表象的关联,完成从监控到诊断、网络拓扑及链路追踪到 AI 智能化分析的进阶。


SysOM 的产品力也逐渐从底层指标监控、可观测三大支柱数据的采集,上升到 AI  算法加持得出根因结论的能力跃迁,未来也会逐渐往故障预测预警、提升商业化(降低成本、增加业务营收、辅助商业决策)等终极能力进发。


此次《白皮书》编写,也进一步加深了我们对可观测性系统的理解,它一定程度上体现了龙蜥社区在可观测性领域的探索路径,也体现了我们孜孜不倦追求的“观测,让运维更简单”的理念。


正如这首打油诗所总结的:

莫听监控繁杂声,何妨观测且徐行

智能诊断快胜马,一键运维定乾坤

内容概览

《白皮书》历经数月精心编写,旨在为企业、工程师和技术领导者提供一种结构化方法,以评估、提高和优化其软件系统的可观测性水平。


《白皮书》首先介绍了可观测性的发展趋势,为什么需要可观测性成熟度模型,并基于此,进一步的阐述了可观测性成熟度模型的五个阶段的内容。这五个级别代表了不同的可观测性水平和能力,从最基本的监控到与业务目标紧密结合的高级可观测性。


通过以下链接可以下载白皮书内容

https://openanolis.cn/assets/static/可观测性成熟度模型白皮书.pdf

模型概要介绍

成熟度模型是一种非常实用的工具,帮助组织评估、改进和发展其可观测性能力。通过这套模型,组织可以进行自我评估,还可以引导组织朝着更高水平的可观测性发展。通过该模型明确的步骤,我们可以提高组织内的可观测性,从而为客户提供更可靠和更具有弹性的系统或程序。


成熟度级别越高,IT 系统会变得更加弹性和可靠。我们将能够更快地解决问题的根因,了解变更、故障对业务的影响,并最终为客户提供更好的体验。


借助可观测性成熟度模型,组织可以明确发展的路线,使其能够全面把握系统和应用程序的状态和性能,及时做出反应并解决问题,实现对业务的可持续监测和优化。


该模型设计了五个级别,分别是:

Level 1 :监控(Monitoring)

在这个阶段,我们关注于如何确保系统的各个组件按照预期正常运行。这一阶段的主要目标是实时监测组件的健康状态,出现异常情况时,系统会自动触发警报,通知相关人员。

Level 2 :基础可观测性(Basic Observability)

在这个阶段,我们旨在深入了解系统不正常运行的原因。这一阶段的主要目标是通过采集“三大支柱数据”来洞察系统内部状态,以便明确了解为何系统出现问题。

Level 3 :因果可观测性(Causal Observability)

在这个阶段,我们致力于找到问题的根本性原因。以及如何避免类似问题再次发生。在此阶段,我们引入了网络和拓扑数据,以构建更为全面的系统内部理解。

Level 4 :主动可观测性(Proactive Observability)

这一阶段,我们的目标是实现自动化的根本性原因分析,自动化的响应与处置,以及智能化的预测与风险阻断。

Level 5 :业务可观测性(Business Observability)

在可观测性成熟度模型的最终阶段,我们关注的是从业务角度深入洞察,以确定系统对业务的影响,并从中获取降低成本、增加业务营收、提升转化率等方面的洞察,辅助商业决策。

可观测性成熟度模型的每个级别都必须建立在前一级别已经建立的基础之上,每个级别新增的能力,都应该有助于实现更深度的可观测性能力。

总结

本次《可观测性成熟度模型白皮书》的发布,可以帮助企业确定在可观测性领域的位置,并为前进方向提供指引。它能够为组织提供一种系统性的方法来评估、改进和提升其可观测性体系建设,更有针对性地发展可观测能力、优化资源分配并持续改进。企业通过合理应用该模型,可以更好地应对现代软件系统复杂性带来的挑战,实现更出色的用户体验,提高系统可靠性,并在竞争激烈的市场中取得优势。


更多龙蜥白皮书内容,点击这里查看。

相关链接:2022 龙蜥社区全景白皮书(或公众号【OpenAnolis龙蜥】回复关键字“白皮书”获取)https://openanolis.cn/openanoliswhitepaper

—— 完 ——

加入龙蜥社群

加入微信群:添加社区助理-龙蜥社区小龙(微信:openanolis_assis),备注【龙蜥】与你同在;加入钉钉群:扫描下方钉钉群二维码。

社群.png

关于龙蜥

龙蜥社区是立足云计算打造面向国际的 Linux  服务器操作系统开源根社区及创新平台。龙蜥操作系统(Anolis OS)是龙蜥社区推出的 Linux 发行版,拥有三大核心能力:提效降本、更加稳定、更加安全。

目前,Anolis OS 23 已发布,全面支持智能计算,兼容主流 AI 框架,支持一键安装 nvidia GPU 驱动、CUDA 库等,完善适配 Intel、兆芯、鲲鹏、龙芯等芯片,并提供全栈国密支持。

加入我们,一起打造面向云时代的操作系统!

相关文章
|
7月前
|
存储 人工智能 运维
阿里云联合信通院发布《面向LLM应用的可观测性能力要求》
随着大模型技术的广泛应用,大语言模型(LLM)在对话系统、检索增强生成(RAG)、智能体(Agent)等场景中展现出无限的想象力与创造力。同时,基于 LLM 以及 AI 生态技术栈构建的应用以及业务场景也如雨后春笋般不断涌现。然而,LLM 应用在生产落地过程中面临着模型不确定性大、架构链路复杂、用户体验难以评估等诸多痛点。如何构建 LLM 应用的全链路可观测性体系以及如何评估可观测性能力是否完善,业界缺乏统一且完整细致的标准。
|
人工智能 运维 监控
阿里云联合中国信通院等单位发布首个云计算智能化可观测性能力成熟度模型标准
推动行业智能化落地,阿里云联合中国信通院及国内头部云厂商、观测厂商、各行业建设方,历时近 5 个月,共同编制《云计算智能化可观测性能力成熟度模型》,以规范和指导云计算环境下的智能可观测性建设实践,为企业实施云环境下的智能化可观测能力建设提供指导。
703 91
|
5月前
|
人工智能 缓存 安全
阿里云发布《AI 原生应用架构白皮书》
阿里云联合阿里巴巴爱橙科技,共同发布《AI 原生应用架构白皮书》,围绕 AI 原生应用的 DevOps 全生命周期,从架构设计、技术选型、工程实践到运维优化,对概念和重难点进行系统的拆解,并尝试提供一些解题思路。白皮书覆盖 AI 原生应用的 11 大关键要素,获得 15 位业界专家联名推荐,来自 40 多位一线工程师实践心的,全书合计超 20w 字,分为 11 章。
3016 44
|
人工智能 运维 监控
首个云上 AI 原生全栈可观测平台来了!
9月21日,2024 云栖大会,阿里云发布全新的 AI 原生全栈可观测平台,首次实现云上 AI 大模型从训练到推理再到应用的全链路实时观测、告警与诊断。
1204 99
|
11月前
|
机器学习/深度学习 运维 自然语言处理
大模型也能当“运维警察”?——大模型技术在异常检测中的应用
大模型也能当“运维警察”?——大模型技术在异常检测中的应用
1885 13
|
人工智能 监控 数据库
LLM 应用可观测性:从 Trace 视角展开的探索与实践之旅
基于大语言模型的应用在性能、成本、效果等方面存在一系列实际痛点,本文通过分析 LLM 应用模式以及关注点差异来阐明可观测技术挑战,近期阿里云可观测推出了面向 LLM 应用的可观测解决方案以及最佳实践,一起来了解下吧。
20475 121
LLM 应用可观测性:从 Trace 视角展开的探索与实践之旅
|
存储 云安全 运维
云原生技术架构成熟度模型解读 | 学习笔记
快速学习云原生技术架构成熟度模型解读
云原生技术架构成熟度模型解读 | 学习笔记
|
Prometheus Cloud Native Java
OpenTelemetry: 经得起考验的工具
OpenTelemetry: 经得起考验的工具
2219 2

热门文章

最新文章