科技云报道:云原生时代,IT运维视角为何要转向可观测性?

简介: 监控技术和工具革新迫在眉睫

科技云报道原创。

云原生时代,可观测性变成了基础设施级的诉求。

 

 

随着微服务、容器化的兴起,云原生带来的应用复杂度呈指数级上升,这种复杂度增加了系统状态可视化的难度,企业对于系统可观测能力提出了更高的要求。

2018年,“可观测性”正式走向前台,用于描述云原生环境下服务的状态变量,加之包括谷歌在内的众多大厂一拥而上,很快成为云原生技术领域最热门话题之一。

 

监控技术和工具革新迫在眉睫

“可观测性”一词诞生于几十年前的控制理论。在许多实际问题中,控制系统的状态变量不是由直接测量得到的,而是通过某种观测方法得到的,由某种观测系统所得到的结果能否真实反映系统的状态就是控制系统的可观测性。

可观测性可以完全反映系统状态的特性,就像汽车方向盘下的各项仪表盘一样,实时动态告诉我们车辆的时速、耗油、灯光、暖风等状态特征。

进入云原生时代,应用的构建部署与运行时基础设施都发生翻天覆地的变化,比如技术架构微服务化、运行时环境容器化、业务系统依赖关系复杂化,运行实例生命周期短等等,监控也随着进行实时动态调整,传统预先配置再监控的方式已经无法满足云原生的场景。

因此,云原生可观测性是指,从传统软件监控及数据分析可视化工具中,总结出在云原生领域中,从底层容器基础设施、通用技术组件到业务应用系统全链路监控运维、运营治理等产品化体系化的能力诉求,确切的体现了云原生的核心理念。相比监控更多偏向自动化工具,可以替代人自动监控系统异常,云原生可观测性不仅包含传统监控的能力,更多的是面向业务,强调将业务全过程透明化的理念。

 

 

为可观测注入All in ONE思想

在云原生时代,可观测领域是一个大有可为的市场。Gartner预测,到2024年,将有30%的企业会通过可观测技术来提升数字化业务的运行性能,相比2020年的10%提升了3倍。

2023年,全球可观测市场规模预计将达到164.94亿美元。“可观测市场不断增长,带来的不仅是机遇,同样也带来了更多挑战。企业对于可观测的视野不再局限于应用程序,而是需要从全局的角度洞察云、网、边、端的应用状况,更加主动化、自动化和智能化地提升企业运维的效率。这不只是工具或技术的选型,更是一种理念。”博睿数据CTO孟曦东指出。

随着云原生架构的演进,可观测的边界与分工被重新定义,传统的容器、应用、业务分层监控边界被打破,Dev、Ops、Sec的分工逐渐模糊。业界开始意识到,IT系统作为一个有机的整体,对IT系统状态的监测与诊断也需要一体化的方案。因此,All in ONE思想逐渐成为主流,运维行业也随之发生了三个变化:

一是企业视角发生变化。以前企业更多关注系统运维层面机房建设、底层服务器的搭建、购买,现在基于云化基础设施,企业更注重业务搭建、业务体验优化以及业务运营。

二是运维职责发生变化。云化基础设施对企业而言是不可见、不可控的,因此需要往平台型、业务的方向转型,转向DevOps和SRE方向。

三是监控技术发生变化。云原生导致微服务和分布式趋势增强,使得现在系统很难运维,需要监控技术从“监控”走向“可观测”,构建起一套高效的排障体系。

对于运维行业的变化,博睿数据产品高级总监孙丽表示,云原生使企业从对底层系统资源的投入当中抽离出来,去更多关注上层应用、业务和用户。在这种情况下,业务发展就变成了企业最重要的问题。

 

 

正是基于这样的趋势,博睿数据在经过几年的摸索与实践后,正式推出了一体化智能可观测平台ONE,该平台旨在建立一体化、智能化、面向业务与用户体验的统一运维平台,助力企业提高数字化体验,为数字化转型赋能升级。此次博睿数据发布的ONE平台,可以说是国内第一个将所有运维监控需求“All in ONE”的统一平台。

ONE平台从ITOM统一监控、AIOps智能运维、BizOps业务运营、DevOps效能提升四个应用场景出发,帮助客户走出数据中心,打通云、管、边、端, 通过代码到客户的全数据链DNA采集能力,结合ONE平台的大数据及AI能力,实现传统的产品工具到平台+架构的转型,构建以用户为中心的新运维体系。

 

 

从产品定义看,“ONE”包含两个统一:统一运维监控技术栈、统一运维数据治理体系。ONE不仅满足了所有监控需求,即开即用、随时扩展的方式,也进一步降低运维管理门槛,提升了系统可观测性广度与深度。同时,面向业务与用户体验运维,囊括了系统的所有观测数据,进行统一管理,并提供丰富的集成扩展,解决因竖井式的监控带来的数据割裂、重复建设、可观测性差的问题。

为互联互通的统一运维平台,ONE全面打通业务和运维,并明确业务指标、转化率、客户留存率、客户流失率等,为运维人员提供指标丰富,降低运维管理门槛。相比很多独立的运维平台,ONE可以给运维管理带来怎样的新体验?

孙丽表示:“ONE平台集告警收敛、异常检测、根因定位、智能见解于一体,聚焦业务与用户体验的运维体系,帮助用户实现从孤立的工具到统一运维平台的建设要求,降低获客成本及协同难度,打造极致的平台体验。”

ONE的优势之一在于展现出较强的关联性,完整复刻出数字化系统的数字孪生,在保证全面可观测的同时,也能掌握监控实体间的关系及其属性信息,实现关联追踪,解决排障难、检索追查难等痛点,大大提升了排障效率,实现了系统之间的真正融合。

同时,ONE将AI能力与运维相结合,形成集信息、经验、智能决策融合的智能见解能力,能够基于AI和规则自动发现问题并给出根因,解决虚假问题扰乱运维、告警风暴、根因定位效率低的问题,助力运维人员快速排除故障,进而提高运维效率。

从应用角度来看,ONE更好地兼顾了行业性与通用性,对于企业更加友好。据孟曦东介绍,ONE将二次建设能力开放给行业客户,让客户自己去调用,也可以开放给生态合作伙伴进行调用,以此来满足不同场景、不同行业客户的需求。

通过做一些“样板间”,实现“开箱即用”通用能力,个性化需求则可以在ONE平台的产品能力进行二次设计,帮助行业客户实现逻辑分析以及不同场景的应用。

 

结语

随着ONE这样的一体化运维平台的出现,我们看到了可观测平台的一条发展路径:基于系统和服务观测的角度把不同数据在后端融合分析,而不是刻意强调系统支持可观测性数据的分别查询,在产品功能和交互逻辑上尽可能消除指标、跟踪、日志的割裂。通过一体化平台,企业能够建立完整可观测闭环,从事故前异常发现、事故中故障排查到事故后的主动预警监控,为业务提供持续监控、优化服务性能。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

相关文章
|
8月前
|
运维 Dubbo Cloud Native
Dubbo 云原生重构出击:更快部署、更强控制台、更智能运维
Apache Dubbo 最新升级支持云原生,提供一键部署微服务集群与全新可视化控制台,提升全生命周期管理体验,助力企业高效构建云原生应用。
821 25
|
8月前
|
运维 Kubernetes Cloud Native
云原生运维也能很稳:Kubernetes 运维避坑指南
云原生运维也能很稳:Kubernetes 运维避坑指南
265 1
|
运维 监控 安全
ARMS 助力假面科技研发运维提效,保障极致游戏体验
阿里云 ARMS 团队助力假面科技游戏业务实现全业务、全场景的监控和告警,全面提升监控覆盖率和告警有效率,其中告警平均恢复耗时(MTTR)缩短 50% 以上。
529 108
|
9月前
|
运维 监控 Cloud Native
从“守机器”到“写策略”——云原生架构把运维逼成了架构师
从“守机器”到“写策略”——云原生架构把运维逼成了架构师
217 1
|
12月前
|
人工智能 运维 监控
阿里云携手神州灵云打造云内网络性能监测标杆 斩获中国信通院高质量数字化转型十大案例——金保信“云内网络可观测”方案树立云原生运维新范式
2025年,金保信社保卡有限公司联合阿里云与神州灵云申报的《云内网络性能可观测解决方案》入选高质量数字化转型典型案例。该方案基于阿里云飞天企业版,融合云原生引流技术和流量“染色”专利,解决云内运维难题,实现主动预警和精准观测,将故障排查时间从数小时缩短至15分钟,助力企业降本增效,形成可跨行业复制的数字化转型方法论。
597 6
|
运维 监控 安全
ARMS 助力假面科技研发运维提效,保障极致游戏体验
ARMS 助力假面科技研发运维提效,保障极致游戏体验
242 4
|
运维 Cloud Native 开发工具
智能运维:云原生大规模集群GitOps实践
智能运维:云原生大规模集群GitOps实践,由阿里云运维专家钟炯恩分享。内容涵盖云原生运维挑战、管理实践、GitOps实践及智能运维体系。通过OAM模型和GitOps优化方案,解决大规模集群的发布效率与稳定性问题,推动智能运维工程演进。适用于云原生环境下的高效运维管理。
546 8
|
运维 监控 安全
ARMS 助力假面科技研发运维提效,保障极致游戏体验
ARMS 助力假面科技研发运维提效,保障极致游戏体验
|
边缘计算 运维 Cloud Native
云原生技术的崛起:重新定义软件开发与运维
云原生技术的崛起:重新定义软件开发与运维