InfoQ 获悉,近日,博睿数据联合艾瑞咨询共同发布了《2022企业应用运维管理指标体系白皮书》(以下简称《白皮书》)。
《白皮书》从企业 IT 运维的内涵以及在当前数字经济发展的大环境下企业 IT 运维工作在技术、战略、组织架构等方面面临的变化和问题做了详细说明,并展示了一种以业务和应用为着眼点的企业应用运维管理指标体系,对该体系的原理、设计和实践进行了详细说明。
企业 IT 运维正在发生转变
《白皮书》指出,随着互联网服务深入千行百业,数字化应用成为企业和机构为用户提供服务的重要形式,直接对用户体验环节进行监测和优化成为 IT 运维的新思路和途径,相较于传统的面向企业 IT 资源的运维,面向用户体验的 IT 运维方式更加聚焦于前端业务侧,能以更显而易见的方式提升各项服务的表现。随着互联网经济的发展,这一运维思路已在企业中得到了充分实践。
此外,数字化时代企业的运维体系需向应用端视角转变,对于企业而言则需要一套新的运维体系。就《白皮书》中提到的中国内某头部上市城商行的运维现状、问题和发展规划可见,要适应上述的基础架构和业务形式变化,企业需要系统化的方法论指导、明确的指标体系的引导。
与此同时,随着数字经济的发展及其创造的社会经济价值持续提升,我国的 IT 人才成本在市场需求的刺激下持续提升,IT 人才成本的提高,给企业带来的直接影响是增加了聘请包含运维在内的员工的成本。对于企业而言,减少对人力和经验的依赖是应对上述问题的有效方法,而为了达成这一目标,企业需要为运维工作建设系统性的指标、流程和组织协作体系。
因此,为了发挥企业运维侧的战略价值,企业需要自上而下地打通运维部门和其他部门之间的沟通渠道,形成合力,共同赋能于企业的数字化转型升级。为了更好地赋能业务创新,运维部门不仅需要运维技术的迭代,也需要通过建立更完善的、能够持续赋能和迭代的运维指标体系的方式,来疏通和业务部门、管理层沟通的渠道,使运维部门能够充分发挥技术优势和创新能力,提升运维工作给企业都带来的价值,增加运维工作的投入产出比。
综上不难看出,企业 IT 运维正在经历从“后台”向“中台”的转变,需进一步发挥其在企业中“降本增效”的效果。
为了提升运维的投入产出比并提升运维侧对业务侧的价值创造属性,企业的运维部门需要构建一套运维管理指标体系,这将帮助企业运维部门形成高效的工作流体系,提升日常运维工作的效率,减轻运维工作对人工和经验的依赖,并为基于大数据的智能运维应用的部署提供支持和引导。
7 个方面定义企业应用运维指标体系
以博睿数据的企业应用运维指标体系为例,这一体系从业务视角切入,以业务场景为主题,以业务连续性为宗旨,通过直面业务场景、正向梳理 IT 调用链、逆向接入数据源等实施步骤,最终构建起具备概览所有业务场景健康度、俯瞰多维立体化 IT 指标等能力的资源指标管理体系。
具体来看,分为以下 7 个方面:
1.业务端
业务端是企业应用运维指标体系的首要关注点。对于企业来说,业务状况是企业管理者最关心的部分,也是企业所有决策的基础,而随着大数据和人工智能技术的发展,大量企业借助信息技术实现转型升级。
业务数据指标能够为业务侧员工和管理者提供数据洞察,员工和管理者做决策时不再仅仅是按照经验“拍脑袋”,而是基于数据分析的结果进行战略调整及决策规划。
2.用户端
用户端(APP、小程序、网站等)是企业与用户的数字触点,同时也是企业获客、留客的重要途径。
在互联网/数字化服务的整个链条上,客户需首要关注的是用户端体验及表现,从而使得用户端体验成为数字化经营中企业产品力和市场竞争力的重要组成部分。以提升体验为核心的用户端运维质量会直接影响用户对企业的印象和评价,是企业开展运维工作良好的着力点。
3.应用端
用户端指标所反映的访问情况只是一个表象,用户端真正所访问到的其实是网站的后台应用,当前企业面临着日益激增的 IT 复杂性和业务需求的快速变化,IT 应用在运行过程中发生性能下降或者服务不可用等故障的可能性大大增加,从而影响业务服务的正常运行。应用监测不仅能够帮助企业快速定位问题和节约成本,协助企业持续关注应用性能状态,并获取实时反馈,并且能够助力企业应用容器化部署。
4.网络监测
各个应用之间的调用通过网络来实现,各个企业 IT 建设的规模与复杂度与日俱增,需要通过网络监测对现有运维流程进行优化,不断提升管理和运维水平。
网络设施衔接着企业的 IT 基础资源和用户端的使用体验,也能够反映企业的客户数量、业务流量和业务的时间、地域等特征,在特殊场景下更牵涉数据安全等问题,能够在很大程度上帮助提升企业数字化服务的创新力和产品力。
5.资源层监测
网站所有服务均体现在基础资源层面,因此基础资源监控是所有监控中最底层的部分,也是实现 AIOps 不可或缺的一环。
6.中间件监测
随着计算机技术的快速发展,更多的应用软件需要在多种不同的网络协议、硬件以及网络平台环境中运行。这导致了软件开发者面临数据离散、操作困难、系统匹配程度低等问题,需要开发多种应用程序来实现管理和运营,而中间件技术的发展在很大程度上减轻了开发者的负担,使得网络的运行更有效率。
7.数据库
在数据成为企业重要的经营资产的环境下,对核心数据库的高效运维能够帮助企业从数据底层维护系统的问题和信息安全,同时,在湖仓一体等新型数据库构建模式不断渗透的条件下,面向数据库的运维也将迎来挑战和创新,需要企业投入更多的关注。
构建应用运维管理指标体系的四个步骤
博睿数据表示,只有引入更全面、更高要求的指标规范,才能够指引公司产品向更稳定与更高质量方向进发,从而塑造出行业的应用标杆。
在博睿数据看来,企业应用运维管理指标体系的建设需从业务全面梳理、确定应用关键动作、预定义各关键指标、落地企业应用运维管理平台四个步骤出发。
1.业务全面梳理
在互联网经营大环境下,用户来源渠道众多,包括付费广告、搜索、内容社交、线下推广等方式,随后用户将进入 APP、公众号、小程序或网站访问企业的首页并进行注册、商品 浏览、加购、付款等行为。用户旅程多种多样,企业需要针对不同业务来进行用户旅程梳理。
2.确定应用关键动作
企业在透视业务并结合业务进行 IT 架构监测的过程中,务必要确定整个业务流程中的 关键动作,比如注册、登录、付款等用户行为及其所涉及的具体服务、接口、微服务或数据库等关联性资源。
3.预定义各关键指标
不同的业务具有不同的特性,业务流程中的关键环节各不相同,企业需要基于不同业务的关键行为动作,从业务、应用、服务、硬件层面进行指标梳理,从而规划出符合不同业务特性的应用运维管理指标体系。
4.企业应用运维管理平台
最后,在落地企业应用运维管理平台的过程中,需要企业应用运维管理平台提供强有力支持。
以博睿数据为例,该平台需要具备 APM、Log、业务、基础设备、CMDB 等数据的接入能力,并能够结合以往行业建设成功经验、行业发展等知识,形成覆盖“业务梳理-关键应用确认-核心指标梳理-指标健康度分级-指标更新”全链条的动态更新体系平台,为企业自身的资源利用、业务监控、决策支持、智能运维等场景提供全面的支持。
除此之外,企业在搭建指标体系过程中会使用多种监测类产品,这需要企业对各产品的稳定性、成熟度进行关注,博睿数据认为可关注 CMMI5 和中国信通院智能运维成熟度度评估认证两个重要指标。
博睿数据资深架构师总监张冲表示:“企业真正实现从‘O 视角(Operation)’到‘C 视角(Customer)’的转变,需要建设一套全新应用运维指标体系,该体系建设过程需要经历业务梳理、关键动作确定、关键指标定义、平台搭建几个关键过程,同时需要指出指标体系需要根据业务不断发展来进行动态调整,以保证指标体系的稳定、可观测性、可追溯”。
艾瑞咨询认为,构建应用运维管理指标体系将帮助企业运维部门形成高效的工作流体系,提升日常运维工作的效率,减轻运维工作对人工和经验的依赖,并为基于大数据的智能运维应用的部署提供支持和引导。