2022 企业应用运维管理指标体系白皮书发布:企业 IT 运维正在经历从“后台”向“中台”的转变

简介: InfoQ 获悉,近日,博睿数据联合艾瑞咨询共同发布了《2022企业应用运维管理指标体系白皮书》(以下简称《白皮书》)。 《白皮书》从企业 IT 运维的内涵以及在当前数字经济发展的大环境下企业 IT 运维工作在技术、战略、组织架构等方面面临的变化和问题做了详细说明,并展示了一种以业务和应用为着眼点的企业应用运维管理指标体系,对该体系的原理、设计和实践进行了详细说明。

InfoQ 获悉,近日,博睿数据联合艾瑞咨询共同发布了《2022企业应用运维管理指标体系白皮书》(以下简称《白皮书》)。

《白皮书》从企业 IT 运维的内涵以及在当前数字经济发展的大环境下企业 IT 运维工作在技术、战略、组织架构等方面面临的变化和问题做了详细说明,并展示了一种以业务和应用为着眼点的企业应用运维管理指标体系,对该体系的原理、设计和实践进行了详细说明。

企业 IT 运维正在发生转变

《白皮书》指出,随着互联网服务深入千行百业,数字化应用成为企业和机构为用户提供服务的重要形式,直接对用户体验环节进行监测和优化成为 IT 运维的新思路和途径,相较于传统的面向企业 IT 资源的运维,面向用户体验的 IT 运维方式更加聚焦于前端业务侧,能以更显而易见的方式提升各项服务的表现。随着互联网经济的发展,这一运维思路已在企业中得到了充分实践。

此外,数字化时代企业的运维体系需向应用端视角转变,对于企业而言则需要一套新的运维体系。就《白皮书》中提到的中国内某头部上市城商行的运维现状、问题和发展规划可见,要适应上述的基础架构和业务形式变化,企业需要系统化的方法论指导、明确的指标体系的引导。

image.png

与此同时,随着数字经济的发展及其创造的社会经济价值持续提升,我国的 IT 人才成本在市场需求的刺激下持续提升,IT 人才成本的提高,给企业带来的直接影响是增加了聘请包含运维在内的员工的成本。对于企业而言,减少对人力和经验的依赖是应对上述问题的有效方法,而为了达成这一目标,企业需要为运维工作建设系统性的指标、流程和组织协作体系。

image.png

因此,为了发挥企业运维侧的战略价值,企业需要自上而下地打通运维部门和其他部门之间的沟通渠道,形成合力,共同赋能于企业的数字化转型升级。为了更好地赋能业务创新,运维部门不仅需要运维技术的迭代,也需要通过建立更完善的、能够持续赋能和迭代的运维指标体系的方式,来疏通和业务部门、管理层沟通的渠道,使运维部门能够充分发挥技术优势和创新能力,提升运维工作给企业都带来的价值,增加运维工作的投入产出比。

image.png

综上不难看出,企业 IT 运维正在经历从“后台”向“中台”的转变,需进一步发挥其在企业中“降本增效”的效果。

为了提升运维的投入产出比并提升运维侧对业务侧的价值创造属性,企业的运维部门需要构建一套运维管理指标体系,这将帮助企业运维部门形成高效的工作流体系,提升日常运维工作的效率,减轻运维工作对人工和经验的依赖,并为基于大数据的智能运维应用的部署提供支持和引导。

7 个方面定义企业应用运维指标体系

以博睿数据的企业应用运维指标体系为例,这一体系从业务视角切入,以业务场景为主题,以业务连续性为宗旨,通过直面业务场景、正向梳理 IT 调用链、逆向接入数据源等实施步骤,最终构建起具备概览所有业务场景健康度、俯瞰多维立体化 IT 指标等能力的资源指标管理体系。

image.png

具体来看,分为以下 7 个方面:

1.业务端

业务端是企业应用运维指标体系的首要关注点。对于企业来说,业务状况是企业管理者最关心的部分,也是企业所有决策的基础,而随着大数据和人工智能技术的发展,大量企业借助信息技术实现转型升级。

业务数据指标能够为业务侧员工和管理者提供数据洞察,员工和管理者做决策时不再仅仅是按照经验“拍脑袋”,而是基于数据分析的结果进行战略调整及决策规划。

2.用户端

用户端(APP、小程序、网站等)是企业与用户的数字触点,同时也是企业获客、留客的重要途径。

在互联网/数字化服务的整个链条上,客户需首要关注的是用户端体验及表现,从而使得用户端体验成为数字化经营中企业产品力和市场竞争力的重要组成部分。以提升体验为核心的用户端运维质量会直接影响用户对企业的印象和评价,是企业开展运维工作良好的着力点。

3.应用端

用户端指标所反映的访问情况只是一个表象,用户端真正所访问到的其实是网站的后台应用,当前企业面临着日益激增的 IT 复杂性和业务需求的快速变化,IT 应用在运行过程中发生性能下降或者服务不可用等故障的可能性大大增加,从而影响业务服务的正常运行。应用监测不仅能够帮助企业快速定位问题和节约成本,协助企业持续关注应用性能状态,并获取实时反馈,并且能够助力企业应用容器化部署。

4.网络监测

各个应用之间的调用通过网络来实现,各个企业 IT 建设的规模与复杂度与日俱增,需要通过网络监测对现有运维流程进行优化,不断提升管理和运维水平。

网络设施衔接着企业的 IT 基础资源和用户端的使用体验,也能够反映企业的客户数量、业务流量和业务的时间、地域等特征,在特殊场景下更牵涉数据安全等问题,能够在很大程度上帮助提升企业数字化服务的创新力和产品力。

5.资源层监测

网站所有服务均体现在基础资源层面,因此基础资源监控是所有监控中最底层的部分,也是实现 AIOps 不可或缺的一环。

6.中间件监测

随着计算机技术的快速发展,更多的应用软件需要在多种不同的网络协议、硬件以及网络平台环境中运行。这导致了软件开发者面临数据离散、操作困难、系统匹配程度低等问题,需要开发多种应用程序来实现管理和运营,而中间件技术的发展在很大程度上减轻了开发者的负担,使得网络的运行更有效率。

7.数据库

在数据成为企业重要的经营资产的环境下,对核心数据库的高效运维能够帮助企业从数据底层维护系统的问题和信息安全,同时,在湖仓一体等新型数据库构建模式不断渗透的条件下,面向数据库的运维也将迎来挑战和创新,需要企业投入更多的关注。

构建应用运维管理指标体系的四个步骤

博睿数据表示,只有引入更全面、更高要求的指标规范,才能够指引公司产品向更稳定与更高质量方向进发,从而塑造出行业的应用标杆。

在博睿数据看来,企业应用运维管理指标体系的建设需从业务全面梳理、确定应用关键动作、预定义各关键指标、落地企业应用运维管理平台四个步骤出发。

1.业务全面梳理

在互联网经营大环境下,用户来源渠道众多,包括付费广告、搜索、内容社交、线下推广等方式,随后用户将进入 APP、公众号、小程序或网站访问企业的首页并进行注册、商品 浏览、加购、付款等行为。用户旅程多种多样,企业需要针对不同业务来进行用户旅程梳理。

2.确定应用关键动作

企业在透视业务并结合业务进行 IT 架构监测的过程中,务必要确定整个业务流程中的 关键动作,比如注册、登录、付款等用户行为及其所涉及的具体服务、接口、微服务或数据库等关联性资源。

3.预定义各关键指标

不同的业务具有不同的特性,业务流程中的关键环节各不相同,企业需要基于不同业务的关键行为动作,从业务、应用、服务、硬件层面进行指标梳理,从而规划出符合不同业务特性的应用运维管理指标体系。

4.企业应用运维管理平台

最后,在落地企业应用运维管理平台的过程中,需要企业应用运维管理平台提供强有力支持。

image.png

以博睿数据为例,该平台需要具备 APM、Log、业务、基础设备、CMDB 等数据的接入能力,并能够结合以往行业建设成功经验、行业发展等知识,形成覆盖“业务梳理-关键应用确认-核心指标梳理-指标健康度分级-指标更新”全链条的动态更新体系平台,为企业自身的资源利用、业务监控、决策支持、智能运维等场景提供全面的支持。

除此之外,企业在搭建指标体系过程中会使用多种监测类产品,这需要企业对各产品的稳定性、成熟度进行关注,博睿数据认为可关注 CMMI5 和中国信通院智能运维成熟度度评估认证两个重要指标。

博睿数据资深架构师总监张冲表示:“企业真正实现从‘O 视角(Operation)’到‘C 视角(Customer)’的转变,需要建设一套全新应用运维指标体系,该体系建设过程需要经历业务梳理、关键动作确定、关键指标定义、平台搭建几个关键过程,同时需要指出指标体系需要根据业务不断发展来进行动态调整,以保证指标体系的稳定、可观测性、可追溯”。

艾瑞咨询认为,构建应用运维管理指标体系将帮助企业运维部门形成高效的工作流体系,提升日常运维工作的效率,减轻运维工作对人工和经验的依赖,并为基于大数据的智能运维应用的部署提供支持和引导。

白皮书完整下载链接:https://www.bonree.com/bonree/pdf/WhitePaper.pdf

目录
相关文章
|
12天前
|
人工智能 运维 自然语言处理
智能化运维:AI在IT运维领域的深度应用与实践####
本文探讨了人工智能(AI)技术在IT运维领域的深度融合与实践应用,通过分析AI驱动的自动化监控、故障预测与诊断、容量规划及智能决策支持等关键方面,揭示了AI如何赋能IT运维,提升效率、降低成本并增强系统稳定性。文章旨在为读者提供一个关于AI在现代IT运维中应用的全面视角,展示其实际价值与未来发展趋势。 ####
76 4
|
13天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与大数据在IT运维中的应用探索####
本文旨在探讨人工智能(AI)与大数据分析技术如何革新传统IT运维模式,提升运维效率与服务质量。通过具体案例分析,揭示AI算法在故障预测、异常检测及自动化修复等方面的实际应用成效,同时阐述大数据如何助力实现精准运维管理,降低运营成本,提升用户体验。文章还将简要讨论实施智能化运维面临的挑战与未来发展趋势,为IT管理者提供决策参考。 ####
|
14天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维在企业IT管理中的应用与实践####
本文深入探讨了智能化运维(AIOps)的核心技术原理,通过对比传统运维模式,揭示了AIOps如何利用大数据、机器学习等先进技术提升故障预测准确性、优化资源分配及自动化处理流程。同时,文章详细阐述了智能化运维平台的实施步骤,包括数据收集与分析、模型训练与部署、以及持续监控与优化,旨在为企业IT部门提供一套切实可行的智能化转型路径。最后,通过几个典型应用案例,如某大型电商平台的智能告警系统和金融企业的自动化故障排查流程,直观展示了智能化运维在实际业务场景中的显著成效,强调了其在提升运维效率、降低运营成本方面的关键作用。 ####
41 4
|
16天前
|
数据采集 机器学习/深度学习 人工智能
智能运维在IT管理中的实践与探索
【10月更文挑战第21天】 本文深入探讨了智能运维(AIOps)技术在现代IT管理中的应用,通过分析其核心组件、实施策略及面临的挑战,揭示了智能运维如何助力企业实现自动化监控、故障预测与快速响应,从而提升整体运维效率与系统稳定性。文章还结合具体案例,展示了智能运维在实际环境中的显著成效。
39 4
|
21天前
|
数据采集 机器学习/深度学习 人工智能
智能运维在IT管理中的实践与探索####
【10月更文挑战第21天】 本文深入探讨了智能运维(AIOps)技术在现代IT管理中的应用,通过分析其核心组件、实施策略及面临的挑战,揭示了智能运维如何助力企业实现自动化监控、故障预测与快速响应,从而提升整体运维效率与系统稳定性。文章还结合具体案例,展示了智能运维在实际环境中的显著成效。 ####
|
11天前
|
人工智能 运维 监控
自动化运维:提升IT效率的关键策略
在当今快速发展的信息技术时代,企业面临着不断增长的数据量和复杂的系统架构。为了保持竞争力,自动化运维成为提高IT部门效率和响应速度的关键策略。本文将探讨自动化运维的核心概念、实施步骤以及面临的挑战,旨在为IT专业人员提供实现高效运维管理的实用指南。
25 0
|
2月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
63 4
|
18天前
|
机器学习/深度学习 运维 监控
智能化运维:从自动化到AIOps的演进之路####
本文深入探讨了IT运维领域如何由传统手工操作逐步迈向高度自动化,并进一步向智能化运维(AIOps)转型的过程。不同于常规摘要仅概述内容要点,本摘要将直接引入一个核心观点:随着云计算、大数据及人工智能技术的飞速发展,智能化运维已成为提升企业IT系统稳定性与效率的关键驱动力。文章详细阐述了自动化工具的应用现状、面临的挑战以及AIOps如何通过预测性分析和智能决策支持,实现运维工作的质变,引领读者思考未来运维模式的发展趋势。 ####
|
18天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的崛起背景,深入分析了其核心概念、关键技术、应用场景及面临的挑战,并对比了传统IT运维模式,揭示了AIOps如何引领运维管理向更高效、智能的方向迈进。通过实际案例分析,展示了AIOps在不同行业中的应用成效,为读者提供了对未来智能运维趋势的洞察与思考。 ####
40 1
|
1月前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####