2022 企业应用运维管理指标体系白皮书发布:企业 IT 运维正在经历从“后台”向“中台”的转变

简介: InfoQ 获悉,近日,博睿数据联合艾瑞咨询共同发布了《2022企业应用运维管理指标体系白皮书》(以下简称《白皮书》)。 《白皮书》从企业 IT 运维的内涵以及在当前数字经济发展的大环境下企业 IT 运维工作在技术、战略、组织架构等方面面临的变化和问题做了详细说明,并展示了一种以业务和应用为着眼点的企业应用运维管理指标体系,对该体系的原理、设计和实践进行了详细说明。

InfoQ 获悉,近日,博睿数据联合艾瑞咨询共同发布了《2022企业应用运维管理指标体系白皮书》(以下简称《白皮书》)。

《白皮书》从企业 IT 运维的内涵以及在当前数字经济发展的大环境下企业 IT 运维工作在技术、战略、组织架构等方面面临的变化和问题做了详细说明,并展示了一种以业务和应用为着眼点的企业应用运维管理指标体系,对该体系的原理、设计和实践进行了详细说明。

企业 IT 运维正在发生转变

《白皮书》指出,随着互联网服务深入千行百业,数字化应用成为企业和机构为用户提供服务的重要形式,直接对用户体验环节进行监测和优化成为 IT 运维的新思路和途径,相较于传统的面向企业 IT 资源的运维,面向用户体验的 IT 运维方式更加聚焦于前端业务侧,能以更显而易见的方式提升各项服务的表现。随着互联网经济的发展,这一运维思路已在企业中得到了充分实践。

此外,数字化时代企业的运维体系需向应用端视角转变,对于企业而言则需要一套新的运维体系。就《白皮书》中提到的中国内某头部上市城商行的运维现状、问题和发展规划可见,要适应上述的基础架构和业务形式变化,企业需要系统化的方法论指导、明确的指标体系的引导。

image.png

与此同时,随着数字经济的发展及其创造的社会经济价值持续提升,我国的 IT 人才成本在市场需求的刺激下持续提升,IT 人才成本的提高,给企业带来的直接影响是增加了聘请包含运维在内的员工的成本。对于企业而言,减少对人力和经验的依赖是应对上述问题的有效方法,而为了达成这一目标,企业需要为运维工作建设系统性的指标、流程和组织协作体系。

image.png

因此,为了发挥企业运维侧的战略价值,企业需要自上而下地打通运维部门和其他部门之间的沟通渠道,形成合力,共同赋能于企业的数字化转型升级。为了更好地赋能业务创新,运维部门不仅需要运维技术的迭代,也需要通过建立更完善的、能够持续赋能和迭代的运维指标体系的方式,来疏通和业务部门、管理层沟通的渠道,使运维部门能够充分发挥技术优势和创新能力,提升运维工作给企业都带来的价值,增加运维工作的投入产出比。

image.png

综上不难看出,企业 IT 运维正在经历从“后台”向“中台”的转变,需进一步发挥其在企业中“降本增效”的效果。

为了提升运维的投入产出比并提升运维侧对业务侧的价值创造属性,企业的运维部门需要构建一套运维管理指标体系,这将帮助企业运维部门形成高效的工作流体系,提升日常运维工作的效率,减轻运维工作对人工和经验的依赖,并为基于大数据的智能运维应用的部署提供支持和引导。

7 个方面定义企业应用运维指标体系

以博睿数据的企业应用运维指标体系为例,这一体系从业务视角切入,以业务场景为主题,以业务连续性为宗旨,通过直面业务场景、正向梳理 IT 调用链、逆向接入数据源等实施步骤,最终构建起具备概览所有业务场景健康度、俯瞰多维立体化 IT 指标等能力的资源指标管理体系。

image.png

具体来看,分为以下 7 个方面:

1.业务端

业务端是企业应用运维指标体系的首要关注点。对于企业来说,业务状况是企业管理者最关心的部分,也是企业所有决策的基础,而随着大数据和人工智能技术的发展,大量企业借助信息技术实现转型升级。

业务数据指标能够为业务侧员工和管理者提供数据洞察,员工和管理者做决策时不再仅仅是按照经验“拍脑袋”,而是基于数据分析的结果进行战略调整及决策规划。

2.用户端

用户端(APP、小程序、网站等)是企业与用户的数字触点,同时也是企业获客、留客的重要途径。

在互联网/数字化服务的整个链条上,客户需首要关注的是用户端体验及表现,从而使得用户端体验成为数字化经营中企业产品力和市场竞争力的重要组成部分。以提升体验为核心的用户端运维质量会直接影响用户对企业的印象和评价,是企业开展运维工作良好的着力点。

3.应用端

用户端指标所反映的访问情况只是一个表象,用户端真正所访问到的其实是网站的后台应用,当前企业面临着日益激增的 IT 复杂性和业务需求的快速变化,IT 应用在运行过程中发生性能下降或者服务不可用等故障的可能性大大增加,从而影响业务服务的正常运行。应用监测不仅能够帮助企业快速定位问题和节约成本,协助企业持续关注应用性能状态,并获取实时反馈,并且能够助力企业应用容器化部署。

4.网络监测

各个应用之间的调用通过网络来实现,各个企业 IT 建设的规模与复杂度与日俱增,需要通过网络监测对现有运维流程进行优化,不断提升管理和运维水平。

网络设施衔接着企业的 IT 基础资源和用户端的使用体验,也能够反映企业的客户数量、业务流量和业务的时间、地域等特征,在特殊场景下更牵涉数据安全等问题,能够在很大程度上帮助提升企业数字化服务的创新力和产品力。

5.资源层监测

网站所有服务均体现在基础资源层面,因此基础资源监控是所有监控中最底层的部分,也是实现 AIOps 不可或缺的一环。

6.中间件监测

随着计算机技术的快速发展,更多的应用软件需要在多种不同的网络协议、硬件以及网络平台环境中运行。这导致了软件开发者面临数据离散、操作困难、系统匹配程度低等问题,需要开发多种应用程序来实现管理和运营,而中间件技术的发展在很大程度上减轻了开发者的负担,使得网络的运行更有效率。

7.数据库

在数据成为企业重要的经营资产的环境下,对核心数据库的高效运维能够帮助企业从数据底层维护系统的问题和信息安全,同时,在湖仓一体等新型数据库构建模式不断渗透的条件下,面向数据库的运维也将迎来挑战和创新,需要企业投入更多的关注。

构建应用运维管理指标体系的四个步骤

博睿数据表示,只有引入更全面、更高要求的指标规范,才能够指引公司产品向更稳定与更高质量方向进发,从而塑造出行业的应用标杆。

在博睿数据看来,企业应用运维管理指标体系的建设需从业务全面梳理、确定应用关键动作、预定义各关键指标、落地企业应用运维管理平台四个步骤出发。

1.业务全面梳理

在互联网经营大环境下,用户来源渠道众多,包括付费广告、搜索、内容社交、线下推广等方式,随后用户将进入 APP、公众号、小程序或网站访问企业的首页并进行注册、商品 浏览、加购、付款等行为。用户旅程多种多样,企业需要针对不同业务来进行用户旅程梳理。

2.确定应用关键动作

企业在透视业务并结合业务进行 IT 架构监测的过程中,务必要确定整个业务流程中的 关键动作,比如注册、登录、付款等用户行为及其所涉及的具体服务、接口、微服务或数据库等关联性资源。

3.预定义各关键指标

不同的业务具有不同的特性,业务流程中的关键环节各不相同,企业需要基于不同业务的关键行为动作,从业务、应用、服务、硬件层面进行指标梳理,从而规划出符合不同业务特性的应用运维管理指标体系。

4.企业应用运维管理平台

最后,在落地企业应用运维管理平台的过程中,需要企业应用运维管理平台提供强有力支持。

image.png

以博睿数据为例,该平台需要具备 APM、Log、业务、基础设备、CMDB 等数据的接入能力,并能够结合以往行业建设成功经验、行业发展等知识,形成覆盖“业务梳理-关键应用确认-核心指标梳理-指标健康度分级-指标更新”全链条的动态更新体系平台,为企业自身的资源利用、业务监控、决策支持、智能运维等场景提供全面的支持。

除此之外,企业在搭建指标体系过程中会使用多种监测类产品,这需要企业对各产品的稳定性、成熟度进行关注,博睿数据认为可关注 CMMI5 和中国信通院智能运维成熟度度评估认证两个重要指标。

博睿数据资深架构师总监张冲表示:“企业真正实现从‘O 视角(Operation)’到‘C 视角(Customer)’的转变,需要建设一套全新应用运维指标体系,该体系建设过程需要经历业务梳理、关键动作确定、关键指标定义、平台搭建几个关键过程,同时需要指出指标体系需要根据业务不断发展来进行动态调整,以保证指标体系的稳定、可观测性、可追溯”。

艾瑞咨询认为,构建应用运维管理指标体系将帮助企业运维部门形成高效的工作流体系,提升日常运维工作的效率,减轻运维工作对人工和经验的依赖,并为基于大数据的智能运维应用的部署提供支持和引导。

白皮书完整下载链接:https://www.bonree.com/bonree/pdf/WhitePaper.pdf

目录
相关文章
|
11天前
|
机器学习/深度学习 人工智能 运维
企业内训|LLM大模型在服务器和IT网络运维中的应用-某日企IT运维部门
本课程是为某在华日资企业集团的IT运维部门专门定制开发的企业培训课程,本课程旨在深入探讨大型语言模型(LLM)在服务器及IT网络运维中的应用,结合当前技术趋势与行业需求,帮助学员掌握LLM如何为运维工作赋能。通过系统的理论讲解与实践操作,学员将了解LLM的基本知识、模型架构及其在实际运维场景中的应用,如日志分析、故障诊断、网络安全与性能优化等。
35 2
|
5天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI驱动下的IT运维革命###
本文探讨了人工智能(AI)技术在IT运维领域的创新应用,强调其在提升效率、预防故障及优化资源配置中的关键作用,揭示了智能运维的新趋势。 ###
|
1天前
|
机器学习/深度学习 人工智能 运维
智能化运维:提升IT服务效率的新引擎###
本文深入浅出地探讨了智能化运维(AIOps)如何革新传统IT运维模式,通过大数据、机器学习与自动化技术,实现故障预警、快速定位与处理,从而显著提升IT服务的稳定性和效率。不同于传统运维依赖人工响应,AIOps强调预测性维护与自动化流程,为企业数字化转型提供强有力的支撑。 ###
|
7天前
|
人工智能 运维 监控
运维技术深度解析:构建高效、稳定的IT基础设施
【10月更文挑战第22天】运维技术深度解析:构建高效、稳定的IT基础设施
23 0
|
7天前
|
机器学习/深度学习 边缘计算 运维
运维技术深度解析:构建高效、稳定的IT基础设施
【10月更文挑战第22天】运维技术深度解析:构建高效、稳定的IT基础设施
16 0
|
1月前
|
机器学习/深度学习 人工智能 运维
构建高效运维体系:从自动化到智能化的演进
本文探讨了如何通过自动化和智能化手段,提升IT运维效率与质量。首先介绍了自动化在简化操作、减少错误中的作用;然后阐述了智能化技术如AI在预测故障、优化资源中的应用;最后讨论了如何构建一个既自动化又智能的运维体系,以实现高效、稳定和安全的IT环境。
54 4
|
22天前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
45 4
|
18天前
|
存储 运维 监控
高效运维:从基础架构到自动化管理的全面指南
【10月更文挑战第11天】 本文将深入探讨如何通过优化基础架构和引入自动化管理来提升企业IT运维效率。我们将从服务器的选择与配置、存储解决方案的评估,到网络的设计与监控,逐一解析每个环节的关键技术点。同时,重点讨论自动化工具在现代运维中的应用,包括配置管理、持续集成与部署(CI/CD)、自动化测试及故障排除等方面。通过实际案例分析,展示这些技术如何协同工作,实现高效的运维管理。无论是IT初学者还是经验丰富的专业人员,都能从中获得有价值的见解和实操经验。
42 1
|
20天前
|
运维 监控 测试技术
构建高效运维体系:从监控到自动化的实践之路
【10月更文挑战第9天】 在当今信息技术飞速发展的时代,运维作为保障系统稳定性与效率的关键角色,正面临前所未有的挑战。本文将探讨如何通过构建一个高效的运维体系来应对这些挑战,包括监控系统的搭建、自动化工具的应用以及故障应急处理机制的制定。我们将结合具体案例,分析这些措施如何帮助提升系统的可靠性和运维团队的工作效率。
36 1
|
22天前
|
存储 运维 监控
高效运维管理:从基础架构优化到自动化实践
在当今数字化时代,高效运维管理已成为企业IT部门的重要任务。本文将探讨如何通过基础架构优化和自动化实践来提升运维效率,确保系统的稳定性和可靠性。我们将从服务器选型、存储优化、网络配置等方面入手,逐步引导读者了解运维管理的核心内容。同时,我们还将介绍自动化工具的使用,帮助运维人员提高工作效率,降低人为错误的发生。通过本文的学习,您将掌握高效运维管理的关键技巧,为企业的发展提供有力支持。