带你读《CloudOps云上自动化运维 白皮书2.0》之11:3 如何衡量企业运维体系的自动化成熟度

简介: 带你读《CloudOps云上自动化运维 白皮书2.0》之11:3 如何衡量企业运维体系的自动化成熟度

3 .如何衡量企业运维体系的自动化成熟度

 

任何事物的成功都离不开客观的数字化,以及相关的衡量指标。依据指标可以清晰地看到自己所处的自动化阶段,自动化的应用程度,以及未来继续发展的方式和目标。

 

1) 自动化率

 

统计出日常工作中所需要的所有和开发及运维相关的操作,然后看看其中多少的操作已经是自动化完成的,多少操作是半自动化所完成的,多少操作是手工所需要完成的,分别占比多少,最终可以形成一个全局的饼图。

 

image.png

运维操作自动化占比示例

 

2) 操作时长和频次

 

毋庸置疑,自动化的操作速度远大于手工操作。如能记录完成操作所需要的时间,再进行自动化前和自动化后的对比,便可轻易地看出自动化的价值所在。尤其是频繁,复杂的操作,业务价值的体现则会更加明显。现代IT中最为频繁的操作为:

 

环境部署(Infrastructure)

环境配置(Configuration Management)

应用部署和配置(Application Deployment)

日志、报警或故障处理

 

3) 平均修复时间MTTR

 

从报警发生到故障被解决,系统被恢复的时间,称之为平均修复时间(Mean Time To Repair),它的公式如下:

 

平均修复时间=总故障时间÷总故障次数

 

举例来说,假设一年的总共故障时间是100小时,总的故障次数是12次,则平均修复时间为8.3小时。进一步,则可以根据故障的分类,模块,根因等进行分类,分别进行统计。

 

特别说明:在严格的情况下,请注意平均修复时间和平均恢复时间的稍许区别,前者不包括从故障实际发生到报警的时间,只是包括故障已经被发现,并且开始进行故障修复的时间,而平均恢复时间包括两者:从故障实际发生到故障报警,和故障报警到故障修复的时间。通常来说,故障报警所需要的时间相当于修复所需的时间而言较短,且占比较少,因此在宽松的语境下,两者会被混用。

 

4) 高质量的自动化所应具备的特性

 

自动化能力的构建应该按照正式的产品和项目进行,同样需要需求管理,调研,设计,研发,测试和部署等必要的环节,并保持持续迭代。而部署后的环境同样需要具备健康管理,从而进行监控,报警,故障和修复等。必要时,进行整体性的优化,改造和升级。

 

除此之外,现代化的自动化还应该考虑以下需求:

 

完备的角色管理和授权体系:毋庸置疑的是,自动化能力将会涉及到所有系统的所有环节,包括核心业务系统,机密数据等操作。越是重要的系统应该越依赖自动化能力而非手工方式,因为人工的处理存在种种的弊病,如因为粗心导致的失误操作等。因此,完备的角色管理和授权体系可以保证重要业务持续运行,以及保证机密数据的安全性。

 

具备审计能力:所有的自动化都应该具备可以被审计的能力,尤其是当所操作的对象是核心业务或机密数据时,更依赖审计能力去保证其安全。其次审计能力也有利于自动化系统本身故障的排查。Cloud上的云产品大多已经接入了Cloud上的审计服务,应该开启这类服务,并时常检查数据的完整性,保证关键的操作都被记录了下来。

 

标准化和平台化:统一的自动化能力是其他特性的重要依赖,标准化和平台化的目的都是为了统一。统一性的管理也有助于平台自身的建设,尤其应该避免建设多个自动化平台。统一的自动化平台也有利于公司统一进行监督和扩展,如要修改审核规则时,更容易落实规则。

 

5) 自动化能力成熟度模型

 

 image.png

 

如果您希望对所在企业的自动化能力成熟度进行评估,建议至第十章进行“CloudOps成熟度自评”。

相关文章
|
10天前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
32 4
|
13天前
|
运维 监控 安全
构建高效运维体系:从监控到自动化的全面指南在当今数字化时代,运维作为保障系统稳定性和效率的重要环节,其重要性不言而喻。本文将深入探讨如何构建一个高效的运维体系,从监控系统的搭建到自动化运维的实施,旨在为读者提供一套完整的解决方案。
本文详细介绍了高效运维体系的构建过程,包括监控系统的选择与部署、日志分析的方法、性能优化的策略以及自动化运维工具的应用。通过对这些关键环节的深入剖析,帮助运维人员提升系统的可靠性和响应速度,降低人工干预成本,实现业务的快速发展和稳定运行。
|
15天前
|
存储 运维 Cloud Native
阿里云国际CloudOps的优势和云上运维的特点
阿里云国际CloudOps的优势和云上运维的特点
|
15天前
|
运维 Prometheus 监控
运维中的自动化实践每月一次的系统维护曾经是许多企业的噩梦。不仅因为停机时间长,更因为手动操作容易出错。然而,随着自动化工具的引入,这一切正在悄然改变。本文将探讨自动化在IT运维中的重要性及其具体应用。
在当今信息技术飞速发展的时代,企业对系统的稳定性和效率要求越来越高。传统的手动运维方式已经无法满足现代企业的需求。自动化技术的引入不仅提高了运维效率,还显著降低了出错风险。本文通过几个实际案例,展示了自动化在IT运维中的具体应用,包括自动化部署、监控告警和故障排除等方面,旨在为读者提供一些实用的参考。
|
5天前
|
数据采集 SQL 运维
企业出海WAS安全自动化解决方案
企业出海WAS安全自动化解决方案
|
29天前
|
运维 Ubuntu 应用服务中间件
自动化运维:使用Ansible进行配置管理和任务自动化
【9月更文挑战第27天】在现代IT基础设施中,自动化运维是提高效率、减少人为错误和确保系统一致性的关键。本文将介绍如何使用Ansible,一个流行的开源IT自动化工具,来简化日常的运维任务。我们将探索Ansible的核心概念,包括它的架构、如何安装和使用它,以及一些实际的使用案例。无论你是新手还是有经验的运维专家,这篇文章都会提供有价值的见解和技巧,以帮助你更好地利用Ansible实现自动化。
|
28天前
|
运维 监控 关系型数据库
自动化运维:编写基本的自动化脚本
自动化运维:编写基本的自动化脚本
23 1
|
10天前
|
机器学习/深度学习 人工智能 开发框架
企业内训|AI赋能流程自动化,打造专属数字员工-某央企运营商
本次内训由TsingtaoAI公司为某央企运营商设计,针对约120名培训负责人及管理员,旨在深入理解AI技术在流程自动化中的应用,探索数字员工的构建与企业培训流程的智能化升级。课程涵盖大模型技术、主流模型应用、数字员工定义与价值、实施策略及落地方法等内容。
40 0
|
1月前
|
安全 搜索推荐
高效低成本:企业账款自动化实践
ZohoBooks是一款低成本的财务管理软件,可自动化应收账款流程,包括自动开票、发送提醒邮件、接收付款、导入银行数据及生成报告,提升管理效率。适用于小型企业,提供14天免费试用。通过自动化处理,企业能更高效地管理资金流动,确保运营顺畅。
26 6
|
2月前
|
API 网络架构 Windows
【Azure Developer】Azure Automation 自动化账号生成的时候怎么生成连接 与证书 (Connection & Certificate)
【Azure Developer】Azure Automation 自动化账号生成的时候怎么生成连接 与证书 (Connection & Certificate)