二、CloudOps的主要衡量纬度和定义
1. 企业运维实践的现状与趋势
根据Gartner 2021 Top10 Technology Trends Impacting DevOps、Puppet State of DevOps Report 2021以及我们所观察到的业界趋势,我们观测到了企业运维实践有以下几个趋势形态:
1) 越来越多的企业在公有云中使用DevOps,但是绝大部分企业都认为自己没有发挥和使用DevOps的核心能力
• 65%的企业已经在公共云中使用DevOps。
• 只有20%的企业认为自己充分用到了DevOps的全部能力。
• 自动化已经成为DevOps实践中最高优先级的任务,通过结合云的优势和自动化能力,可以进一步推进DevOps的能力演进。
2) 微服务架构的实施带来巨大的便利,也带来了新的挑战
• 服务拆分导致应用激增,统一简单的可观测性是个巨大的挑战。
• 更多的应用拆分和并行的任务开发模式可能会导致更多的故障点。
• 应用之间的依赖关系对于单个应用的可靠性和可用性有了更高的要求。
3) 分布式应用的复杂性非常高
• 网络延迟,容错,消息序列化,不可靠的网络和底层资源,异步性,版本控制。
• 可测试性和异步调用让链路复杂。
• 更高更难的DevOps要求。
4) 自助服务(Self-Service)已经是企业的一个迫切的需求
• 预测到2025年,75%的大型企业将建立自助服务基础设施平台,以帮助快速进行产品创新,而2020年这一比例为15%。
• AI和ML将推动DevOps快速进化。
5) 安全成为研发运维一体化关注的重点之一,希望把安全审查前置,让相关人员尽早参与进来,出现了DevSecOps的说法。
以上趋势也反映了企业在DevOps落地过程中的难点或者需要进一步加强的环节,主要包括:
• 要充分发挥DevOps的核心能力,突破点在于全局自动化能力的提升。大多数企业做到了局部流程的自动化,但由于组织结构等原因,推进统一的自动化工具开发、管理与维护成本高周期长,导致很难全链路打通。
• 应用可靠性提升的经济和技术门槛高,不仅涉及到物理基础设施的稳定可靠,还需要从架构设计上考虑应用的可用性。
• 可观测性非常重要:对于复杂的分布式系统,快速定位异常点并快速恢复依赖多层级的可观测能力,包括基础设施、应用层、业务层等。
• 自助服务模式的普及迫在眉睫:在DevOps模式下,每个开发人员需要自助完成开发、测试、集成、发布、部署等一系列任务,自助化工具可以大大提升开发人员的效率。
• 智能化运维能力的诉求:AI和ML是智能化运维的基础,可以极大提升运维效率,但智能化平台的搭建与校准门槛较高。