摘要:2022年3月22日,【全新升级 阿里云ECS CloudOps 2.0来啦!】发布会正式播出,本次发布会上阿里云宣布CloudOps(云上自动化运维)套件全新升级,并发布了CloudOps云上自动化运维白皮书2.0版本。
随着本次产品的升级,阿里云推出了配套的智能化产品方案,即“ECS成熟度评估与洞察(ECS insight)”,它结合客户的资源管理需求以及云上相关的产品实践,从基础能力、成本管理、自动化、可靠性、弹性和安全性六个维度帮助用户分析定位潜在的运维风险,并推荐对应解决方案与最佳实践,全方位帮助企业用户降本增效,提升业务连续性。
阿里云弹性计算资深技术专家徐海弘在本次直播中带来了题为《云上自动化运维成熟度模型分享》的演讲,以下是他的演讲内容整理:
弹性计算团队一直期望通过持续的体验优化,以及相关工具的建设,提升客户在云上的运维效率。在过去的一年里,我们通过客户的拜访,结合云上的一些交付实践,整理了包括自动化运维在内的白皮书以及建设了相关的工具。
弹性计算团队在2021年12月,开始引入CloudOps云上自动化运维。大家已经意识到,当线下转为线上,资源使用方式和客户关注点也都会发生变化。
DevOps in Cloud并不完全等于把线下 CloudOps 实践原封不动搬到云上。所以在2021年Puppet的报告里提到,通过各种调查反馈来看,65% 处于发展中期的企业声称,他们已经开始使用云上资源。
但从调查结果来看,只有20%的企业充分利用到云自身的一些特性或优势开展业务。在1.0中,我们主要基于云上的资源交付运维等各方面的差异性,从降低成本,提升交付速度,提高自动化程度,提升灵活性,增强系统可靠性,以及提高业务安全性几个视角的提出一些最佳实践和对应工具。
在过去一段时间里,ops生态和趋势也在发生变化。很多早期已经存在的内容,因为各种原因被大家再度关注。
这里涉及到ops不同维度的增强版,它们侧重点各不相同。有些在垂直业务域的应用,有些强调运维实践执行的方案。
其中,FinOps是Finance+DevOps的组合,侧重于提升云上资源的使用率和性能,要求业务、财务与工程师团队紧密协同,通过数据的方式提升成本的可视化能力,进而优化成本。
根据Flexera 2022年的评估,云上每年大概32%的成本支出是因为资源闲置或使用率低被浪费。在过去12个月,FinOps参与团队的规模增长了75%。
因为最近几年人工智能和机器学习的突破发展,AIOps被大家重新提起。如何把相关技术应用到各种运维场景,实现降本增效。从相关的评估报告可以看到,全球AIOps市场规模在2025年预计会到达112.5亿美元。
除此之外,DevSecOps是Security+DevOps的组合,它是一种将安全作为贯穿整个IT生命周期的共同责任实践方法。
最后,在机器学习领域MLOps将DevOps的方法论和工具在ML领域的应用。根据MarketsandMarkets的报告,全球MLOps市场规模在2025年预计会到达4.9亿美元。
DevSecOps的概念最早于2012年被IT 安全领域的专家以及从业者提出之后,在后续的时间内,包括Gartner以及RSAC会议都在逐步强化相关概念和实践,尤其是安全左移等概念的提出,强调安全应该贯彻在DevOps整个生命周期。 当前,将风险管理、合规治理等多重因素融入DevSecOps框架成为业界趋势之一。
不管是什么类型的 Ops,最终都要围绕资源展开。资源包含基础设施,应用团队,数据业务流程等等,其中典型的参与方有云集成商。在云上,云平台是集成商这个角色里面最重要的成员。当然其他不同的角色,有最传统的开发,运维人员,运营人员等。还有一些业务领域的专家,有财务的,还有安全的。
从云平台的视角,我们首要做的是提升基础产品使用体验以及能力丰富度,这是CloudOps之本。它可以从根源上避免问题,比如以ECS产品,过去一年内我们从工单的视角去展开,逐步分析客户的问题,并从产品自身去解决它。从 3 月份结果看工单的数量同比有相当的下降,取得非常不错的结果,侧面也验证了产品自身的体验是 CloudOps 最基础的部分。
除此之外,云平台屏蔽了资源的一些特性,所以云上的一些Ops实践发生了对应的变化。因此需要综合客户的资源运维诉求以及云上资源使用的方式,通过多样化的产品能力构建云上Ops的最佳实践,这是另外一部分需要持续建设的地饭。
最后从业务的角色去看,我们一直认为包括开发/运维等角色在内的业务团队是CloudOps重要参与方,但他们也是CloudOps最佳实践的最大贡献者。很多用户具备非常丰富的资源管理实践。
在过去一段时间里面,我们的产品团队以及研发团队拜访了不少客户,了解他们的场景以及现有的工作方式,用于指导我们后续的工作。
综合上面的信息,资源管理实践分为三部分,发现问题,解决问题,以及预防问题。其中,在发现问题里,我们需要思考,如何设立最佳实践的规范和基于数据的诊断能力?其中,最关键是设立一个最佳实践规范。其次围绕规范的数据化的诊断能力可以帮助大家发现问题。
因为有了规范和诊断能力后,才可以解决问题和预防问题。从而引导出,接下来要介绍的白皮书以及洞察工具。
我们通过观察业界的趋势变化,持续与客户沟通、拜访了解客户使用的应用场景,以及自身产品的能力建设。我们把这些信息进行整理之后,推出了CloudOps白皮书。
这里有两点需要强调的是,第一,关于成熟度模型。我们把用户使用云把它分成几个等级。初级时,企业刚开始使用资源,开始关注云上使用的自动化、弹性、安全、合规等特性。在实践中,开始有意识的接触和使用产品。企业更多以默认配置的方式,简单开启相关功能。随着后期逐步的深入,它会慢慢到中级、高级、标准化,智能化等不同阶段。
第二点在分类方面,通过对CloudOps的各个领域进行拆分,我们引入了自动化能力。自动化能力指我们如何运用工具和系统,减少甚至完全取代人工操作。从而更好的提升相关的运维效率。除此之外,典型分类有弹性能力、可靠性能力、安全合规能力、成本和资源量化管理能力等等。
上图展示了阿里云弹性计算CloudOps的产品全貌,大家看到在最下层是IaaS的基础能力。在这个层面,如我们前面提到的,是整个CloudOps之本,弹性计算也一直在致力这些基础能力的提升以及体验的改进。
在基础产品的上层,就是CloudOps的产品矩阵。如我们上面在CloudOps白皮书里面提到的,我们分成了五个维度,即成本管理、自动化服务、可靠性服务、弹性服务、安全合规服务。
在大家最熟悉的弹性服务里,以最典型的弹性伸缩工具为例,客户可以根据业务负载,自动对资源进行扩容或缩容的工作。在弹性资源保障里,我们针对不同场景,提供了资源使用方式,客户可以通过阅读实例,预留容量包、容量预定的方式管理资源。
ECS使用成熟度评估与洞察模型,是在控制台上的一个开放工具。它是我们在白皮书里面提到的,各种最佳实践以及相关规范标准的实现。
如上图所示,在第一部分,大家可以看到工具可以针对当前登陆用户的资源使用情况,诊断出不同维度当前成熟度的情况,比如自动化能力,基础能力、洞察弹性能力、安全能力等方面的使用情况。
在第二部分,可以看到不同维度评分的情况,包括得分项以及失分项。比如在稳定性维度,目前一共有十个评估项。用户当前可能有七个得分项,三个失分项。
在这三个失分项里,我们也会做一些细化,给出一些对应的实践方案,便于依据做提升和优化。如果系统发现用户最近七天,没有使用快照对数据进行备份,针对这个问题用户可以进行一些优化。当然,CloudOps是一个持续的过程,不论是白皮书还是洞察工具,它是对过去我们和客户一起合作整理出来的一些最佳实践的总结,在后续我们也会融入更多新的内容,感谢大家。
点击链接回看精彩直播,点击链接/扫码还可阅读/下载《CloudOps云上自动化运维白皮书2.0》