重磅发布:云上自动化运维(CloudOps)白皮书2.0

简介: 2022年3月22日,【全新升级 阿里云ECS CloudOps 2.0来啦!】发布会正式播出,本次发布会上阿里云宣布CloudOps(云上自动化运维)套件全新升级,并发布了CloudOps云上自动化运维白皮书2.0版本。

摘要:2022322日,【全新升级 阿里云ECS CloudOps 2.0来啦!】发布会正式播出,本次发布会上阿里云宣布CloudOps(云上自动化运维)套件全新升级,并发布了CloudOps云上自动化运维白皮书2.0版本。

 

随着本次产品的升级,阿里云推出了配套的智能化产品方案,即“ECS成熟度评估与洞察(ECS insight)”,它结合客户的资源管理需求以及云上相关的产品实践,从基础能力、成本管理、自动化、可靠性、弹性和安全性六个维度帮助用户分析定位潜在的运维风险,并推荐对应解决方案与最佳实践,全方位帮助企业用户降本增效,提升业务连续性。

 

阿里云弹性计算资深技术专家徐海弘在本次直播中带来了题为《云上自动化运维成熟度模型分享》的演讲,以下是他的演讲内容整理:

 

徐海弘.png

 

弹性计算团队一直期望通过持续的体验优化,以及相关工具的建设,提升客户在云上的运维效率。在过去的一年里,我们通过客户的拜访,结合云上的一些交付实践,整理了包括自动化运维在内的白皮书以及建设了相关的工具。

 

幻灯片3.JPG

 

弹性计算团队在202112月,开始引入CloudOps云上自动化运维。大家已经意识到,当线下转为线上,资源使用方式和客户关注点也都会发生变化。

 

DevOps in Cloud并不完全等于把线下 CloudOps 实践原封不动搬到云上。所以在2021Puppet的报告里提到,通过各种调查反馈来看,65% 处于发展中期的企业声称,他们已经开始使用云上资源。

 

但从调查结果来看,只有20%的企业充分利用到云自身的一些特性或优势开展业务。在1.0中,我们主要基于云上的资源交付运维等各方面的差异性,从降低成本,提升交付速度,提高自动化程度,提升灵活性,增强系统可靠性,以及提高业务安全性几个视角的提出一些最佳实践和对应工具。

 

幻灯片4.JPG

 

在过去一段时间里,ops生态和趋势也在发生变化。很多早期已经存在的内容,因为各种原因被大家再度关注。

 

这里涉及到ops不同维度的增强版,它们侧重点各不相同。有些在垂直业务域的应用,有些强调运维实践执行的方案。

 

其中,FinOpsFinance+DevOps的组合,侧重于提升云上资源的使用率和性能,要求业务、财务与工程师团队紧密协同,通过数据的方式提升成本的可视化能力,进而优化成本。

 

根据Flexera 2022年的评估,云上每年大概32%的成本支出是因为资源闲置或使用率低被浪费。在过去12个月,FinOps参与团队的规模增长了75%

 

因为最近几年人工智能和机器学习的突破发展,AIOps被大家重新提起。如何把相关技术应用到各种运维场景,实现降本增效。从相关的评估报告可以看到,全球AIOps市场规模在2025年预计会到达112.5亿美元。

 

除此之外,DevSecOpsSecurity+DevOps的组合,它是一种将安全作为贯穿整个IT生命周期的共同责任实践方法。

 

最后,在机器学习领域MLOpsDevOps的方法论和工具在ML领域的应用。根据MarketsandMarkets的报告,全球MLOps市场规模在2025年预计会到达4.9亿美元。

 

DevSecOps的概念最早于2012年被IT 安全领域的专家以及从业者提出之后,在后续的时间内,包括Gartner以及RSAC会议都在逐步强化相关概念和实践,尤其是安全左移等概念的提出,强调安全应该贯彻在DevOps整个生命周期。 当前,将风险管理、合规治理等多重因素融入DevSecOps框架成为业界趋势之一。

 

 幻灯片5.JPG

 

不管是什么类型的 Ops,最终都要围绕资源展开。资源包含基础设施,应用团队,数据业务流程等等,其中典型的参与方有云集成商。在云上,云平台是集成商这个角色里面最重要的成员。当然其他不同的角色,有最传统的开发,运维人员,运营人员等。还有一些业务领域的专家,有财务的,还有安全的。

 

从云平台的视角,我们首要做的是提升基础产品使用体验以及能力丰富度,这是CloudOps之本。它可以从根源上避免问题,比如以ECS产品,过去一年内我们从工单的视角去展开,逐步分析客户的问题,并从产品自身去解决它。从 3 月份结果看工单的数量同比有相当的下降,取得非常不错的结果,侧面也验证了产品自身的体验是 CloudOps 最基础的部分。

 

除此之外,云平台屏蔽了资源的一些特性,所以云上的一些Ops实践发生了对应的变化。因此需要综合客户的资源运维诉求以及云上资源使用的方式,通过多样化的产品能力构建云上Ops的最佳实践,这是另外一部分需要持续建设的地饭。

 

最后从业务的角色去看,我们一直认为包括开发/运维等角色在内的业务团队是CloudOps重要参与方,但他们也是CloudOps最佳实践的最大贡献者。很多用户具备非常丰富的资源管理实践。

 

在过去一段时间里面,我们的产品团队以及研发团队拜访了不少客户,了解他们的场景以及现有的工作方式,用于指导我们后续的工作。

 

综合上面的信息,资源管理实践分为三部分,发现问题,解决问题,以及预防问题。其中,在发现问题里,我们需要思考,如何设立最佳实践的规范和基于数据的诊断能力?其中,最关键是设立一个最佳实践规范。其次围绕规范的数据化的诊断能力可以帮助大家发现问题。

 

因为有了规范和诊断能力后,才可以解决问题和预防问题。从而引导出,接下来要介绍的白皮书以及洞察工具。

 

幻灯片6.JPG

 

我们通过观察业界的趋势变化,持续与客户沟通、拜访了解客户使用的应用场景,以及自身产品的能力建设。我们把这些信息进行整理之后,推出了CloudOps白皮书。

 

这里有两点需要强调的是,第一,关于成熟度模型。我们把用户使用云把它分成几个等级。初级时,企业刚开始使用资源,开始关注云上使用的自动化、弹性、安全、合规等特性。在实践中,开始有意识的接触和使用产品。企业更多以默认配置的方式,简单开启相关功能。随着后期逐步的深入,它会慢慢到中级、高级、标准化,智能化等不同阶段。

 

第二点在分类方面,通过对CloudOps的各个领域进行拆分,我们引入了自动化能力。自动化能力指我们如何运用工具和系统,减少甚至完全取代人工操作。从而更好的提升相关的运维效率。除此之外,典型分类有弹性能力、可靠性能力、安全合规能力、成本和资源量化管理能力等等。

 

幻灯片7.JPG

 

上图展示了阿里云弹性计算CloudOps的产品全貌,大家看到在最下层是IaaS的基础能力。在这个层面,如我们前面提到的,是整个CloudOps之本,弹性计算也一直在致力这些基础能力的提升以及体验的改进。

 

在基础产品的上层,就是CloudOps的产品矩阵。如我们上面在CloudOps白皮书里面提到的,我们分成了五个维度,即成本管理、自动化服务、可靠性服务、弹性服务、安全合规服务。

 

在大家最熟悉的弹性服务里,以最典型的弹性伸缩工具为例,客户可以根据业务负载,自动对资源进行扩容或缩容的工作。在弹性资源保障里,我们针对不同场景,提供了资源使用方式,客户可以通过阅读实例,预留容量包、容量预定的方式管理资源。

 

幻灯片8.JPG

 

 

ECS使用成熟度评估与洞察模型,是在控制台上的一个开放工具。它是我们在白皮书里面提到的,各种最佳实践以及相关规范标准的实现。

 

如上图所示,在第一部分,大家可以看到工具可以针对当前登陆用户的资源使用情况,诊断出不同维度当前成熟度的情况,比如自动化能力,基础能力、洞察弹性能力、安全能力等方面的使用情况。

 

在第二部分,可以看到不同维度评分的情况,包括得分项以及失分项。比如在稳定性维度,目前一共有十个评估项。用户当前可能有七个得分项,三个失分项。

 

在这三个失分项里,我们也会做一些细化,给出一些对应的实践方案,便于依据做提升和优化。如果系统发现用户最近七天,没有使用快照对数据进行备份,针对这个问题用户可以进行一些优化。当然,CloudOps是一个持续的过程,不论是白皮书还是洞察工具,它是对过去我们和客户一起合作整理出来的一些最佳实践的总结,在后续我们也会融入更多新的内容,感谢大家。

 

点击链接回看精彩直播,点击链接/扫码还可阅读/下载《CloudOps云上自动化运维白皮书2.0

 

16:9封面.jpg

相关文章
|
16天前
|
运维 Unix 应用服务中间件
自动化运维:使用Ansible简化日常任务
【8月更文挑战第4天】在现代IT架构中,自动化运维成为提升效率、减少人为错误的关键。本文将介绍如何使用Ansible这一强大的自动化工具来简化日常的运维任务,通过实际代码示例,展示配置管理、软件部署和系统更新等操作。我们将探索如何利用Ansible的简洁语法和强大功能来优化工作流程,从而为读者提供一套实用的自动化解决方案。
|
2天前
|
机器学习/深度学习 人工智能 运维
智能运维:未来趋势下的自动化与人工智能融合
【8月更文挑战第18天】 在数字化浪潮中,智能运维(AIOps)作为一股不可逆转的力量,正逐步改写传统运维的脚本。本文将探讨AIOps的核心要素、实施路径和面临的挑战,同时分享个人从新手到专家的心路历程,旨在启发读者思考如何在这一领域内持续成长并作出贡献。
14 6
|
4天前
|
运维 持续交付 网络安全
自动化运维:Ansible与Terraform的比较
【8月更文挑战第16天】Ansible和Terraform都是自动化运维领域的重要工具,它们各自以其独特的功能和优势在市场中占据了一席之地。在选择使用哪个工具时,用户应根据自己的实际需求和应用场景进行综合考虑。如果主要关注系统配置管理和应用程序部署,那么Ansible可能是一个更好的选择;如果主要关注基础设施的自动化部署和管理,那么Terraform可能更适合您的需求。
|
11天前
|
运维 Linux Apache
【一键变身超人!】Puppet 自动化运维神器 —— 让你的服务器听话如婴儿,轻松管理资源不是梦!
【8月更文挑战第9天】随着云计算与容器化技术的发展,自动化运维已成为现代IT基础设施的核心部分。Puppet是一款强大的自动化工具,用于配置管理,确保系统保持预期状态。通过易于理解的配置文件定义资源及其依赖关系,Puppet实现了“基础设施即代码”的理念。本文简要介绍了Puppet的安装配置方法及示例,包括Puppet Agent与Master的安装、基本配置步骤和一个简单的Apache HTTP Server管理示例,展示了Puppet在实际应用中的强大功能与灵活性。
24 9
|
5天前
|
机器学习/深度学习 人工智能 运维
自动化运维的新篇章:从脚本到智能化管理
在数字化浪潮中,运维领域迎来了前所未有的挑战与机遇。本文将通过一个运维专家的视角,讲述他如何从一个刚毕业的迷茫青年成长为行业内的佼佼者。文章不仅分享技术成长之路,更深入探讨自动化运维的演变历程,以及它如何重塑IT行业的未来。
|
7天前
|
运维 监控 Devops
构建高效自动化运维体系:DevOps与容器化实践
【7月更文挑战第44天】在现代IT基础设施管理中,自动化运维已成为提升效率、降低成本、确保系统稳定性的关键。本文将探讨如何通过结合DevOps理念和容器化技术来构建一个高效的自动化运维体系。我们将分析这一体系对提高软件交付速度、优化资源利用率以及增强系统可靠性的积极影响,并提供一系列实施策略和最佳实践,帮助企业实现运维自动化转型。
|
11天前
|
运维 Ubuntu 网络安全
Ansible:自动化运维的魔法棒,让复杂工作变得如此简单!
【8月更文挑战第9天】在现代IT运维中,自动化工具不可或缺。Ansible是一款流行的开源工具,以其简洁高效著称。它基于Python,使用YAML编写剧本,通过SSH与远程主机交互,无需安装代理。核心组件包括引擎、剧本、模块等。安装简易,如在Ubuntu上可通过添加PPA后使用`apt-get`命令。通过编写Playbook,如安装并启动Apache2服务的例子所示,可轻松实现自动化任务。Ansible的强大功能和灵活性使其成为提高运维效率的理想选择。
47 6
|
11天前
|
运维 监控 持续交付
"揭秘Puppet:自动化运维的超级英雄,一键驾驭复杂IT环境,让运维繁琐瞬间灰飞烟灭,引领未来运维新纪元!"
【8月更文挑战第9天】Puppet作为自动化运维的杰出代表,凭借其强大的配置管理和高度可定制性,助力IT运维实现自动化与智能化转型。通过定义资源模型与使用声明式语言描述系统状态,Puppet能自动调整系统至期望状态,实现标准化运维流程。其工作流程包括定义-应用-报告三步,支持从服务器配置到复杂网络、数据库管理等多种场景。示例代码展示了如何自动化部署Apache服务器,体现了Puppet在实际操作中的高效与便捷。随着技术演进与社区壮大,Puppet将持续推动运维领域的创新发展。
30 6
|
11天前
|
运维 应用服务中间件 Apache
震撼登场!Ansible roles 化身自动化运维神器,打破传统束缚,开启运维新时代!
【8月更文挑战第9天】Ansible是一款强大的自动化运维工具,其Roles功能将复杂任务分解为可复用模块,提升代码的可读性、可维护性和可扩展性。通过创建结构化的目录,如tasks、handlers和vars等,可以清晰地组织配置与任务。例如,为Web服务器创建一个Role,包含安装Apache、启动服务等任务,并可在不同的Playbook中重复使用此Role,简化大型集群的配置管理工作,提高效率和质量。
27 6
|
9天前
|
运维 监控 持续交付
构建高效自动化运维体系:Ansible与Docker的协同实践
【7月更文挑战第42天】 在当今快速发展的云计算和微服务架构时代,自动化运维已成为提升效率、确保系统稳定性的关键。本文将探讨如何利用Ansible这一强大的自动化工具与Docker容器技术相结合,搭建一个高效、可靠的自动化运维体系。文章首先简述了自动化运维的必要性和Ansible与Docker的基本概念,随后详细介绍了两者结合的优势,并通过实际案例分析展示了如何实现自动化部署、管理和扩展应用服务。通过阅读本文,读者将获得一套可行的自动化运维解决方案,以应对日益复杂的IT环境挑战。