ECS成熟度评估&洞察-重磅发布:云上自动化运维(CloudOps)白皮书2.0(下)

本文涉及的产品
云服务器 ECS,u1 2核4GB 3个月
云服务器 ECS,u1 4核8GB 1个月
云服务器 ECS,每月免费额度200元 3个月
简介: ECS成熟度评估&洞察-重磅发布:云上自动化运维(CloudOps)白皮书2.0

接上篇:

、在过去一段时间里,ops生态和趋势也在发生变化。很多早期已经存在的内容,因为各种原因被大家再度关注。

 

这里涉及到ops不同维度的增强版,它们侧重点各不相同。有些在垂直业务域的应用,有些强调运维实践执行的方案。

 

其中,FinOps是Finance+DevOps的组合,侧重于提升云上资源的使用率和性能,要求业务、财务与工程师团队紧密协同,通过数据的方式提升成本的可视化能力,进而优化成本。

 

根据Flexera 2022年的评估,云上每年大概32%的成本支出是因为资源闲置或使用率低被浪费。在过去12个月,FinOps参与团队的规模增长了75%。

 

因为最近几年人工智能和机器学习的突破发展,AIOps被大家重新提起。如何把相关技术应用到各种运维场景,实现降本增效。从相关的评估报告可以看到,全球AIOps市场规模在2025年预计会到达112.5亿美元。

 

除此之外,DevSecOps是Security+DevOps的组合,它是一种将安全作为贯穿整个IT生命周期的共同责任实践方法。

 

最后,在机器学习领域MLOps将DevOps的方法论和工具在ML领域的应用。根据MarketsandMarkets的报告,全球MLOps市场规模在2025年预计会到达4.9亿美元。

 

DevSecOps的概念最早于2012年被IT 安全领域的专家以及从业者提出之后,在后续的时间内,包括Gartner以及RSAC会议都在逐步强化相关概念和实践,尤其是安全左移等概念的提出,强调安全应该贯彻在DevOps整个生命周期。 当前,将风险管理、合规治理等多重因素融入DevSecOps框架成为业界趋势之一。

 

image.png

不管是什么类型的 Ops,最终都要围绕资源展开。资源包含基础设施,应用团队,数据业务流程等等,其中典型的参与方有云集成商。在云上,云平台是集成商这个角色里面最重要的成员。当然其他不同的角色,有最传统的开发,运维人员,运营人员等。还有一些业务领域的专家,有财务的,还有安全的。

 

从云平台的视角,我们首要做的是提升基础产品使用体验以及能力丰富度,这是CloudOps之本。它可以从根源上避免问题,比如以ECS产品,过去一年内我们从工单的视角去展开,逐步分析客户的问题,并从产品自身去解决它。从 3 月份结果看工单的数量同比有相当的下降,取得非常不错的结果,侧面也验证了产品自身的体验是 CloudOps 最基础的部分。

 

除此之外,云平台屏蔽了资源的一些特性,所以云上的一些Ops实践发生了对应的变化。因此需要综合客户的资源运维诉求以及云上资源使用的方式,通过多样化的产品能力构建云上Ops的最佳实践,这是另外一部分需要持续建设的地饭。

 

最后从业务的角色去看,我们一直认为包括开发/运维等角色在内的业务团队是CloudOps重要参与方,但他们也是CloudOps最佳实践的最大贡献者。很多用户具备非常丰富的资源管理实践。

 

在过去一段时间里面,我们的产品团队以及研发团队拜访了不少客户,了解他们的场景以及现有的工作方式,用于指导我们后续的工作。

 

综合上面的信息,资源管理实践分为三部分,发现问题,解决问题,以及预防问题。其中,在发现问题里,我们需要思考,如何设立最佳实践的规范和基于数据的诊断能力?其中,最关键是设立一个最佳实践规范。其次围绕规范的数据化的诊断能力可以帮助大家发现问题。

 

因为有了规范和诊断能力后,才可以解决问题和预防问题。从而引导出,接下来要介绍的白皮书以及洞察工具。

 

image.png

 

我们通过观察业界的趋势变化,持续与客户沟通、拜访了解客户使用的应用场景,以及自身产品的能力建设。我们把这些信息进行整理之后,推出了CloudOps白皮书。

 

这里有两点需要强调的是,第一,关于成熟度模型。我们把用户使用云把它分成几个等级。初级时,企业刚开始使用资源,开始关注云上使用的自动化、弹性、安全、合规等特性。在实践中,开始有意识的接触和使用产品。企业更多以默认配置的方式,简单开启相关功能。随着后期逐步的深入,它会慢慢到中级、高级、标准化,智能化等不同阶段。

 

第二点在分类方面,通过对CloudOps的各个领域进行拆分,我们引入了自动化能力。自动化能力指我们如何运用工具和系统,减少甚至完全取代人工操作。从而更好的提升相关的运维效率。除此之外,典型分类有弹性能力、可靠性能力、安全合规能力、成本和资源量化管理能力等等。

 

image.png

 

上图展示了阿里云弹性计算CloudOps的产品全貌,大家看到在最下层是IaaS的基础能力。在这个层面,如我们前面提到的,是整个CloudOps之本,弹性计算也一直在致力这些基础能力的提升以及体验的改进。

 

在基础产品的上层,就是CloudOps的产品矩阵。如我们上面在CloudOps白皮书里面提到的,我们分成了五个维度,即成本管理、自动化服务、可靠性服务、弹性服务、安全合规服务。

 

在大家最熟悉的弹性服务里,以最典型的弹性伸缩工具为例,客户可以根据业务负载,自动对资源进行扩容或缩容的工作。在弹性资源保障里,我们针对不同场景,提供了资源使用方式,客户可以通过阅读实例,预留容量包、容量预定的方式管理资源。

 

image.png

 

 

ECS使用成熟度评估与洞察模型,是在控制台上的一个开放工具。它是我们在白皮书里面提到的,各种最佳实践以及相关规范标准的实现。

 

如上图所示,在第一部分,大家可以看到工具可以针对当前登陆用户的资源使用情况,诊断出不同维度当前成熟度的情况,比如自动化能力,基础能力、洞察弹性能力、安全能力等方面的使用情况。

 

在第二部分,可以看到不同维度评分的情况,包括得分项以及失分项。比如在稳定性维度,目前一共有十个评估项。用户当前可能有七个得分项,三个失分项。

 

在这三个失分项里,我们也会做一些细化,给出一些对应的实践方案,便于依据做提升和优化。如果系统发现用户最近七天,没有使用快照对数据进行备份,针对这个问题用户可以进行一些优化。当然,CloudOps是一个持续的过程,不论是白皮书还是洞察工具,它是对过去我们和客户一起合作整理出来的一些最佳实践的总结,在后续我们也会融入更多新的内容,感谢大家。

 

点击链接回看精彩直播,点击链接/扫码还可阅读/下载《CloudOps云上自动化运维白皮书2.0》

 

image.png

相关实践学习
一小时快速掌握 SQL 语法
本实验带您学习SQL的基础语法,快速入门SQL。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
1月前
|
弹性计算 运维 Kubernetes
ECS成熟度评估与洞察
ECS Insight是阿里云推出的智能分析工具,针对ECS实例进行多维度评估,提升运维效率和资源利用率。其核心功能包括基础能力、成本洞察、自动化能力、可靠性能力、弹性能力和安全能力的评估。产品特点是数据驱动、最佳实践整合、智能化评估和一站式解决方案,提供持续改进指导,帮助用户优化云资源管理,确保成本效益、业务连续性和安全性。通过ECS Insight,用户可深入了解ECS使用情况,实现精细化运维。
33 2
|
1月前
|
弹性计算 运维 安全
带你读《云上自动化运维宝典》——万字长文带你了解 CloudOps自动化运维的奥秘,助力云上业务高效稳定运行(1)
带你读《云上自动化运维宝典》——万字长文带你了解 CloudOps自动化运维的奥秘,助力云上业务高效稳定运行(1)
404 1
|
1月前
|
弹性计算 运维 安全
CloudOps自动化运维套件,助力企业更好上云、用云、管云
今天分享的内容来自阿里云弹性计算高级产品专家马小婷带来了云上自动化运维最佳实践的相关分享,主要分为企业用云和使用ECS面临的挑战、CloudOps是什么以及一站式用云解决方案:ECS Insight这3大块来详细讲解。
|
11天前
|
运维 监控 API
自动化运维实践指南:Python脚本优化服务器管理任务
本文探讨了Python在自动化运维中的应用,介绍了使用Python脚本优化服务器管理的四个关键步骤:1) 安装必备库如paramiko、psutil和requests;2) 使用paramiko进行远程命令执行;3) 利用psutil监控系统资源;4) 结合requests自动化软件部署。这些示例展示了Python如何提升运维效率和系统稳定性。
30 8
|
29天前
|
弹性计算 运维 监控
【阿里云弹性计算】ECS实例的生命周期管理:阿里云自动化工具与策略介绍
【5月更文挑战第29天】阿里云提供自动化工具和策略管理ECS实例生命周期,如资源编排服务(ROS)实现一键部署,通过模板定义实例配置;自动化运维服务(OOS)执行自动化运维任务;弹性伸缩策略动态调整实例数量;定时启动/停止策略节省成本;监控告警策略确保业务连续性。通过这些工具和策略,企业可实现ECS实例的高效管理。
62 2
|
1月前
|
弹性计算 运维 安全
ECS系统如何高效运维|开发者分享会
今天分享的内容来自阿里云弹性计算技术专家郑大禹的“ECS系统高效运维实践”。全文围绕ECS运维的痛点和挑战、如何实现高效运维以及典型案例分享这3个主题内容进行讲解。
111446 4
|
1月前
|
弹性计算 运维 监控
【阿里云弹性计算】云上自动化运维实践:基于阿里云ECS的自动化部署与管理
【5月更文挑战第27天】阿里云ECS自动化运维实践:借助ECS API和SDK实现自动化部署,通过Python示例展示实例创建。利用Ansible、Docker等工具进行配置管理和容器化,结合CloudMonitor和Auto Scaling实现监控告警及资源动态调整,提升运维效率和系统稳定性。
176 0
|
1月前
|
弹性计算 关系型数据库 MySQL
|
1月前
|
弹性计算 运维 Kubernetes
云原生K8S场景自动化响应ECS系统事件
客户云原生K8S场景下,通过社区开源NPD+Draino+Autoscaler零开发,对接响应ECS主动运维事件,通过自动响应事件减少非预期宕机。
|
1月前
|
弹性计算 运维 监控
CloudOps云上自动化运维能力(1)
介绍自动化能力Automation,弹性能力,可靠性能力。
128 1

相关产品

  • 云服务器 ECS