ECS成熟度评估&洞察-重磅发布:云上自动化运维(CloudOps)白皮书2.0(下)

简介: ECS成熟度评估&洞察-重磅发布:云上自动化运维(CloudOps)白皮书2.0

接上篇:

、在过去一段时间里,ops生态和趋势也在发生变化。很多早期已经存在的内容,因为各种原因被大家再度关注。

 

这里涉及到ops不同维度的增强版,它们侧重点各不相同。有些在垂直业务域的应用,有些强调运维实践执行的方案。

 

其中,FinOps是Finance+DevOps的组合,侧重于提升云上资源的使用率和性能,要求业务、财务与工程师团队紧密协同,通过数据的方式提升成本的可视化能力,进而优化成本。

 

根据Flexera 2022年的评估,云上每年大概32%的成本支出是因为资源闲置或使用率低被浪费。在过去12个月,FinOps参与团队的规模增长了75%。

 

因为最近几年人工智能和机器学习的突破发展,AIOps被大家重新提起。如何把相关技术应用到各种运维场景,实现降本增效。从相关的评估报告可以看到,全球AIOps市场规模在2025年预计会到达112.5亿美元。

 

除此之外,DevSecOps是Security+DevOps的组合,它是一种将安全作为贯穿整个IT生命周期的共同责任实践方法。

 

最后,在机器学习领域MLOps将DevOps的方法论和工具在ML领域的应用。根据MarketsandMarkets的报告,全球MLOps市场规模在2025年预计会到达4.9亿美元。

 

DevSecOps的概念最早于2012年被IT 安全领域的专家以及从业者提出之后,在后续的时间内,包括Gartner以及RSAC会议都在逐步强化相关概念和实践,尤其是安全左移等概念的提出,强调安全应该贯彻在DevOps整个生命周期。 当前,将风险管理、合规治理等多重因素融入DevSecOps框架成为业界趋势之一。

 

image.png

不管是什么类型的 Ops,最终都要围绕资源展开。资源包含基础设施,应用团队,数据业务流程等等,其中典型的参与方有云集成商。在云上,云平台是集成商这个角色里面最重要的成员。当然其他不同的角色,有最传统的开发,运维人员,运营人员等。还有一些业务领域的专家,有财务的,还有安全的。

 

从云平台的视角,我们首要做的是提升基础产品使用体验以及能力丰富度,这是CloudOps之本。它可以从根源上避免问题,比如以ECS产品,过去一年内我们从工单的视角去展开,逐步分析客户的问题,并从产品自身去解决它。从 3 月份结果看工单的数量同比有相当的下降,取得非常不错的结果,侧面也验证了产品自身的体验是 CloudOps 最基础的部分。

 

除此之外,云平台屏蔽了资源的一些特性,所以云上的一些Ops实践发生了对应的变化。因此需要综合客户的资源运维诉求以及云上资源使用的方式,通过多样化的产品能力构建云上Ops的最佳实践,这是另外一部分需要持续建设的地饭。

 

最后从业务的角色去看,我们一直认为包括开发/运维等角色在内的业务团队是CloudOps重要参与方,但他们也是CloudOps最佳实践的最大贡献者。很多用户具备非常丰富的资源管理实践。

 

在过去一段时间里面,我们的产品团队以及研发团队拜访了不少客户,了解他们的场景以及现有的工作方式,用于指导我们后续的工作。

 

综合上面的信息,资源管理实践分为三部分,发现问题,解决问题,以及预防问题。其中,在发现问题里,我们需要思考,如何设立最佳实践的规范和基于数据的诊断能力?其中,最关键是设立一个最佳实践规范。其次围绕规范的数据化的诊断能力可以帮助大家发现问题。

 

因为有了规范和诊断能力后,才可以解决问题和预防问题。从而引导出,接下来要介绍的白皮书以及洞察工具。

 

image.png

 

我们通过观察业界的趋势变化,持续与客户沟通、拜访了解客户使用的应用场景,以及自身产品的能力建设。我们把这些信息进行整理之后,推出了CloudOps白皮书。

 

这里有两点需要强调的是,第一,关于成熟度模型。我们把用户使用云把它分成几个等级。初级时,企业刚开始使用资源,开始关注云上使用的自动化、弹性、安全、合规等特性。在实践中,开始有意识的接触和使用产品。企业更多以默认配置的方式,简单开启相关功能。随着后期逐步的深入,它会慢慢到中级、高级、标准化,智能化等不同阶段。

 

第二点在分类方面,通过对CloudOps的各个领域进行拆分,我们引入了自动化能力。自动化能力指我们如何运用工具和系统,减少甚至完全取代人工操作。从而更好的提升相关的运维效率。除此之外,典型分类有弹性能力、可靠性能力、安全合规能力、成本和资源量化管理能力等等。

 

image.png

 

上图展示了阿里云弹性计算CloudOps的产品全貌,大家看到在最下层是IaaS的基础能力。在这个层面,如我们前面提到的,是整个CloudOps之本,弹性计算也一直在致力这些基础能力的提升以及体验的改进。

 

在基础产品的上层,就是CloudOps的产品矩阵。如我们上面在CloudOps白皮书里面提到的,我们分成了五个维度,即成本管理、自动化服务、可靠性服务、弹性服务、安全合规服务。

 

在大家最熟悉的弹性服务里,以最典型的弹性伸缩工具为例,客户可以根据业务负载,自动对资源进行扩容或缩容的工作。在弹性资源保障里,我们针对不同场景,提供了资源使用方式,客户可以通过阅读实例,预留容量包、容量预定的方式管理资源。

 

image.png

 

 

ECS使用成熟度评估与洞察模型,是在控制台上的一个开放工具。它是我们在白皮书里面提到的,各种最佳实践以及相关规范标准的实现。

 

如上图所示,在第一部分,大家可以看到工具可以针对当前登陆用户的资源使用情况,诊断出不同维度当前成熟度的情况,比如自动化能力,基础能力、洞察弹性能力、安全能力等方面的使用情况。

 

在第二部分,可以看到不同维度评分的情况,包括得分项以及失分项。比如在稳定性维度,目前一共有十个评估项。用户当前可能有七个得分项,三个失分项。

 

在这三个失分项里,我们也会做一些细化,给出一些对应的实践方案,便于依据做提升和优化。如果系统发现用户最近七天,没有使用快照对数据进行备份,针对这个问题用户可以进行一些优化。当然,CloudOps是一个持续的过程,不论是白皮书还是洞察工具,它是对过去我们和客户一起合作整理出来的一些最佳实践的总结,在后续我们也会融入更多新的内容,感谢大家。

 

点击链接回看精彩直播,点击链接/扫码还可阅读/下载《CloudOps云上自动化运维白皮书2.0》

 

image.png

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
19天前
|
运维 应用服务中间件 网络安全
自动化运维的新篇章:使用Ansible进行服务器配置管理
【10月更文挑战第34天】在现代IT基础设施的快速迭代中,自动化运维成为提升效率、确保一致性的关键手段。本文将通过介绍Ansible工具的使用,展示如何实现高效的服务器配置管理。从基础安装到高级应用,我们将一步步揭开自动化运维的神秘面纱,让你轻松掌握这一技术,为你的运维工作带来革命性的变化。
|
2月前
|
机器学习/深度学习 人工智能 运维
企业内训|LLM大模型在服务器和IT网络运维中的应用-某日企IT运维部门
本课程是为某在华日资企业集团的IT运维部门专门定制开发的企业培训课程,本课程旨在深入探讨大型语言模型(LLM)在服务器及IT网络运维中的应用,结合当前技术趋势与行业需求,帮助学员掌握LLM如何为运维工作赋能。通过系统的理论讲解与实践操作,学员将了解LLM的基本知识、模型架构及其在实际运维场景中的应用,如日志分析、故障诊断、网络安全与性能优化等。
65 2
|
2月前
|
运维 应用服务中间件 网络安全
自动化运维:使用Ansible进行批量服务器配置
【9月更文挑战第35天】在现代IT基础设施管理中,高效、可扩展的自动化工具是提升工作效率的关键。本文将引导您了解如何使用Ansible这一强大的自动化工具来简化和加速服务器的配置过程,确保一致性和可靠性的同时减少人为错误。通过实际案例,我们将展示如何编写Ansible Playbook以实现批量服务器配置,从而让您能够更加轻松地管理和维护您的服务器群。
|
27天前
|
运维 应用服务中间件 调度
自动化运维:使用Ansible实现服务器批量管理
【10月更文挑战第26天】在当今快速发展的IT领域,自动化运维已成为提升效率、降低人为错误的关键技术手段。本文通过介绍如何使用Ansible这一强大的自动化工具,来简化和加速服务器的批量管理工作,旨在帮助读者理解自动化运维的核心概念和实践方法。文章将围绕Ansible的基础使用、配置管理、任务调度等方面展开,通过实际案例引导读者深入理解自动化运维的实现过程,最终达到提高运维效率和质量的目的。
|
2月前
|
运维 负载均衡 安全
自动化运维:使用Ansible进行服务器配置管理
【10月更文挑战第15天】在本文中,我们将探讨如何利用Ansible这一强大的自动化工具来简化和加速服务器的配置管理工作。通过实际案例和代码示例,我们将展示Ansible如何帮助运维人员高效地进行软件部署、系统更新和日常维护任务,从而提升工作效率并减少人为错误。
|
2月前
|
运维 Java Linux
【运维基础知识】Linux服务器下手写启停Java程序脚本start.sh stop.sh及详细说明
### 启动Java程序脚本 `start.sh` 此脚本用于启动一个Java程序,设置JVM字符集为GBK,最大堆内存为3000M,并将程序的日志输出到`output.log`文件中,同时在后台运行。 ### 停止Java程序脚本 `stop.sh` 此脚本用于停止指定名称的服务(如`QuoteServer`),通过查找并终止该服务的Java进程,输出操作结果以确认是否成功。
42 1
|
2月前
|
存储 运维 Cloud Native
阿里云国际CloudOps的优势和云上运维的特点
阿里云国际CloudOps的优势和云上运维的特点
|
2月前
|
运维 应用服务中间件 Linux
自动化运维:使用Ansible管理服务器配置
【10月更文挑战第2天】在现代IT运维中,自动化是提高效率和减少错误的关键。本文将介绍如何使用Ansible这一强大的自动化工具来简化日常的服务器管理工作。我们将从基础讲起,逐步深入到高级应用,展示如何通过编写简单的Playbooks来自动化复杂的配置任务。文章还将探讨Ansible的最佳实践,并分享一些实际案例来说明其在实际工作中的应用。
|
2月前
|
运维 应用服务中间件 nginx
自动化运维:使用Ansible管理服务器
【8月更文挑战第70天】随着互联网技术的飞速发展,服务器的数量和复杂性也在日益增加。如何高效、准确地管理这些服务器,成为了每一个运维人员必须面对的问题。本文将介绍如何使用Ansible这个开源的IT自动化工具,来帮助我们更好地管理服务器。Ansible以其简洁的语法、强大的功能和易于上手的特性,成为了运维人员的好帮手。我们将通过一些实际的例子,来看看Ansible是如何工作的。
|
2月前
|
Web App开发 运维 安全
1Panel:一个现代化、开源的 Linux 服务器运维管理面板
1Panel:一个现代化、开源的 Linux 服务器运维管理面板

热门文章

最新文章

相关产品

  • 云服务器 ECS