CloudOps自动化运维套件助力企业更好上云、用云、管云

本文涉及的产品
无影云电脑企业版,4核8GB 120小时 1个月
无影云电脑个人版,1个月黄金款+200核时
资源编排,不限时长
简介: 2023年6月1日,阿里云峰会·粤港澳大湾区——企业上云与飞天云上创新论坛中,阿里云弹性计算高级产品专家马小婷带来了云上自动化运维最佳实践的相关分享,以及使用阿里云ECS产品的方法和技巧,帮助众多用户更轻松、更安全、更低成本的使用ECS。

2023年61日,阿里云峰会·粤港澳大湾区——企业上云与飞天云上创新论坛中,阿里云弹性计算高级产品专家马小婷带来了云上自动化运维最佳实践的相关分享,以及使用阿里云ECS产品的方法和技巧,帮助众多用户更轻松、更安全、更低成本的使用ECS


以下是她的演讲分享整理:IMG_4166.JPG

我今天分享的内容分为3大块,第一部分会简单介绍企业用云和使用ECS面临的挑战,第二部分会详细展开介绍CloudOps是什么,以及它能帮助云上企业解决哪些方面的问题,第三部分则是介绍一下CloudOps对应的落地产品,也是阿里云今年新推出的产品, ECS使用成熟度评估与洞察。


首先,我们来看一下企业用云面临的挑战。根据Flexera 2023年分析报告可以看到,虽然大型企业和小型企业面临的top 3问题略有不同,但是成本管理、安全以及知识缺乏是所有企业面临的三大最主要难题。

幻灯片2.PNG

上云就上阿里云,大多数企业上阿里云首要任务就是购买云服务器ECS构建业务应用,目前ECS的客户面临哪些问题呢?

幻灯片3.PNG

我们观察到,企业上云的主要出发点之一,就是希望借助云资源按需取用灵活性,来满足不断变化的业务场景,降低Capex。但一旦资源规模变大了,如何对ECS持续进行成本优化,降低整体拥有成本,是客户关注的首要问题。


企业的整体IT成本除了资源拥有成本Capex外,还有Opex,即运维成本。云服务提供商是否提供完善丰富的自动化能力,帮助企业降低ECS的维护和管理成本,是客户关注的第二个问题。


云服务器是否可靠是客户关注的第三大问题,包括地域和可用区分布、云服务器底层系统架构的可靠性,以及ECS稳定性的透明度能力,因为这会直接影响业务的稳定性。


云服务器的弹性能力,包括弹性速度和弹性效率,它决定了企业是否能快速响应业务的高峰。

最后一个则是安全和合规方面的能力,企业如何借助ECS提供的基础能力提升业务的安全合规等级,保障业务的安全至关重要。


我们发现,ECS客户面临的这5大问题与登成前面分享的 landing zone和卓越架构设计中,对业务应用提出五大方面的指导方针是不谋而合的。只是由于企业在不同发展阶段做了不同选择,但殊途同归,最终都会落到安全合规、稳定性、成本优化、卓越运维和高效性能几个方面。所以,在这个大前提下,为了让用户更好的用好ECS,我们提出了CloudOps的概念。

幻灯片4.PNG

CloudOpsECS的自动化运维套件,= Cloud x DevOps,强调的是借助云本身的能力和特性,提升云上开发运维的自动化程度,从工具和认知层面帮助企业快速落地DevOps实践,提升业务交付效率。


CloudOps定义了客户在ECS使用过程中,最为关注的CARES五大维度,包括成本与资源优化、自动化能力、可靠性能力、弹性能力和安全合规能力。

image.png

上图展示了ECS CloudOps的产品矩阵,可以看出,CloudOps主要是ECS为中心,围绕着用户关注的CARES五个维度,分别提供了对应的自动化工具和自服务能力,帮助用户快速完成相关维度能力的提升。


举个例子,在安全合规层面,虽然阿里云提供了安全可靠的基础设施和服务,如果客户有更高的安全合规需求,包括实例访问安全、数据安全、操作安全等,阿里云提供了访问控制、操作审计、加密实例,磁盘加密等多样化的安全保障能力,满足各种客户需求。


下面我将从每个维度展开,为大家做一些相关知识的补齐和最佳实践的落地方式。

幻灯片6.PNG

首先我们看一下如何做ECS的成本优化和管理。


在降本提效的行业大趋势下,Finops是当前的热点之一,我们也看到不少企业尝试去做FinOps,但因各种工具层面和知识层面的限制,进展缓慢,收效甚微。虽然FinOps不完全等于成本优化,但大多数企业做FinOps的出发点是为了降本。而占云上成本大头的ECS该如何进行成本优化呢?这里我们给了一个明确的操作指南。


第一步就是需要选择合适的付费方式。ECS目前提供了丰富的付费方式,包括包年包月,按量、RI和节省计划等。不同付费方式适合不同的业务场景,比如对于长期使用的资源,使用包年包月价格更优惠,但是如果要兼顾资源的灵活性时,按量结合节省计划,最低可以实现4-7折的优惠。对于临时使用的资源,使用按量付费更划算。如果业务完全是无状态的,使用spot价格则可以做到按量价格的1-2折。所以,根据业务形态选择合适的付费方式是成本优化的第一步。


第二步就是选择合适的实例规格。阿里云每年都会根据最新软硬件推出新的实例规格,新的实例规格相比旧的实例规格具有更好的性价比。阿里云在今年4月份的峰会上,宣布最新的实例规格目录价下降高达50%,也推出了倚天的新实例规格,整体性价比再次提升30%。所以,选择与业务负载匹配度最合适的实例规格,并跟随业务负载波动定期调整实例规格,才能真正省钱。


第三步就是提升资源利用率,避免浪费。对于闲置资源,或者使用率偏低的资源,我们需要监控并定期调整实例或带宽规格,对于暂时不用的实例,我们可以通过节省停机模式,仅需要支付磁盘的费用即可保留实例,需要的时候再随时开机拉起。


最后一步就是做成本进行持续的分析与监控,只有将成本拆分清楚了,才能识别异常或不符合规范的成本支出。


成本优化并不是一次性的任务,而是一个持续运营的过程,我们需要持续进行上述四个步骤。我们看到客户在这个环节中最常遇到的问题其实就是第4步,下面我将展开介绍一下如何利用标签,实现资源的分组、分账和分权。

'幻灯片7.PNG

我们在不同的产品控制台看到的都是资源视角,就是看到该类型的全部资源。而标签是一个键值对,我们可以用标签来对资源的属性进行多方位识别,比如资源所属地域,所属部门和他的用途是测试还是生产环境。 一旦对资源打完标签,我们就可以在费用中心,从各个维度查看资源的成本,比如信息部整体成本如何,以及信息部在生产环境中的费用如何。这样,可以让已经打标清楚的成本一目了然。


但是,后面可能会有新的用户或资源创建出来,这些用户或资源的标记可能没有遵循之前定义的标签规范。这种情况下,我们每次都需要人工进行校验。如果使用标签策略,规定好什么用户只能创建什么类型的资源,以及这些资源必须打上什么标签。不符合规范则无法创建资源。这样就能保证所有新用户和新资源从一开始就遵循了成本管理的约束,大大简化后续的成本分析和优化。

2023阿里云峰会分论坛-CloudOps产品体系助力企业更好上云用云管云-小婷Final版本(2).jpg

第二部分是自动化能力。自动化这个领域属于老生常谈,知易行难。围绕ECS全生命周期管理的自动化能力,阿里云也提供了丰富的自动化工具,第一个就是上云的迁移自动化工具,服务器迁移中心。它的使用方式非常简单,用户只需要指定好迁移源和迁移目标,SMC会自动创建迁移任务,将线下IDC、私有云或其他云厂商上的系统和数据,一键迁移至阿里云,大大缩短业务迁移上云的周期。同时,smc还支持操作系统的迁移、在阿里云内跨可用区进行迁移,满足各种迁移场景。

image.png

第二款自动化的工具就是资源编排ROS。相信大家都有过购买资源的体验,如果我们构建一个web服务需要用到LBECSRDS,我们需要分别去不同的控制台完成资源创建,然后再进行配置。通过ROS,我们只需要用jasonyaml格式的文件,定义好所需资源和资源之间的网络配置等,ROS可以一键将所需资源和配置全部交付,这样能将整个集群的步骤周期从以前的数天,下降到10-15分钟,大大提升部署效率。同时,我们也可以借助相同的方式,完成集群在多地域的部署。

image.png

第三款自动化工具就是运维编排OOS,它是一个免托管的自动化任务工具,其核心功能就是将一系列任务流自动串起来。上图所示的是一个滚动发布的流程。与资源编排类似的是,运维编排也是通过yamljason文件定义一个自动化任务模板,运维编排就会根据定义好的批次,将选中的ECS 均分后,依次对每个批次的ECS进行卸载LB、更新系统盘镜像、然后再挂载回去提供服务,如果执行失败,还可以重试。等第一批执行完毕,并且没有任何问题了,会继续执行第二和第三批。这样就能在不中断业务的基础上,实现对一组ECS上的应用版本进行升级发布。大大缩短业务的发布周期。

image.png

下面一个是弹性能力。众所周知,弹性能力是云最核心也是最基本的能力之一。对于流量明显波动的业务而言,传统方式下,如果保有全部资源,则会出现大量资源浪费;如果出现计划外流量,不仅需要人工接入,而且可能会因为响应过慢导致出现服务不可用,影响用户体验。


阿里云提供的弹性伸缩服务可以很好地解决这个问题。用户只需要定义好伸缩组内的实例数范围,通过伸缩配置指定好新扩容实例长什么样,以及什么时候进行扩缩容,弹性伸缩就能跟随业务负载波动自动进行扩缩容,不仅提供业务的高可用能力,而且还能减低整体使用成本。

image.png

下面这张图展示了目前弹性伸缩支持的弹性模式,除了普通的需要手动配置的简单伸缩规则外,弹性伸缩还支持步进 规则,目标追踪规则,这个类似于我们的空调制热制冷系统,他能根据室温自动调整。


目前,ess还支持预测性伸缩规则,类似于AI空调,他能根据过去7天的业务负载波动,自动预测未来2天的资源变化情况,并根据情况自动弹性,完全无需人工参与。

幻灯片13.PNG

谈到ECS的稳定性,我觉得有3点可以重点说明的。首先当然是阿里云分布广泛且稳如磐石的基础设施,目前阿里云已经在全球28个地域,86个可用区提供云服务。基于服务上万企业客户和管理超百万服务器的经验,阿里云沉淀了一套完整的故障预测、预防、定位和止损的技术能力,最终实现业界领先的ECS SLA,单个ECS实例的可用性达到99.975%,多可用区的sla达到99.995%,在业界遥遥领先。最后,阿里云还提供了丰富的ECS可观测能力,包括实现物理机打散的部署集,洞察底层基础设施异常的ECS系统事件,用于一键定位ECS内外部各种问题的诊断工具。这些可观测能力不仅能实现精细化运维,而且还能帮助用户缩短故障定位时长。

image.png

最后一块也是最重要的就是安全性问题。云上安全性的构建是需要云厂商和客户共同守护的责任共担模式。云厂商提供云服务,所以,云厂商需要对底层基础设施、软硬件虚拟化服务、以及云服务本身的安全性负责。云服务器内的应用和数据属于客户,云厂商无权也不能读取,这意味着用户需要自己对云服务器本身的访问安全,操作系统的安全、以及云服务器内数据和应用的安全负责。


为了帮助客户体系化地构建云上的安全性,阿里云提供了多种工具和能力,包括操作系统层面的镜像安全加密,系统补丁自动修复,访问层面的访问控制,网络隔离,以及快照进行数据备份,加密存储和加密计算实现数据安全。总体而言,云上业务的安全性,需要需要阿里云与客户共同守护。


前面我整体介绍了在CloudOps五大维度中,阿里云提供的各种工具和能力,帮助用户自助完成相关领域的能力提升。大家会关注,有没有一揽子的方案,让客户一目了然看到自己ECS上的业务在这五大维度的存在的各种风险,以及对应的应对方案呢?

image.png

这就是阿里云弹性计算部门在今年推出的CloudOps落地指南产品 – ECS使用成熟度评估与洞察,简称ECS Insight


它会根据客户过去30天的资源使用情况,从CARES五大维度对我们ECS上业务中存在的风险进行识别,最终提供洞察分析报告。该报告不仅提供您账号下当前ECS使用成熟度的评估全貌,而且还能查看每个维度的详细得分和失分项,针对失分项,我们基于云上运维最佳实践提供了指导建议,您可以快速进行修复。


目前我们的ECS控制台就能看到这个能力的申请入口,也欢迎大家申请体验。

幻灯片17.PNG

我今天的分享就到此结束,如果您希望了解CloudOps的更多信息,也欢迎大家扫码/点击下载CloudOps白皮书。谢谢大家~

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
2月前
|
机器学习/深度学习 人工智能 运维
企业内训|LLM大模型在服务器和IT网络运维中的应用-某日企IT运维部门
本课程是为某在华日资企业集团的IT运维部门专门定制开发的企业培训课程,本课程旨在深入探讨大型语言模型(LLM)在服务器及IT网络运维中的应用,结合当前技术趋势与行业需求,帮助学员掌握LLM如何为运维工作赋能。通过系统的理论讲解与实践操作,学员将了解LLM的基本知识、模型架构及其在实际运维场景中的应用,如日志分析、故障诊断、网络安全与性能优化等。
92 2
|
2月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
66 4
|
21天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维在企业IT管理中的应用与实践####
本文深入探讨了智能化运维(AIOps)的核心技术原理,通过对比传统运维模式,揭示了AIOps如何利用大数据、机器学习等先进技术提升故障预测准确性、优化资源分配及自动化处理流程。同时,文章详细阐述了智能化运维平台的实施步骤,包括数据收集与分析、模型训练与部署、以及持续监控与优化,旨在为企业IT部门提供一套切实可行的智能化转型路径。最后,通过几个典型应用案例,如某大型电商平台的智能告警系统和金融企业的自动化故障排查流程,直观展示了智能化运维在实际业务场景中的显著成效,强调了其在提升运维效率、降低运营成本方面的关键作用。 ####
43 4
|
25天前
|
机器学习/深度学习 运维 监控
智能化运维:从自动化到AIOps的演进之路####
本文深入探讨了IT运维领域如何由传统手工操作逐步迈向高度自动化,并进一步向智能化运维(AIOps)转型的过程。不同于常规摘要仅概述内容要点,本摘要将直接引入一个核心观点:随着云计算、大数据及人工智能技术的飞速发展,智能化运维已成为提升企业IT系统稳定性与效率的关键驱动力。文章详细阐述了自动化工具的应用现状、面临的挑战以及AIOps如何通过预测性分析和智能决策支持,实现运维工作的质变,引领读者思考未来运维模式的发展趋势。 ####
|
25天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的崛起背景,深入分析了其核心概念、关键技术、应用场景及面临的挑战,并对比了传统IT运维模式,揭示了AIOps如何引领运维管理向更高效、智能的方向迈进。通过实际案例分析,展示了AIOps在不同行业中的应用成效,为读者提供了对未来智能运维趋势的洞察与思考。 ####
61 1
|
29天前
|
人工智能 供应链 安全
企业秘密泄露风险加剧,自动化管理成关键
企业秘密泄露风险加剧,自动化管理成关键
|
1月前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####
|
1月前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在故障预测和自动化响应中的应用
智能化运维:机器学习在故障预测和自动化响应中的应用
61 4
|
2月前
|
运维 jenkins 持续交付
自动化部署的魅力:如何用Jenkins和Docker简化运维工作
【10月更文挑战第7天】在现代软件开发周期中,快速且高效的部署是至关重要的。本文将引导你理解如何使用Jenkins和Docker实现自动化部署,从而简化运维流程。我们将从基础概念开始,逐步深入到实战操作,让你轻松掌握这一强大的工具组合。通过这篇文章,你将学会如何利用这些工具来提升你的工作效率,并减少人为错误的可能性。
|
2月前
|
存储 运维 Cloud Native
阿里云国际CloudOps的优势和云上运维的特点
阿里云国际CloudOps的优势和云上运维的特点