带你读《云上自动化运维宝典》——高弹性、高可用、低成本的云上资源管理最佳实践(2)

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: 介绍高弹性、高可用、低成本的云上资源管理最佳实践。

1. 如何使用ESS解决高可用问题

1.1 几种常见的资源高可用需求

一般情况下,资源高可用需求包括以下四个:

① 负载突增高可用需求:当业务的负载突增时,如何保证资源的高可用,ESS支持多种组合模式,可以保证高负载场景下进行正确的弹性扩容,保证资源的稳定性和服务的可靠性。

 

② 异地容灾高可用需求:ESS支持多可用区弹性,通过多可用区弹性能够实现资源的多可用区均衡分布,实现资源的高可用容灾。

 

③ 小规模场景高可用需求:如资源部署只有1~2台,虽然规模较小,但对服务稳定性需求较高。一般情况,在小规模场景下,单个实例受损会严重影响服务的可用性。ESS支持弹性实例健康检查,通过支持异常实例状态检测,自动进行异常实例替换,保证小规模资源高可用的场景。

 

④ 资源打散高可用需求:该场景要求对同一业务资源进行不同的宿主机打散,ESS支持宿主机打散,可以创建的弹性资源打散到不同的宿主机,避免资源之间相互影响。同时也避免因资源布置在同一宿主机宕机导致大规模影响。

 

image.png

1.2 多种伸缩模式满足各种业务负载波动场景

① 定时模式:对应业务负载周期性变化的场景:可以根据定时任务动态地定时增加或减少资源,如周五13:00扩容N台机器,高峰期之后再定时缩容。

 

② 动态模式:通过动态模式可用应对负载变化不规律的种场景,如使用cpu监控指标进行负载的动态扩缩,满足业务高峰期的负载,若CPU负载较高,动态扩容来满足业务资源的高可用。

 

③ 手动+动态模式:用于应对突发场景,首先,使用包年包月的实例,确保业务基座稳定。当业务突增时,辅以动态模式弹性扩容应对突发场景,保证整体资源的可用性。

 

④ 定时+动态模式:应对负载周期性变化,同时又有突增的场景,在高峰期之前定时扩容几台机器,若高峰期还有突增,则再通过动态扩容应对高可用的需求。

 

关于模式的选择,可以给予自己的用户场景进行参考,利用弹性弹性扩容提供的资源高可用来保证业务的稳定性。

 

image.png

2. 如何使用ESS实现低成本管理

1ECS灵活的付费方式:ESS的付费方式主要有5种,其特点和应用场景如上图所示。

 

弹性服务的低成本能力主要集中在包年包月、按量付费和抢占式实例,通过三种付费方式的组合实现种降低成本的目标。

 

2)使用ESS实现低成本管理过程如下图:

 

灰色柱状图表示传统模式下包年包月付费场景,黄色表示按量资源,橘黄色表示Spot资源。整个改造过程经历了低成本管理介入的方式,过去使用包年包月、按照固定的规格、模式来进行部署,在负载变化时资源部署量也不会改变。

 

首先进行业务资源弹性改造,弹性接入,接入之后就实现了按量资源的弹性,业务的资源可以随着业务的负载动态变化。但相对于Spot而言,按量付费较为昂贵,因此可以通过将按量和Spot进行组合的方式进一步减少费用。但为了保证资源按量和Spot组合后的稳定性、可用性足够高,可以使用多规格组合的方式。因为不同规格组合,可以避免Spot实例的一次性回收,因为不同的规格和Spot策略是不同,进而降低Spot集中回收带来的稳定性影响。即按量弹性之后先进行规格组合提高业务的可用性,再进行Spot与按量组合降低成本。

 

多付费类型组合弹性场景示如下图所示:

 

image.png

 

这里有6个组合案例。可以看做两组,ABC其实使用的是底座弹性资源高可用,DEF是一种弹性全托管。区别在于底座使用了包年包月的方式,相对于弹性全托管,资源稳定性更强,但由于其资源固定、不释放,其成本相对较高。

 

对于弹性资源的管理,分为了全按量、按量和Spot组合、全Spot 3种。对于这3种组合方式,若按量比例越高,稳定性更强,但成本也会更高,随着组合中Spot比例的增,成本越来越低,但稳定性会越来越差。

 

以上提供的6个案例中无法绝对性地认为哪一种更好,而要结合用户自己的业务场景来进行选择。如离线计算场景下如何选择付款组合方式,由于离线计算对实时性要求不高,且对任务执行有容错性,对于资源的可用性要求不高,但一般情况下离线计算的场景任务较多,规模较大,这意味着其成本压力也较大,即此时对于资源的需求是成本更低,但对资源的可用性要求更低。这种情况下,可以选择EF。对于核心服务,一般会选择A,因为其可用性最高。

 

image.png

2.1 案例一:人工智能企业

用户痛点:业务的用户的痛点有两个:首先,由于它是人工服务的供应商,它的峰谷之间的波动比较剧烈,它的最高峰达低峰期的16倍之多,它之前的部署方式都是按照保有的高峰期的资源进行部署,成本很高,有大量的闲置,存在资源利用率低的问题;另外,业务的访问量虽然有明显的周期性变化,但偶尔会有突增流量,及时按照最大部署稳定性也会存在问题。

 

解决方案:首先盘点业务的所有资源,使用Spot和按量组合弹性的方式,多个可用区之间保有包年包月实例进行基础稳定性的保障,组合使用按量实例来进行弹性扩缩保证其应对高峰期。即通过Spot + 按量通过定时和动态监控任务进行组合,一般在高峰期之前定时扩容,在突发流量时通过监控扩容进一步保证资源的可用性。

 

使用效果:通过弹性化改造实现了应对高峰期流量的动态波动,提高了用户的可用性,同时由于释放了大量的成本,节约了约24%的成本。

  image.png

image.png

2.2 案例二:技术服务平台【汇量科技】

用户痛点:该平台服务范围较广,涉及设备的规模非常大、地域覆盖范围广,对于资源和成本的诉求都特别高,首先,它类似于峰谷,波动剧烈,白天的流量是晚上的几十倍,同时价格也较为敏感。他原本使用了Spot实例降低成本,但是,Spot的价格波动也经常会导致资源成本的上升。

 

解决方案:使用ESS成本优化策略,简单来说,就是当有多个规格,Spot和按量组合时,选择价格最低的方式进行资源的交付。同时,多可用区容灾可用将Spot实例打散,使用多可用区、多实例规格的方式避免一次性大规模Spot实例回收导致额服务稳定性差,进一步保证资源的稳定性。另外它还使用了ESS提供的提前补偿策略,在Spot实例被抢占之前弹性伸缩,自动地选择价格更低的实例进行替换,避免Spot的断崖式释放。

 

可以看到在未开启Spot补偿之前,如果使用单个规格,那么大批量的Spot实例被释放,在过了一段时间之后,才能弹性扩容,其间的断崖异常会导致业务资源需求出现缺口,对业务的稳定性影响较大。若使用提前补偿策略,在Spot实例被回收之前的五分钟感知到实例即将被回收,提前创建替代实例来补偿被回收的Spot实例,保证种资源的稳定性。

 

效果:优化效果较为显著,用弹性伸缩的成本优化策略,结合Spot实例自动补偿,以30%的成本完成了过去的业务交付,相当于节省了70%的成本。

3. 总结与展望

 

image.png

 

本节课程从高可用、高弹性、低成本的资源管理方式,总结了一些经验。要实现高弹性、高可用性、低成本的资源管理,首先要进行弹性化改造来实现资源的弹性管理,然后基于弹性能力建立资源的高可用的管理能力,资源的高可用是最优先满足的;最后,在满足资源高可用的前提下,再进行资源的成本优化。

 

课程中主要以弹性伸缩服务为例来进行讲解,但实际上可以用的弹性伸缩工具有很多,如开源社区的K8SHPA,阿里云的ACKK8S弹性在云上的实现)、EHPCEMR等,我们可以结合自己的场景诉求使用弹性能力进行高可用、低成本的资源管理。

 


更多精彩内容,欢迎观看:

云上自动化运维,高弹性、高可用、低成本的云上资源管理最佳实践(1)

CloudOps云上运维

相关文章
|
2月前
|
弹性计算 运维 安全
一文读懂云上大规模资源管理的最佳实践
阿里云弹性计算团队十三位产品专家和技术专家共同分享云上运维深度实践,详细阐述如何利用CloudOps工具实现运维提效、弹性降本。
131703 5
一文读懂云上大规模资源管理的最佳实践
|
1月前
|
运维 Kubernetes 持续交付
构建高效自动化运维体系:基于Docker和Kubernetes的最佳实践
在现代云计算环境中,自动化运维成为保障系统稳定性与提升效率的关键。本文深入探讨了如何利用Docker容器化技术和Kubernetes容器编排工具构建一个高效、可靠的自动化运维体系。文中不仅介绍了相关的技术原理,还结合具体案例分析了实施过程中的常见问题及解决方案,为读者提供了一套行之有效的最佳实践指南。
|
2月前
|
弹性计算 运维 监控
高弹性、高可用、低成本的云上资源管理最佳实践
阿里云弹性计算团队十三位产品专家和技术专家共同分享云上运维深度实践,详细阐述如何利用CloudOps工具实现运维提效、弹性降本。
232 0
|
2月前
|
消息中间件 运维 应用服务中间件
容器化运维:构建高可用RabbitMQ集群的Docker Compose指南
容器化运维:构建高可用RabbitMQ集群的Docker Compose指南
193 0
|
4月前
|
弹性计算 运维 监控
带你读《云上自动化运维宝典》——高弹性、高可用、低成本的云上资源管理最佳实践(1)
阿里云弹性计算技术专家高庆瑞主讲《高弹性、高可用、低成本的云上资源管理最佳实践》。
278 0
|
7月前
|
缓存 运维 Linux
Linux(CentOS)运维脚本工具集合
Linux(CentOS)运维脚本工具集合
148 2
|
26天前
|
运维 Linux Shell
linux运维常用命令
linux运维常用命令
|
1月前
|
监控 网络协议 Linux
Linux 命令大全 & CentOS常用运维命令
Linux 命令大全 & CentOS常用运维命令
163 0
|
2月前
|
运维 Linux 数据安全/隐私保护
【Linux专题_01】宝塔面板安装及运维
【Linux专题_01】宝塔面板安装及运维
|
7月前
|
运维 关系型数据库 MySQL
Linux实用运维脚本分享
Linux实用运维脚本分享