《CloudOps云上自动化运维 白皮书2.0》—— 八、成本和资源量化管理能力 Cost——2. 成本管理能力的业务价值(上):https://developer.aliyun.com/article/1222359?groupCode=ecs
2) 资源规格选型
• 计算资源
计算资源从处理器类型角度看,业界典型的厂商或者架构 Intel、AMD、ARM 三种云厂商都有提供,全面覆盖企业的各种场景。从产品能力看,分为通用型、计算型、内存型、高主频型、大数据型、本地 SSD 型、GPU 型、FPGA 型、突发性能型等,计算资源规格选型是企业在成本方面需要重点关注的,只有选择适合自己业务场景的规格类型,才能获得最优的性价比,如某电商网站根据自身业务特点选择计算型实例(4vCPU),相比通用型,成本降低 20%以上,再如突发性能实例成本低廉,其中的小规格非常适合轻量级 web 应用、开发/测试环境等低性能负载业务场景。
另外企业在选型后,在实例运行过程中应及时监控资源的负载情况,以便及时调整到适合自己的规格。
云厂商根据不同的使用场景推出了不同的实例规格,而且在不断的更新迭代,如阿里云云服务器 ECS,目前已经迭代至第七代,越新的实例意味着性价比越高,企业在选型时应尽量选择最新一代的实例。
• 存储资源
云服务器搭配的存储资源从架构看,主要有本地盘、云盘、NFS,三者之间存在以下差异:
性能和成本方面:在相同成本下,本地盘相比云盘,拥有更高的性能,但有
数据丢失的风险,而云盘数据可靠性高,以阿里云云盘为例,可达 9 个 9;
但 NFS 通常拥有更高的数据可靠性,以阿里云 NAS 为例,其可靠性达 11
个 9,但 NAS 性能会更弱一些,相对应的成本也更低。
产品功能方面:本地盘有诸多限制,如不支持快照、不支持变配、宕机迁移
不保留数据等;而云盘没有这些限制;NFS 产品能力上天然支持共享存储,
这也是本地盘、云盘所不具备的。
不同的存储资源拥有不同的功能、性能、成本。对于企业来说,需要根据自己的业务特点选择适合自己存储资源
3) 提升资源利用率
提升资源利用率也是控制成本的一种方式,企业需要充分发挥云上的弹性能力、自动化运维能力、监控能力,做到在业务需要时创建资源,在业务空闲时停止或释放闲置资源;在业务增长时升级资源规格,在业务需求下降时降低规格;提升资源利用率也包括提升资源的使用效率,效率的提升可以降低企业人工操作的成本。下面列举一些提升资源利用率的方法。
• 提升利用率
针对抵扣类产品,如预留实例券、节省计划、容量预留等,企业需要定期关
注其利用率与覆盖率,避免利用率过低造成浪费,同时若发现利用率已达到
100%,要及时升级加购。云厂商一般都会提供相应的工具,企业可以在云
厂商控制台进行查看与调整,或者集成云厂商提供的 OpenAPI 自动化调整。
企业可以通过云厂商提供的监控工具来实时监控计算资源 CPU、内存的利
用率,及时根据前面章节提到的弹性能力进行资源的水平、垂直弹性伸缩,
提升利用率降低成本。若存在长期负载较低的情况,建议使用突发性能实例
来降低成本。
针对按量付费实例,若非 7*24 小时提供服务,可以开启节省停机模式,开
启后停机时间不收取计算资源费用,可以借助自动化运维工具来实现周期
性定时开关机(开关节省停机模式)。
针对包年包月实例,若企业不再使用,可以进行退订,但云厂商通常会对退
订做一定额度的限制,企业需要避免大量退订导致超出可退订额度。
针对实例的带宽,若周期性出现带宽较高的场景,可以借助自动化运维工具,定时升降带宽,实时调整带宽避免浪费。
• 提升效率
针对抢占式实例,企业参照相关使用的最佳实践,包括消费实例被系统回收
释放的消息,借助诸如弹性供应等产品来实现算力集群的稳定交付,提升资
源使用效率。
针对包年包月实例,若企业长期使用,可以开启自动续费、也可以借助统一
到期日这样的功能来提升续费效率。
• 释放闲置资源
企业可以通过云厂商提供的监控工具来实时监控计算资源 CPU、内存、磁
盘的使用率,关注是否存在资源闲置。
针对弹性公网 IP,企业需要特别关注,是否存在资源闲置,若存在应及时释
放,避免付出资源占用费。
值得一提的是云厂商们纷纷推出了 Advisor 产品,企业可以授权 Advisor 产品定期扫描自己账号下的资源,给出安全、性能、稳定性、成本各方面的建议,企业可以依据给出的建议做优化。
《CloudOps云上自动化运维 白皮书2.0》—— 八、成本和资源量化管理能力 Cost——2. 成本管理能力的业务价值(下):https://developer.aliyun.com/article/1222351?groupCode=ecs