带你读《云上自动化运维宝典》——万字长文带你了解 CloudOps自动化运维的奥秘，助力云上业务高效稳定运行（3）-阿里云开发者社区

更多精彩内容，欢迎观看：

带你读《云上自动化运维宝典》——万字长文带你了解 CloudOps自动化运维的奥秘，助力云上业务高效稳定运行（2）：https://developer.aliyun.com/article/1405385

3.ECS使用成熟度评估与洞察（ECS Insight）介绍

ECS Insight是一站式的业务风险识别与修复中心，它是CloudOps一脉相承过来的产品。ECS Insight从CloudOps定义的CARES五大维度出发，基于客户在云上沉淀的最佳实践和当前客户在ECS的使用情况，最终分析当前客户在ECS上存在的业务风险，并提供优化推荐。只不过ECS Insight在CloudOps的五大维度上，增加了基础能力，作为阿里云的额外补充。

所以，它的工作原理是对整个账号下以ECS为核心的相关资源的使用情况进行分析，包括对资源的分布、权益类的服务、工具的使用情况等。为了提升风险识别的完整性，我们需要覆盖更多的资源类型，并对这些资源的使用情况进行全方位和长周期的数据采集和分析，之后我们结合云上企业在行业的最佳实践，给用户提供指南。

最后ECS Insight的产出包含两个部分：

第一部分是刚刚提到的CARES五大维度再加一个ECS的基础能力，从六大维度上给用户提供对应分值的评估。第二部分是在这些分值评估中，我们会识别这些问题的严重程度，并针对每个程度给用户推荐优化建议。对于一些高危项和警告项，我们希望用户尽快修复。而对于一些提示项和不适用项，我们会建议用户忽略。这就是ECS Insight的大概工作原理。

接下来我将给大家看一下ECS Insight的一个简单的Demo。

ECS Insight这个产品在2023年3月份做了第一次的版本发布。上面的截图是一个老版本的视图，它可以分成三个大模块。第一个是对整个账号下的ECS的使用成熟度进行全面的评估，能够看到当前的账号，在各个维度上的分数以及分布情况；第二个是对于失分项的概况；第三个是快速了解失分项，以及对应的最佳实践，及时进行风险修复。

在此基础上，我们计划在今年的10月份对ECS Insight进行第二次的版本迭代。上面的截图是新版本的UI视觉，这个新的视觉和旧版的一样也分成了三个大模块。首先，还是对整个成熟度进行全面的评估，之后我们会在失分项这里，根据问题的严重程度进行分别的展示；对于高危项我们会呼吁用户尽快修复，否则真的会对业务造成一个比较严重的影响；对于警告项，我们需要及时的采取行动；对于不适用项用户是可以忽略的。

对于这些高危项，我们在新的版本里面增加了一些内容。第一个是告诉用户受影响的资源是哪些，第二个是它带来的风险是什么，第三个是我们把修复建议写的更明确。

在这个基础上，用户可以对于失分项展开看它的详情。比如这个评分项的评分规则是怎样的、当前的问题是什么以及修复受影响的资源有哪些。在这里，对于受影响的资源我们也提供了快捷的操作入口，方便用户快速的采取修复行动，降低整个业务受影响的时长。

下面我将对ECS Insight各个维度的能力进行一个简单的介绍，方便大家快速地了解ECS Insight在每个维度上能够识别什么样的风险，以及能够帮我们解决什么样的问题。

首先看一下ECS的基础能力。这一部分主要在计算、存储、网络、账号与资源管理这四个维度，来看一下当前的ECS和关联资源的分布是否合理，在性能和高可用维度是否存在风险，并且提供优化建议。这个能力评估来源于以下三大客户痛点：

第一，ECS实例规格繁多且不断演进。目前为止阿里云提供了超过1000种实例规格，而且每年还会推出新的实例规格。同时对于一些老的规格，比如经典网络的实例，这些实例不仅性价比低，而且对于一些实例的新特性它们无法使用。那么在这种情况下，如果我们持续的保有老规格，不仅性价比比较低，而且限制也会比较多。

第二，云盘类型和性能无法满足要求。阿里云早年推出的高效云盘或者老的本地盘，它们已经非常久远了，且已经无法满足当前业务读写的性能要求了。如果我们没能对这些老旧磁盘或者性能偏低的磁盘进行及时的升级，也会导致业务受到一定的影响。

第三，大规模资源管理复杂。如果我们的资源只有一两台倒还好，当我们的资源规模达到一定程度之后，我们想要对资源进行快速地查找，以及对于资源的管理也会面临挑战。所以在这种情况下，我们如何进行一些比较精细化的管理，避免一些误操作，也是我们面临的风险。

基础能力就是基于以上三个维度识别ECS当前面临的风险，并且提供优化建议。

第二个是成本洞察的能力。正如前面所说的，大家对云上成本的管理和优化都有非常强的诉求。但如何进行成本管理和优化，其实是很多客户的痛点。云上客户在成本管理面临的痛点包括：

第一，ECS付费方式和实例规格繁多。阿里云提供了包年包月、按量、抢占式、预留实例券RI、节省计划SP等多种付费方式和权益，方便用户灵活选择。但如何选择和业务形态最匹配的实例规格，并且能够根据业务的波动判断当前的实例规格和业务的形态是否最匹配，来实现业务的高可用，同时降低成本。

第二，无法快速根据不同维度核算成本支出。因为在云上是很多用户共同使用这个账号，不同的团队/人员，在创建资源的时候可能没有按照标准进行打标和分类，就会导致我们无法根据不同的维度快速的核算成本。所以如何快速的识别这一部分风险，并对它进行区分是目前客户面临的第二大痛点。

第三，实践FinOps持续优化成本面临数据不足。成本的持续优化离不开资源历史使用率的数据支撑，存储和分析大量历史数据面临门槛高、数据不足等多个问题。

在这个基础上，ECS Insight成本洞察的能力，它也分成了三个层级来给用户做风险的识别和推荐。

∙ 初级是识别闲置或低使用率资源，推荐用户通过降配、停机不计费等方式进行优化，避免资源浪费。

∙ 进一步是借助权益类产品，比如通过预留实例RI、节省计划SP等权益产品，进一步降低按量资源的使用成本。

∙ 更进一步就是借助标签、财务单元、预算管理等多种工具，进行成本精细化分析与优化，端到端持续管理并优化成本。

以上就是ECS Insight在成本管理方面的产品能力。

第三个是自动化的能力。它主要解决的用户痛点包括以下三个：

第一，自动化能力不足，从前面Flexera的分析报告也可以看到，很多客户就是因为能力或资源不足，导致很多的日常运维都需要人工操作，或者需要自己写脚本来做，那么就会导致整个操作周期长，很多脚本无法正常维护的问题，还容易出现误操作，导致运维风险非常高。

第二，脚本难统一维护或形成规范，如果运维团队的管理不规范，每个运维脚本都会由每个工程师独立去维护，整个操作是不透明的，很容易出现和预期不符的误操作，最终导致运维风险。

第三，自服务能力缺失，在传统的模式下，基本上所有的日常运维都需要运维团队的人工响应，这样研发团队就很难自助地完成一些简单的运维。比如，我想要做一个发布，我想要申请一个资源，就都需要去和运维团队打交道。这就会使协同的成本非常高，效率非常低。

面临以上问题，ECS CloudOps提供了非常多的工具，但我们如何选择并使用这些工具来解决问题呢？这就是ECS Insight在自动化维度给大家提供的产品能力。它分为以下三个层级：

∙ 初级就是通过控制台或OpenAPI完成资源的基础管控操作，包括资源创建、释放、排障等。

∙ 中级就是借助云上自服务工具，比如云助手、资源编排等，实现自动化管理。

∙ 进入高级阶段后，用户可以组合多种自服务工具，实现统一的标准化运维。

在自动化能力这一部分，ECS Insight的推荐能力属于nice to have的能力，但并不意味着没有用自动化的能力就不好，而是说如果我们有一些高频的场景，我们推荐用户使用对应的工具实现提效降本。

第四个是可靠性的能力。前面提到了，很多时候在云上运维团队不再需要负责底层服务器的购买、管理、监控，但并不意味着我们底层的基础设施是100%可靠的。那么在这个基础上，我们如何提升整个应用的可靠性，常见的痛点包括以下三个：

第一，应用的高可用能力不足。比如我们本身是一个在线的业务，我们本身不具备高可用的架构。这就会导致整个应用的可靠性是依赖于单个资源的可靠性的，这种行为就是不可取的。

第二，无法满足差异化的稳定性诉求。对于不同的运维团队，它对于层基础设施的诉求是不一样的。尤其对于一些核心业务，它对于底层基础设施的变更、维护、特定的窗口是会比较高的。那么我们和各个团队的协同成本也会比较高，而且还会存在无法支持和响应的情况。

第三，问题定位周期长。当底层/业务出现问题的时候，我们整个问题的定位周期是比较长的，我们也缺少一些自动化的工具进行常规的问题排查，或者提前进行故障的演练。

在这个基础上，ECS Insight提供的可靠性的评估能力也分成了以下三个维度：

∙ 初级的稳定性是需要将基础设施资源部署在多个可用区，避免大规模故障。

∙ 中级的稳定性要求客户对关键数据周期性进行备份，提升数据的高可用水平，同时对核心业务在多地域进行部署，提升应用的高可用架构。

∙ 高级的稳定性要求对应用进行多维度的监控，结合可观测工具、故障演练、故障注入等方案对应用可靠性进行验收。

在这三个维度上，我们也提供了对应的风险识别。比如识别当前实例维度的稳定性面临哪些风险，数据维度的可靠性面临哪些风险，性能维度的可靠性面临哪些风险。通过这些实例、数据、性能维度的风险，我们就能够从最底层消灭稳定性的风险，提升整个应用的可靠性。

第五个是弹性能力。弹性能力更多的是解决了资源交付的效率问题，同时还解决了成本的问题。正如前面介绍的，我们对于传统模式下临时弹性的需求，它的交付周期是比较长的。如果我们做好管理，就会存在很大的资源浪费，导致整个成本偏高。而且扩容的时机和业务如果匹配的不好，不仅会导致业务受损，还可能存在资源浪费。

所以在这个维度上，我们也会对用户在弹性维度上的使用情况进行分析。包括以下三个维度：

∙ 初级的弹性手动或半自动满足临时弹性需求：包括通过控制台或OpenAPI批量交付或释放按量的ECS实例，满足临时突发的弹性需求。

∙ 中级的弹性能自动根据业务波动进行资源管理，包括根据业务关键指标的波动，自动创建或释放认为指定数量的资源，但是无法满足超出预期的资源需求。

∙ 高级的弹性要求全自动化地弹性资源管理，即根据业务负载与当前资源的偏差，自动计算资源缺口，并动态调整资源进行自动化响应，实现业务高可用和低成本的双重价值。

弹性能力对于大多数用户/在线业务来说它有强诉求，对于部分用户来说，他可能并不没有那么强的诉求。所以这里的评估需要用户根据自己的业务特征来做，再去做进一步的判断。

第六个是安全性的能力。用户的痛点包括以下三点：

第一，安全意识不足。云上的安全性需要客户和阿里云共同来承担。在这种安全责任共担的模式下，我们也发现很多时候用户的安全意识是不足的。对于一些关键业务的关键数据，他们缺少安全防护的意识。所以就会导致实例被攻击了，很多重要的数据被删除了，而且找不回来了。

第二，日常运维操作缺少安全审计与限制。日常的安全尤其是线下的安全，它的运维操作是缺少安全审计的，但在云上我们可以通过开启一些能力来保证，来对ECS所有的高危操作可审计、可追溯。

第三，安全实践落地门槛高。DevSecOps听上去很美好，但在落地过程中如何体系化的构建是非常难的。

ECS Insight的安全能力也是分成不同的维度给用户提供了安全风险的识别和安全最佳实践的规范。

∙ 初级的安全是实例访问安全，包括对于资源的访问设置更安全的访问方式，并支持对各种方式访问资源的行为进行安全审计，实现ECS的安全访问。

∙ 中级的安全是数据安全，包括通过定期数据备份和数据加密的能力，提升关键业务和高敏数据的安全性。

∙ 高级的安全是应用安全，包括通过安全组端口访问规则、漏洞自动化修复、以及WAF、DDOS等能力端到端提升应用的安全性。

在这里ECS Insight会对当前ECS的使用情况和配置情况进行分析和扫描，最终给出风险的提醒。这些问题需要用户自己手动配置，阿里云是无法帮用户配置的。因为它们属于客户自己的范畴。

4. 总结与展望

经过前面的介绍，相信大家已经对CloudOps的产品能力以及CloudOps的概念有了比较深刻的认知，下面我们进行一个总结。

从前面的内容可以看到，ECS Insight使用成熟度评估与洞察和CloudOps之间是互相支撑的关系，CloudOps是ECS提供的一系列的原生工具。希望帮助用户在成本、自动化、可靠性、弹性和安全性各个维度的能力。而且这些是原生的工具，用户可以通过标准的OpenAPI或者通过控制台就能快速的使用，真正的服务业务，进行高质量的业务交付。ECS Insight其实是以CloudOps为基础，从五大维度上对我们当前业务面临的风险进行了分析，并且给出了指定化、定向的优化推荐的方案，来帮助业务降低这几个维度的风险，提升服务的成熟度。

未来，我们将持续完善CloudOps的这些服务能力，更好地服务用户，做云上DevOps的深入实践。如果用户对这部分内容不了解，也可以通过ECS Insight这个产品来了解当前自己业务存在的风险，并通过工具解决风险，实现整个云上业务的安全、稳定、高效、永续。