带你读《云上自动化运维宝典》——万字长文带你了解 CloudOps自动化运维的奥秘,助力云上业务高效稳定运行(3)

简介: 带你读《云上自动化运维宝典》——万字长文带你了解 CloudOps自动化运维的奥秘,助力云上业务高效稳定运行(3)

更多精彩内容,欢迎观看:

带你读《云上自动化运维宝典》——万字长文带你了解 CloudOps自动化运维的奥秘,助力云上业务高效稳定运行(2):https://developer.aliyun.com/article/1405385


3.ECS使用成熟度评估与洞察(ECS Insight)介绍

image.png

 

ECS Insight是一站式的业务风险识别与修复中心,它是CloudOps一脉相承过来的产品。ECS InsightCloudOps定义的CARES五大维度出发,基于客户在云上沉淀的最佳实践和当前客户在ECS的使用情况,最终分析当前客户在ECS上存在的业务风险,并提供优化推荐。只不过ECS InsightCloudOps的五大维度上,增加了基础能力,作为阿里云的额外补充。

 

所以,它的工作原理是对整个账号下以ECS为核心的相关资源的使用情况进行分析,包括对资源的分布、权益类的服务、工具的使用情况等。为了提升风险识别的完整性,我们需要覆盖更多的资源类型,并对这些资源的使用情况进行全方位和长周期的数据采集和分析,之后我们结合云上企业在行业的最佳实践,给用户提供指南。

 

最后ECS Insight的产出包含两个部分:

 

第一部分是刚刚提到的CARES五大维度再加一个ECS的基础能力,从六大维度上给用户提供对应分值的评估。第二部分是在这些分值评估中,我们会识别这些问题的严重程度,并针对每个程度给用户推荐优化建议。对于一些高危项和警告项,我们希望用户尽快修复。而对于一些提示项和不适用项,我们会建议用户忽略。这就是ECS Insight的大概工作原理。

 

image.png

 

接下来我将给大家看一下ECS Insight的一个简单的Demo

 

ECS Insight这个产品在20233月份做了第一次的版本发布。上面的截图是一个老版本的视图,它可以分成三个大模块。第一个是对整个账号下的ECS的使用成熟度进行全面的评估,能够看到当前的账号,在各个维度上的分数以及分布情况;第二个是对于失分项的概况;第三个是快速了解失分项,以及对应的最佳实践,及时进行风险修复。

 

image.png

 

在此基础上,我们计划在今年的10月份对ECS Insight进行第二次的版本迭代。上面的截图是新版本的UI视觉,这个新的视觉和旧版的一样也分成了三个大模块。首先,还是对整个成熟度进行全面的评估,之后我们会在失分项这里,根据问题的严重程度进行分别的展示;对于高危项我们会呼吁用户尽快修复,否则真的会对业务造成一个比较严重的影响;对于警告项,我们需要及时的采取行动;对于不适用项用户是可以忽略的。

 

对于这些高危项,我们在新的版本里面增加了一些内容。第一个是告诉用户受影响的资源是哪些,第二个是它带来的风险是什么,第三个是我们把修复建议写的更明确。

 

image.png

 

在这个基础上,用户可以对于失分项展开看它的详情。比如这个评分项的评分规则是怎样的、当前的问题是什么以及修复受影响的资源有哪些。在这里,对于受影响的资源我们也提供了快捷的操作入口,方便用户快速的采取修复行动,降低整个业务受影响的时长。

 

image.png

 下面我将对ECS Insight各个维度的能力进行一个简单的介绍,方便大家快速地了解ECS Insight在每个维度上能够识别什么样的风险,以及能够帮我们解决什么样的问题。

 

首先看一下ECS的基础能力。这一部分主要在计算、存储、网络、账号与资源管理这四个维度,来看一下当前的ECS和关联资源的分布是否合理,在性能和高可用维度是否存在风险,并且提供优化建议。这个能力评估来源于以下三大客户痛点:

 

第一,ECS实例规格繁多且不断演进。目前为止阿里云提供了超过1000种实例规格,而且每年还会推出新的实例规格。同时对于一些老的规格,比如经典网络的实例,这些实例不仅性价比低,而且对于一些实例的新特性它们无法使用。那么在这种情况下,如果我们持续的保有老规格,不仅性价比比较低,而且限制也会比较多。

 

第二,云盘类型和性能无法满足要求。阿里云早年推出的高效云盘或者老的本地盘,它们已经非常久远了,且已经无法满足当前业务读写的性能要求了。如果我们没能对这些老旧磁盘或者性能偏低的磁盘进行及时的升级,也会导致业务受到一定的影响。

 

第三,大规模资源管理复杂。如果我们的资源只有一两台倒还好,当我们的资源规模达到一定程度之后,我们想要对资源进行快速地查找,以及对于资源的管理也会面临挑战。所以在这种情况下,我们如何进行一些比较精细化的管理,避免一些误操作,也是我们面临的风险。

 

基础能力就是基于以上三个维度识别ECS当前面临的风险,并且提供优化建议。

 

image.png

 

第二个是成本洞察的能力。正如前面所说的,大家对云上成本的管理和优化都有非常强的诉求。但如何进行成本管理和优化,其实是很多客户的痛点。云上客户在成本管理面临的痛点包括:

 

第一,ECS付费方式和实例规格繁多。阿里云提供了包年包月、按量、抢占式、预留实例券RI、节省计划SP等多种付费方式和权益,方便用户灵活选择。但如何选择和业务形态最匹配的实例规格,并且能够根据业务的波动判断当前的实例规格和业务的形态是否最匹配,来实现业务的高可用,同时降低成本。

 

第二,无法快速根据不同维度核算成本支出。因为在云上是很多用户共同使用这个账号,不同的团队/人员,在创建资源的时候可能没有按照标准进行打标和分类,就会导致我们无法根据不同的维度快速的核算成本。所以如何快速的识别这一部分风险,并对它进行区分是目前客户面临的第二大痛点。

 

第三,实践FinOps持续优化成本面临数据不足。成本的持续优化离不开资源历史使用率的数据支撑,存储和分析大量历史数据面临门槛高、数据不足等多个问题。

 

在这个基础上,ECS Insight成本洞察的能力,它也分成了三个层级来给用户做风险的识别和推荐。

 

∙        初级是识别闲置或低使用率资源,推荐用户通过降配、停机不计费等方式进行优化,避免资源浪费。

∙        进一步是借助权益类产品,比如通过预留实例RI、节省计划SP等权益产品,进一步降低按量资源的使用成本。

∙        更进一步就是借助标签、财务单元、预算管理等多种工具,进行成本精细化分析与优化,端到端持续管理并优化成本。

 

以上就是ECS Insight在成本管理方面的产品能力。

 

image.png

 

第三个是自动化的能力。它主要解决的用户痛点包括以下三个:

 

第一,自动化能力不足,从前面Flexera的分析报告也可以看到,很多客户就是因为能力或资源不足,导致很多的日常运维都需要人工操作,或者需要自己写脚本来做,那么就会导致整个操作周期长,很多脚本无法正常维护的问题,还容易出现误操作,导致运维风险非常高。

 

第二,脚本难统一维护或形成规范,如果运维团队的管理不规范,每个运维脚本都会由每个工程师独立去维护,整个操作是不透明的,很容易出现和预期不符的误操作,最终导致运维风险。

 

第三,自服务能力缺失,在传统的模式下,基本上所有的日常运维都需要运维团队的人工响应,这样研发团队就很难自助地完成一些简单的运维。比如,我想要做一个发布,我想要申请一个资源,就都需要去和运维团队打交道。这就会使协同的成本非常高,效率非常低。

 

面临以上问题,ECS CloudOps提供了非常多的工具,但我们如何选择并使用这些工具来解决问题呢?这就是ECS Insight在自动化维度给大家提供的产品能力。它分为以下三个层级:

 

∙        初级就是通过控制台或OpenAPI完成资源的基础管控操作,包括资源创建、释放、排障等。

∙        中级就是借助云上自服务工具,比如云助手、资源编排等,实现自动化管理。

∙        进入高级阶段后,用户可以组合多种自服务工具,实现统一的标准化运维。

 

在自动化能力这一部分,ECS Insight的推荐能力属于nice to have的能力,但并不意味着没有用自动化的能力就不好,而是说如果我们有一些高频的场景,我们推荐用户使用对应的工具实现提效降本。

 

image.png

 

第四个是可靠性的能力。前面提到了,很多时候在云上运维团队不再需要负责底层服务器的购买、管理、监控,但并不意味着我们底层的基础设施是100%可靠的。那么在这个基础上,我们如何提升整个应用的可靠性,常见的痛点包括以下三个:

 

第一,应用的高可用能力不足。比如我们本身是一个在线的业务,我们本身不具备高可用的架构。这就会导致整个应用的可靠性是依赖于单个资源的可靠性的,这种行为就是不可取的。

 

第二,无法满足差异化的稳定性诉求。对于不同的运维团队,它对于层基础设施的诉求是不一样的。尤其对于一些核心业务,它对于底层基础设施的变更、维护、特定的窗口是会比较高的。那么我们和各个团队的协同成本也会比较高,而且还会存在无法支持和响应的情况。

 

第三,问题定位周期长。当底层/业务出现问题的时候,我们整个问题的定位周期是比较长的,我们也缺少一些自动化的工具进行常规的问题排查,或者提前进行故障的演练。

 

在这个基础上,ECS Insight提供的可靠性的评估能力也分成了以下三个维度:

 

∙        初级的稳定性是需要将基础设施资源部署在多个可用区,避免大规模故障。

∙        中级的稳定性要求客户对关键数据周期性进行备份,提升数据的高可用水平,同时对核心业务在多地域进行部署,提升应用的高可用架构。

∙        高级的稳定性要求对应用进行多维度的监控,结合可观测工具、故障演练、故障注入等方案对应用可靠性进行验收。

 

在这三个维度上,我们也提供了对应的风险识别。比如识别当前实例维度的稳定性面临哪些风险,数据维度的可靠性面临哪些风险,性能维度的可靠性面临哪些风险。通过这些实例、数据、性能维度的风险,我们就能够从最底层消灭稳定性的风险,提升整个应用的可靠性。

 

image.png

 

第五个是弹性能力。弹性能力更多的是解决了资源交付的效率问题,同时还解决了成本的问题。正如前面介绍的,我们对于传统模式下临时弹性的需求,它的交付周期是比较长的。如果我们做好管理,就会存在很大的资源浪费,导致整个成本偏高。而且扩容的时机和业务如果匹配的不好,不仅会导致业务受损,还可能存在资源浪费。

 

所以在这个维度上,我们也会对用户在弹性维度上的使用情况进行分析。包括以下三个维度:

 

∙        初级的弹性手动或半自动满足临时弹性需求:包括通过控制台或OpenAPI批量交付或释放按量的ECS实例,满足临时突发的弹性需求。

∙        中级的弹性能自动根据业务波动进行资源管理,包括根据业务关键指标的波动,自动创建或释放认为指定数量的资源,但是无法满足超出预期的资源需求。

∙        高级的弹性要求全自动化地弹性资源管理,即根据业务负载与当前资源的偏差,自动计算资源缺口,并动态调整资源进行自动化响应,实现业务高可用和低成本的双重价值。

 

弹性能力对于大多数用户/在线业务来说它有强诉求,对于部分用户来说,他可能并不没有那么强的诉求。所以这里的评估需要用户根据自己的业务特征来做,再去做进一步的判断。

 

image.png

 

第六个是安全性的能力。用户的痛点包括以下三点:

 

第一,安全意识不足。云上的安全性需要客户和阿里云共同来承担。在这种安全责任共担的模式下,我们也发现很多时候用户的安全意识是不足的。对于一些关键业务的关键数据,他们缺少安全防护的意识。所以就会导致实例被攻击了,很多重要的数据被删除了,而且找不回来了。

 

第二,日常运维操作缺少安全审计与限制。日常的安全尤其是线下的安全,它的运维操作是缺少安全审计的,但在云上我们可以通过开启一些能力来保证,来对ECS所有的高危操作可审计、可追溯。

 

第三,安全实践落地门槛高。DevSecOps听上去很美好,但在落地过程中如何体系化的构建是非常难的。

 

ECS Insight的安全能力也是分成不同的维度给用户提供了安全风险的识别和安全最佳实践的规范。

 

∙        初级的安全是实例访问安全,包括对于资源的访问设置更安全的访问方式,并支持对各种方式访问资源的行为进行安全审计,实现ECS的安全访问。

∙        中级的安全是数据安全,包括通过定期数据备份和数据加密的能力,提升关键业务和高敏数据的安全性。

∙        高级的安全是应用安全,包括通过安全组端口访问规则、漏洞自动化修复、以及WAFDDOS等能力端到端提升应用的安全性。

 

在这里ECS Insight会对当前ECS的使用情况和配置情况进行分析和扫描,最终给出风险的提醒。这些问题需要用户自己手动配置,阿里云是无法帮用户配置的。因为它们属于客户自己的范畴。

 

4. 总结与展望

 

image.png

 

经过前面的介绍,相信大家已经对CloudOps的产品能力以及CloudOps的概念有了比较深刻的认知,下面我们进行一个总结。

 

从前面的内容可以看到,ECS Insight使用成熟度评估与洞察和CloudOps之间是互相支撑的关系,CloudOpsECS提供的一系列的原生工具。希望帮助用户在成本、自动化、可靠性、弹性和安全性各个维度的能力。而且这些是原生的工具,用户可以通过标准的OpenAPI或者通过控制台就能快速的使用,真正的服务业务,进行高质量的业务交付。ECS Insight其实是以CloudOps为基础,从五大维度上对我们当前业务面临的风险进行了分析,并且给出了指定化、定向的优化推荐的方案,来帮助业务降低这几个维度的风险,提升服务的成熟度。

 

未来,我们将持续完善CloudOps的这些服务能力,更好地服务用户,做云上DevOps的深入实践。如果用户对这部分内容不了解,也可以通过ECS Insight这个产品来了解当前自己业务存在的风险,并通过工具解决风险,实现整个云上业务的安全、稳定、高效、永续。

 

image.png

 

以上就是本节课程的全部内容,同时欢迎大家点击链接进入【CloudOps云上运维】课程官网,了解最新课程资讯!

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
1月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
52 4
|
4天前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####
|
14天前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在故障预测和自动化响应中的应用
智能化运维:机器学习在故障预测和自动化响应中的应用
39 4
|
1月前
|
存储 运维 监控
高效运维:从基础架构到自动化管理的全面指南
【10月更文挑战第11天】 本文将深入探讨如何通过优化基础架构和引入自动化管理来提升企业IT运维效率。我们将从服务器的选择与配置、存储解决方案的评估,到网络的设计与监控,逐一解析每个环节的关键技术点。同时,重点讨论自动化工具在现代运维中的应用,包括配置管理、持续集成与部署(CI/CD)、自动化测试及故障排除等方面。通过实际案例分析,展示这些技术如何协同工作,实现高效的运维管理。无论是IT初学者还是经验丰富的专业人员,都能从中获得有价值的见解和实操经验。
61 1
|
1月前
|
运维 监控 测试技术
构建高效运维体系:从监控到自动化的实践之路
【10月更文挑战第9天】 在当今信息技术飞速发展的时代,运维作为保障系统稳定性与效率的关键角色,正面临前所未有的挑战。本文将探讨如何通过构建一个高效的运维体系来应对这些挑战,包括监控系统的搭建、自动化工具的应用以及故障应急处理机制的制定。我们将结合具体案例,分析这些措施如何帮助提升系统的可靠性和运维团队的工作效率。
50 1
|
1月前
|
运维 jenkins 持续交付
自动化部署的魅力:如何用Jenkins和Docker简化运维工作
【10月更文挑战第7天】在现代软件开发周期中,快速且高效的部署是至关重要的。本文将引导你理解如何使用Jenkins和Docker实现自动化部署,从而简化运维流程。我们将从基础概念开始,逐步深入到实战操作,让你轻松掌握这一强大的工具组合。通过这篇文章,你将学会如何利用这些工具来提升你的工作效率,并减少人为错误的可能性。
|
1月前
|
存储 运维 监控
高效运维管理:从基础架构优化到自动化实践
在当今数字化时代,高效运维管理已成为企业IT部门的重要任务。本文将探讨如何通过基础架构优化和自动化实践来提升运维效率,确保系统的稳定性和可靠性。我们将从服务器选型、存储优化、网络配置等方面入手,逐步引导读者了解运维管理的核心内容。同时,我们还将介绍自动化工具的使用,帮助运维人员提高工作效率,降低人为错误的发生。通过本文的学习,您将掌握高效运维管理的关键技巧,为企业的发展提供有力支持。
|
1月前
|
机器学习/深度学习 运维 自然语言处理
构建高效运维体系:从自动化到智能化的演进之路
随着信息技术的飞速发展和企业数字化转型的加速,运维管理作为保障业务连续性和系统稳定性的关键环节,正面临着前所未有的挑战与机遇。本文深入探讨了如何通过引入自动化工具和技术,实现运维流程的标准化、自动化和智能化,进而提升整个组织的运维效率和响应速度。同时,文章也详细分析了在实施自动化运维过程中需要考虑的关键因素,如人员技能提升、流程优化和文化变革等,以期为企业提供一套全面、实用的运维管理升级方案。
|
1月前
|
机器学习/深度学习 人工智能 运维
构建高效运维体系:从自动化到智能化的演进
本文探讨了如何通过自动化和智能化手段,提升IT运维效率与质量。首先介绍了自动化在简化操作、减少错误中的作用;然后阐述了智能化技术如AI在预测故障、优化资源中的应用;最后讨论了如何构建一个既自动化又智能的运维体系,以实现高效、稳定和安全的IT环境。
64 4
|
1月前
|
运维 监控 安全
构建高效运维体系:从监控到自动化的全面指南在当今数字化时代,运维作为保障系统稳定性和效率的重要环节,其重要性不言而喻。本文将深入探讨如何构建一个高效的运维体系,从监控系统的搭建到自动化运维的实施,旨在为读者提供一套完整的解决方案。
本文详细介绍了高效运维体系的构建过程,包括监控系统的选择与部署、日志分析的方法、性能优化的策略以及自动化运维工具的应用。通过对这些关键环节的深入剖析,帮助运维人员提升系统的可靠性和响应速度,降低人工干预成本,实现业务的快速发展和稳定运行。