带你读《云上自动化运维宝典》——一文读懂云上大规模资源管理的最佳实践(2)

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: 带你读《云上自动化运维宝典》——一文读懂云上大规模资源管理的最佳实践(2)

更多精彩内容,欢迎观看:

带你读《云上自动化运维宝典》——一文读懂云上大规模资源管理的最佳实践(1):https://developer.aliyun.com/article/1405349


2. 企业管理视角与云上资源连接:设计、检索、规范

1) 企业管理视角与云上资源转换

 

首先学习企业管理视角和云上资源之间的连接和转换,如下图所示:

 

image.png

 

上图中左侧表示云产品视角,将云上的云产品视角通过标签、资源目录、资源组等快速地关联起来,使用不同颜色的图标表示不同的部门,这样就可以通过标签快速地将各类资源按照部门进行分类,这样就可以清晰地观察到财务部、业务部等部门分别使用的资源,如右侧所示。在这个过程中,之所以能够在标签的分类中快速且方便地将其转换,是因为它利用了标签在云上的特点(资源的标签键),一个资源只能有一个标签值,这样即可保证将所有资源归属到对应的部门,而不会存在资源跨部门混淆的情况,这样就可以非常简单地实现从产品视角到企业业务视角的转换,这就是所谓的大道至简。

2) 多账号企业管理视角与云上资源转换

从部门视角来说,企业上云过程中为了业务发展会在云上使用多个账号来管理每个部门,如何构建出多账号下的企业部门视角?可以通过资源目录了解多账号下企业管理视角与云上资源的转换。如下图所示:

 image.png


image.png

观察上图,可以发现在多账号下可以通过资源目录将企业的每个账号变成对应的成员,再对成员进行统一的资源管理与管控。这样就能够快速地构建出企业级的统一规范和管理视角,即实现由单账号下的企业视角到多账号下的企业视图转换的能力。

 

 

3) 如何关联企业管理视角与云上资源

沿着上面的视角转换逻辑,学习关联企业的管理和资源管理,如下图:

 

image.png

(1)管理的目的

 

首先,管理的目的在于帮助企业更好地经营,帮助运维人员获得其他角色人员可以更高效的进行资源使用、运维、自动化等能力。因此,关联管理与云上资源时的设计要具备面向业务、可理解的特点,同时希望关联的关系场景是通用的,具备可复用的能力,此外,对于后面的场景需要有一定的认识,即价值可衡量。

 

2)操作步骤

 

①定义分类(的名称):好的定义,如“应用”“部门”“项目”等,这些事对于应用使用场景较好的分类;而坏的分类,如将像CIM应用等具体的分类值作为分类的定义,如同时使用“owner”和“归属者”来定义归属的分类,这样就具备了相同的分类含义,而多个分类值会导致分类模糊。

 

②制定分类规范:如“责任人”需要用名字的全称或工号等表示,是对于定义分类规范的释义。

 

③定义应用的范围:即要分类的定义是在某个账号下进行管控?或是多账号进行管控?或是在某个项目、应用、部门下进行管控?该步要定义资源所作用的产品的范围、资源类型等。

 

④把对应的分类和应用的指标应用到业务,如管理场景视图、运维视图、财务视图等。

 

⑤根据业务需要设计更多的分类,持续地治理跟使用。

4) 如何快速检索资源

前面的内容中提到了可以通过分类的方式实现方便的查找,那如何进行快速的检索?

 

阿里云提供了多种多样的检索能力,可以通过云产品的API、资源管控的API、各个产品的资源管理的控制台进行检索,本节课介绍的是阿里云提供的高级搜索的全新功能。

 

1)资源中心高级搜索:此功能不同于传统搜索方式,它不再受限于基于固定的筛选条件,高级的搜索方式提供了灵活、强大的搜索功能,满足个性化的、复杂的查询诉求。该功能支持复杂场景的搜索,无论是关键资源,还是多种条件下的查询,抑或是统计分析等场景,都能借助SQL轻松应对。

 

如下图所示:

 

image.png

 

通过选中的属性自动生成查询条件,快速实现跨账号的查询,同时,对于日常的事例也进行了模板化的管理,可以直接选择模板进行修改,简化整体的编写过程,快速掌握查询的技巧,能够让用户在云上使用和检索资源时更方便、快速地找到所需的资源。

 

2)多元化的搜索结果呈现:对于查询结果,阿里云支持视图的呈现,如下图所示:

 

image.png

 

满足查询的结果要求以图表的形式呈现,可以更直观地了解资源的占比、分布、趋势,进而实现跨账号、跨资源类型、跨地域的快速查询。也可以通过搜索的API或对应的检索的API进行检索,如标签查询API,实现跨产品、跨资源类型的检索能力。

1) 如何保障规范管理

在可以进行快速资源检索之后,应如何保障资源在使用的生命周期中始终保持规范呢?

 

要保障资源在使用的生命周期中始终规范,就是要控制符合规范的流程,从资源的生命周期上来看,分别是创建、分配、使用、运维、回收,在整个周期中,会有部分节点会产生不规范的资源,如果可以在这些产生不规范资源的节点加以手段进行控制,即可保障资源始终规范。

 

image.png

 

(1)保障的方法

 

首先,显而易见的是资源的创建。在资源的运维上,如修改资源标签,增量的产生不规范的资源可以通过控制不规范资源生产失败的方式来拦截对于不规范资源的生产,即事前拦截能力。事前拦截能力利用对于标签策略的事前拦截功能,根据情况可以做到完全拦截、半完全拦截。

 

而如果业务不允许影响资源的创建,只能生产出来再做检测,又该如何处理?可以通过标签策略的检测功能以及自动修复能力可以做到分类标签的检测范围。若分类是部门,企业的部门可选值是业务部、市场部、研发部、财务部等,则出现这几种情况便符合规范,而假设部门不在情况之内则是不符合规范的,如IT部,其不在规范中,就不符合规范。这样,即实现对增量的防范和存量的治理,即可保障资源在使用的全生命周期都是符合规范的。

 

总之,就是通过标签策略的方式进行事前拦截、事后检测。

 

(2)保障的步骤

 

了解了保障资源规范的方法,接下来学习如何保障,即步骤。如下图:

 

image.png

 

 

 

首先,要保障你的资源管理,就要知道设计的分类所作用的场景及其规范和标准,例如,标签后续的场景考虑的是分账,则分组设计要考虑对归属者、团队、部门、产品、子公司,此时分组设计中就要进行标签键的确认,如业务标签设计为biz,标签值是databusiness等几个确定的、有限的有效值,产品的标签键设计为product,标签值是p name1等确定的标签值,还有一些其他一系列的标签。同时,对于标签值的规范还可以进行正则的匹配、校验设计。

 

在规范下如何进行应用?

 

如在设定标签键时,可以通过规范来进行设置,假设对业务的可选值设定为1个大写字符+6个数字来表示,则A123123符合规范,123123不符合规范。再次选择产品的范围,确定事后检测的范围。如只对ECS的所有资源进行检测,此时,在检测范围内勾选ECS实例。通过检测范围选定以后,再判断是否要进行事前的拦截,即判断“资源不带标签或者带标签但不符合规范是否可以进行生产”的方式来进行拦截,且如果不符合规范,是否进行自动修复。

 

通过以上步骤的配置就可以保障资源的规范管理。针对一种特殊的场景,如在资源管理过程当中,希望ECS云服务器对应绑定的EIP网卡带由实例的标签,即关联的资源能够快速继承标签,使得所有的资源在整个应用的过程中快速地满足诉求,也可以进行勾选,然后配置对应的分类键,只要EIP挂载的实例有标签,就会自动继承,进而实现对全链路云上资源的管理。这样就保障了资源分类和使用过程中的规范和标准,为后续的业务场景的使用做数据和技术的准备。


更多精彩内容,欢迎观看:

带你读《云上自动化运维宝典》——一文读懂云上大规模资源管理的最佳实践(3):https://developer.aliyun.com/article/1405347

相关文章
|
3月前
|
弹性计算 运维 安全
一文读懂云上大规模资源管理的最佳实践
阿里云弹性计算团队十三位产品专家和技术专家共同分享云上运维深度实践,详细阐述如何利用CloudOps工具实现运维提效、弹性降本。
131711 5
一文读懂云上大规模资源管理的最佳实践
|
4天前
|
运维 Kubernetes Cloud Native
构建高效云原生运维体系:Kubernetes最佳实践
【5月更文挑战第9天】 在动态和快速演变的云计算环境中,高效的运维是确保应用稳定性与性能的关键。本文将深入探讨在Kubernetes环境下,如何通过一系列最佳实践来构建一个高效且响应灵敏的云原生运维体系。文章不仅涵盖了容器化技术的选择与优化、自动化部署、持续集成/持续交付(CI/CD)流程的整合,还讨论了监控、日志管理以及灾难恢复策略的重要性。这些实践旨在帮助运维团队有效应对微服务架构下的复杂性,确保系统可靠性及业务的连续性。
|
13天前
|
前端开发 IDE 数据可视化
深入理解与应用自动化测试框架Selenium的最佳实践
【4月更文挑战第30天】 本文将深入剖析自动化测试框架Selenium的核心原理,并结合最佳实践案例,探讨如何有效提升测试覆盖率和效率。文中不仅涉及Selenium的架构解析,还将提供针对性的策略来优化测试脚本,确保测试流程的稳定性与可靠性。通过实例演示,读者可以掌握如何在不同测试场景中灵活运用Selenium,以及如何处理常见的技术挑战。
|
23天前
|
运维 Prometheus 监控
构建高效稳定的云基础设施:运维最佳实践
【4月更文挑战第20天】 在动态的云计算环境中,确保服务的高效性与稳定性是现代IT运维团队面临的主要挑战。本文深入探讨了一系列运维最佳实践,旨在帮助读者构建和维护一个健壮的云基础设施。从自动化部署、监控策略到灾难恢复计划,文章将详细阐述如何通过这些实践来优化资源使用效率,降低系统故障风险,并提高整体服务质量。
15 0
|
2月前
|
运维 Kubernetes 持续交付
构建高效自动化运维体系:基于Docker和Kubernetes的最佳实践
在现代云计算环境中,自动化运维成为保障系统稳定性与提升效率的关键。本文深入探讨了如何利用Docker容器化技术和Kubernetes容器编排工具构建一个高效、可靠的自动化运维体系。文中不仅介绍了相关的技术原理,还结合具体案例分析了实施过程中的常见问题及解决方案,为读者提供了一套行之有效的最佳实践指南。
|
3月前
|
弹性计算 运维 监控
高弹性、高可用、低成本的云上资源管理最佳实践
阿里云弹性计算团队十三位产品专家和技术专家共同分享云上运维深度实践,详细阐述如何利用CloudOps工具实现运维提效、弹性降本。
241 0
|
5月前
|
弹性计算 运维 监控
带你读《云上自动化运维宝典》——高弹性、高可用、低成本的云上资源管理最佳实践(1)
阿里云弹性计算技术专家高庆瑞主讲《高弹性、高可用、低成本的云上资源管理最佳实践》。
282 0
|
8月前
|
缓存 运维 Linux
Linux(CentOS)运维脚本工具集合
Linux(CentOS)运维脚本工具集合
158 2
|
1月前
|
运维 Linux Shell
linux运维常用命令
linux运维常用命令
|
2月前
|
监控 网络协议 Linux
Linux 命令大全 & CentOS常用运维命令
Linux 命令大全 & CentOS常用运维命令
164 0