带你读《云上自动化运维宝典》——一文读懂云上大规模资源管理的最佳实践(1)

本文涉及的产品
轻量应用服务器 2vCPU 1GiB,适用于搭建电商独立站
轻量应用服务器 4vCPU 16GiB,适用于搭建游戏自建服
轻量应用服务器 2vCPU 4GiB,适用于网站搭建
简介: 带你读《云上自动化运维宝典》——一文读懂云上大规模资源管理的最佳实践(1)

为了更好地帮助用户在借助DevOps工具缩短开发周期、提升业务效率的同时,也能让业务保持稳定、安全、可靠,且低成本地持续运营,阿里云弹性计算团队独家出品的【弹性计算技术公开课_CloudOps云上运维季】正式启动。阿里云弹性计算团队十三位产品专家和技术专家共同分享云上运维深度实践,详细阐述如何利用CloudOps工具实现运维提效、弹性降本。该系列共10节直播课程,在阿里云官网、阿里云微信视频号、CSDN官网、阿里云钉钉视频号、阿里云开发者微信视频号同步播出,本次课程由战略合作媒体CSDN独家支持。

 

CloudOps云上运维系列课程第七节由阿里云弹性计算高级技术专家林小平主讲《云上大规模资源管理最佳实践》,点击下方链接进入【CloudOps云上运维】课程专题页即可观看课程回放,还可了解最新课程资讯。

 

CloudOps云上运维:https://developer.aliyun.com/topic/ecs-cloudops

 

以下内容根据林小平的课程整理而成,供阅览:

 

我们通常认为企业上云以发展优先、业务优先,但当企业发展到一定阶段时,就会产生管理诉求。业务的运作模式从“花钱买效率”到“管理换效率”的管理模式的转变,效率是企业可持续发展的根基,也带来了对云上管理和治理的强烈诉求。企业所要面对的是从管理模式到业务模式的转换,是从管理模式到技术模式的融合过程,如何做好转换是本节课的主题,将从上云的过程看发展的问题。

 

企业的发展到一定阶段所要面临的管理诉求是不可避免的,是每个企业在发展不同阶段过关注问题不同。关于企业的特点的描述有规模大、管理诉求高、资源多、发展快等等,这些关键字也说明了企业在发展的过程当中所面临的问题。如何帮助企业将内部的管理模式和云上的资源管理相结合,实现可执行、可复制的实践落地方案是本节课的主题,本节课将从以下四个方面来进行介绍。

 

image.png

 

首先,从不同的管理模式下企业所要面临的管理问题,介绍企业在上云发展过程中大规模的资源转换面临的问题;其次,学习企业管理视角与业务视角转换的落地方案,这部分将会从设计、检索、规范三个模块进行介绍;再次,就企业资源管理视角下的最佳实践场景:如何解决安全分账、自动化运维的案例进行介绍,从几个典型的业务场景说明资源管理的最佳实践,即如何应对资源管理转换后的模型满足企业的日常工作的需要;最后,介绍对大规模资源管理实践,总结通过本次学习可以带走的最佳实践。

1. 企业大规模资源管理面临问题:不同管理模式下的问题

前面的内容中曾讲到,企业发展到了一定的阶段会存在管理的强烈诉求,这是企业在发展过程中需要进行思考、转变以及大规模的资源管理实践落地的根本原因,我们需要深入地了解企业大规模管理实践的挑战。

1) 企业大规模资源管理挑战

 

image.png

首先,从云下到云上的视角来说,企业的内部管理和云上的连接不足。就如,企业是利用部门来进行人、财、物管理的,但云上是用产品来进行管理的,两者存在差异,如何更好地把部门管理和云上的资源管理进行连接,这是企业大规模资源管理的挑战之一。

 

其次,企业的管理视角不同。在不同管理模式下,需要不同的资源管理视角。如管理者希望看到不同的资源管理视角,包括部门成本情况、人效情况,而项目管理者则希望看到每个项目、每个人的人效情况,那么如何实现种多视角的管理也是企业大规模资源管理挑战之一。

 

再者,不同的角色需要差异化管理,如财务人员需要财务视角,运维人员需要运维视角,技术人员需要技术视角。如何在不同的视角下进行资源管理同样是企业大规模资源管理挑战之一。

 

最后,基于云上资源具有本身种类多、分布广、产品多、难管理等特点,也就形成了资源规模资源管理的难点。

 

面对资源管理的挑战,从企业的资源管理模式研究企业大规模管理问题。

2) 企业资源管理模式

从企业的资源管理模式来说,它分为运维管理模式和财务管理模式。

 

image.png

1)运维管理模式

 

不同的企业管理方式不同,这与企业当下的管理成熟度有关,管理成熟度越高的企业所需的管理越精细。

 

①分散管理分散运维:也就是说企业没有管理,每个人自管自用,即分散管理分散运维模式。它往往是初创企业选择的管理模式,因为其处于业务优先阶段,是发展的选择。

 

②集中管理集中运维:当企业发展到一定阶段,开始会意识到无管理会存在巨大的风险,如不合规、没有流程、无法把控等等,此时则会产生管理需求。首先,进行职责分离,这就诞生了集中管理和集中运维模式。这种模式下,资源对于管理者来讲“只管不用”,对于使用者来讲“只用不管”。但是集中管理模式会存在较大的挑战,因为其必须要由集中管理模式来管理整个资源的生命周期,而当规模、业务发展得越来越大的时候,集中管理模式就会成为“瓶颈”,相应的企业管理就会面临越来越大的压力和挑战。这种与日俱增的压力和挑战可以解决风险问题,但也会阻碍企业的发展,包括集中管理团队经常要负责的成本管理、身份管理、服务管理、安全合规管理、审计管理、资源管理等等,此时,则要考虑管理和效率的平衡,也就到了精细的管理阶段。

 

③集中管理分散运维:原本资源的创建、使用、分配等一系列的日常管理工作直接交付给项目和业务单元自行管理,同时,集中管理团队又有抓手和评估每个业务单元现在最急迫的业务问题。这样就可以提升企业的效率,即集中管理分散运维的管理模式。

 

企业的资源管理分类要适配企业的发展阶段,并无绝对的好坏之分,而是企业发展到某个阶段,使用更精细的方式实现管理和效率之间的平衡。

2)成本管理模式

从财务视角,在从云下到云上的过程中,是从计划经济到按需经济的模式转换。没有了预算枷锁管理的模式也让财务头疼不已,先用后买的模式带来了效率,带来了更好的弹性,也使得业务快速发展,但企业的财务也失去了管控权。

 

在传统行业的财务管理模式下,要购买机器,财务会先批复预算,在得到资金批复之后方可购买;而在云上购买则是按需购买,在财务的管理过程中只能被动支付以不影响业务的延续性。如何让企业经营得更好,如何从被动付款到看清费用,再到优化成本,这是是企业在成本发展过程中的关注点。

 

首先,需要看清成本,即了解每个部门使用的资金数额及资金用途,即企业内部多个业务团队使用资源的情况,那么IT部门的负责人需要把成本分摊到责任人的成本中,使得每一笔资金都记录清晰。任何一笔较大数额的资金在内部结算不清楚,都会导致企业经营面对非常大的挑战。

 

如经典的showback模式和chargeback模式。关于showback模式,企业的管理者们需要了解每一笔账目按照部门的核算情况,其关注的是核算以后是否符合预期,这种模式没有预算和独立过核算的要求,而chargeback模式下,企业的管理者不仅要review每个部门的情况,还要各个部门独立地进行成本的计费、核算和预算的管理。

3) 云上资源管理的问题

随着企业在不同阶段、运维管理模式以及成本管理模式的发展,再来探讨云上在资源大规模的资源管理过程中会遇到的问题,如下图所示:

 

image.png

这里的问题更直接、更具体,即在不同的角色关注的问题也不同。

 

如运维人员会关注业务应用如何与云上资源快速对应;如何快速找到对应的资源;如何适配快速的检索能力,而检索能力是基础,只有具备快速的检索能力才能帮助运维人员更好地进行运维。在检索过程中,不只要找某个云产品下的资源,更要找的是与业务相关的属性检索。如对于某个项目,其中某责任人对于该项目资源成本的情况。如何保障资源持续、高效、可治理?其中“治理”是第一步,但在整个管理过程中“持续”非常重要,如何持续治理、保证存量可治理、增量可保障的问题是治理的目的,即为了更安全、更便捷、更自动化地使用资源。

 

在日常管理过程中,我们需要安全地使用资源,那如何设置更精细的管理权限来保障资源在使用过程当中足够的安全以及权限足够的可控?在自动化的过程当中,如何实现云上的自动化的运维能力?从财务的视角来说,如何识别资源和资金的关系?这是财务人员最关注的事项之一。怎样把成本分摊到责任人?怎么帮助企业更好更有效地查看云上的成本情况?在看重“先用后买”模式带来的效率和弹性的同时,也要帮助企业更高效地使用云,这也是财务人员的关注点。

 

接下来,就目前存在的这些问题学习大规模的资源管理实践中这些问题相应的解决方案。


更多精彩内容,欢迎观看:

带你读《云上自动化运维宝典》——一文读懂云上大规模资源管理的最佳实践(2):https://developer.aliyun.com/article/1405348

相关文章
|
2月前
|
弹性计算 运维 安全
云上DevOps自动化的最佳实践
本文介绍了云上DevOps自动化最佳实践,重点探讨了企业在上云过程中面临的成本管理、运维效率和弹性等问题。通过阿里云的产品和服务,企业可以实现自动化的资源管理、成本优化和高效运维。文章详细阐述了如何利用标签进行成本分析、选择合适的付费类型和实例规格、以及通过弹性伸缩降低成本。此外,还介绍了新功能发布,如统一的实例运维通道界面、AI辅助的运维工具等,帮助企业提升云上业务的管理和运营效率。
|
3月前
|
机器学习/深度学习 人工智能 监控
软件测试中的自动化测试策略与最佳实践##
在当今快速发展的软件行业中,自动化测试已成为确保软件质量和加速产品上市的关键工具。本文将探讨自动化测试的重要性,分析不同类型的自动化测试工具和框架,并深入讨论实施自动化测试的最佳实践。通过案例研究和数据分析,我们将揭示如何有效整合自动化测试到软件开发生命周期中,以及它如何帮助团队提高测试效率和覆盖率。 ##
92 1
|
4月前
|
设计模式 前端开发 JavaScript
自动化测试框架设计原则与最佳实践####
本文深入探讨了构建高效、可维护的自动化测试框架的核心原则与策略,旨在为软件测试工程师提供一套系统性的方法指南。通过分析常见误区,结合行业案例,阐述了如何根据项目特性定制自动化策略,优化测试流程,提升测试覆盖率与执行效率。 ####
106 6
|
10天前
|
运维 Kubernetes Cloud Native
云栖实录 | 智能运维:云原生大规模集群GitOps实践
云栖实录 | 智能运维:云原生大规模集群GitOps实践
|
2月前
|
运维 Cloud Native 开发工具
智能运维:云原生大规模集群GitOps实践
智能运维:云原生大规模集群GitOps实践,由阿里云运维专家钟炯恩分享。内容涵盖云原生运维挑战、管理实践、GitOps实践及智能运维体系。通过OAM模型和GitOps优化方案,解决大规模集群的发布效率与稳定性问题,推动智能运维工程演进。适用于云原生环境下的高效运维管理。
|
8月前
|
机器学习/深度学习 监控 算法
自动化测试框架的演进与最佳实践
随着软件行业的迅猛发展,自动化测试已成为确保软件质量的关键手段。本文将深入探讨自动化测试框架的历史演进、当前趋势以及面临的挑战,并结合实际案例分析,提出一系列的最佳实践策略,旨在帮助读者构建更加高效、稳定的自动化测试体系。
|
4月前
|
Devops 测试技术 持续交付
软件测试中的自动化与持续集成:最佳实践与挑战
在快速迭代的软件开发周期中,自动化测试和持续集成(CI)已成为提高软件质量和加速产品上市的关键策略。本文探讨了自动化测试和CI的实施如何帮助开发团队提前发现缺陷、缩短反馈循环,并确保代码质量。我们将深入分析自动化测试的策略选择、工具应用以及面临的挑战,同时提供一些克服这些挑战的最佳实践。
122 15
|
3月前
|
监控 数据管理 测试技术
API接口自动化测试深度解析与最佳实践指南
本文详细介绍了API接口自动化测试的重要性、核心概念及实施步骤,强调了从明确测试目标、选择合适工具、编写高质量测试用例到构建稳定测试环境、执行自动化测试、分析测试结果、回归测试及集成CI/CD流程的全过程,旨在为开发者提供一套全面的技术指南,确保API的高质量与稳定性。
|
3月前
|
数据管理 测试技术 持续交付
软件测试中的自动化测试策略与最佳实践
在当今快速迭代的软件开发环境中,自动化测试已成为确保软件质量和加速产品上市的关键手段。本文旨在探讨软件测试中的自动化测试策略,包括选择合适的自动化测试工具、构建有效的自动化测试框架以及实施持续集成和持续部署(CI/CD)。通过分析自动化测试的最佳实践,本文为软件开发团队提供了一系列实用的指南,以优化测试流程、提高测试效率并减少人为错误。
103 4
|
4月前
|
监控 测试技术 持续交付
探索自动化测试在软件开发中的最佳实践
本文旨在深入探讨自动化测试在软件开发过程中的应用,以及如何有效地实施自动化测试以提高软件质量和开发效率。通过分析自动化测试的优势、挑战和最佳实践,本文为软件开发团队提供了一套实用的指导方案。