带你读《云上自动化运维宝典》——一文读懂云上大规模资源管理的最佳实践(1)

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: 带你读《云上自动化运维宝典》——一文读懂云上大规模资源管理的最佳实践(1)

为了更好地帮助用户在借助DevOps工具缩短开发周期、提升业务效率的同时,也能让业务保持稳定、安全、可靠,且低成本地持续运营,阿里云弹性计算团队独家出品的【弹性计算技术公开课_CloudOps云上运维季】正式启动。阿里云弹性计算团队十三位产品专家和技术专家共同分享云上运维深度实践,详细阐述如何利用CloudOps工具实现运维提效、弹性降本。该系列共10节直播课程,在阿里云官网、阿里云微信视频号、CSDN官网、阿里云钉钉视频号、阿里云开发者微信视频号同步播出,本次课程由战略合作媒体CSDN独家支持。

 

CloudOps云上运维系列课程第七节由阿里云弹性计算高级技术专家林小平主讲《云上大规模资源管理最佳实践》,点击下方链接进入【CloudOps云上运维】课程专题页即可观看课程回放,还可了解最新课程资讯。

 

CloudOps云上运维:https://developer.aliyun.com/topic/ecs-cloudops

 

以下内容根据林小平的课程整理而成,供阅览:

 

我们通常认为企业上云以发展优先、业务优先,但当企业发展到一定阶段时,就会产生管理诉求。业务的运作模式从“花钱买效率”到“管理换效率”的管理模式的转变,效率是企业可持续发展的根基,也带来了对云上管理和治理的强烈诉求。企业所要面对的是从管理模式到业务模式的转换,是从管理模式到技术模式的融合过程,如何做好转换是本节课的主题,将从上云的过程看发展的问题。

 

企业的发展到一定阶段所要面临的管理诉求是不可避免的,是每个企业在发展不同阶段过关注问题不同。关于企业的特点的描述有规模大、管理诉求高、资源多、发展快等等,这些关键字也说明了企业在发展的过程当中所面临的问题。如何帮助企业将内部的管理模式和云上的资源管理相结合,实现可执行、可复制的实践落地方案是本节课的主题,本节课将从以下四个方面来进行介绍。

 

image.png

 

首先,从不同的管理模式下企业所要面临的管理问题,介绍企业在上云发展过程中大规模的资源转换面临的问题;其次,学习企业管理视角与业务视角转换的落地方案,这部分将会从设计、检索、规范三个模块进行介绍;再次,就企业资源管理视角下的最佳实践场景:如何解决安全分账、自动化运维的案例进行介绍,从几个典型的业务场景说明资源管理的最佳实践,即如何应对资源管理转换后的模型满足企业的日常工作的需要;最后,介绍对大规模资源管理实践,总结通过本次学习可以带走的最佳实践。

1. 企业大规模资源管理面临问题:不同管理模式下的问题

前面的内容中曾讲到,企业发展到了一定的阶段会存在管理的强烈诉求,这是企业在发展过程中需要进行思考、转变以及大规模的资源管理实践落地的根本原因,我们需要深入地了解企业大规模管理实践的挑战。

1) 企业大规模资源管理挑战

 

image.png

首先,从云下到云上的视角来说,企业的内部管理和云上的连接不足。就如,企业是利用部门来进行人、财、物管理的,但云上是用产品来进行管理的,两者存在差异,如何更好地把部门管理和云上的资源管理进行连接,这是企业大规模资源管理的挑战之一。

 

其次,企业的管理视角不同。在不同管理模式下,需要不同的资源管理视角。如管理者希望看到不同的资源管理视角,包括部门成本情况、人效情况,而项目管理者则希望看到每个项目、每个人的人效情况,那么如何实现种多视角的管理也是企业大规模资源管理挑战之一。

 

再者,不同的角色需要差异化管理,如财务人员需要财务视角,运维人员需要运维视角,技术人员需要技术视角。如何在不同的视角下进行资源管理同样是企业大规模资源管理挑战之一。

 

最后,基于云上资源具有本身种类多、分布广、产品多、难管理等特点,也就形成了资源规模资源管理的难点。

 

面对资源管理的挑战,从企业的资源管理模式研究企业大规模管理问题。

2) 企业资源管理模式

从企业的资源管理模式来说,它分为运维管理模式和财务管理模式。

 

image.png

1)运维管理模式

 

不同的企业管理方式不同,这与企业当下的管理成熟度有关,管理成熟度越高的企业所需的管理越精细。

 

①分散管理分散运维:也就是说企业没有管理,每个人自管自用,即分散管理分散运维模式。它往往是初创企业选择的管理模式,因为其处于业务优先阶段,是发展的选择。

 

②集中管理集中运维:当企业发展到一定阶段,开始会意识到无管理会存在巨大的风险,如不合规、没有流程、无法把控等等,此时则会产生管理需求。首先,进行职责分离,这就诞生了集中管理和集中运维模式。这种模式下,资源对于管理者来讲“只管不用”,对于使用者来讲“只用不管”。但是集中管理模式会存在较大的挑战,因为其必须要由集中管理模式来管理整个资源的生命周期,而当规模、业务发展得越来越大的时候,集中管理模式就会成为“瓶颈”,相应的企业管理就会面临越来越大的压力和挑战。这种与日俱增的压力和挑战可以解决风险问题,但也会阻碍企业的发展,包括集中管理团队经常要负责的成本管理、身份管理、服务管理、安全合规管理、审计管理、资源管理等等,此时,则要考虑管理和效率的平衡,也就到了精细的管理阶段。

 

③集中管理分散运维:原本资源的创建、使用、分配等一系列的日常管理工作直接交付给项目和业务单元自行管理,同时,集中管理团队又有抓手和评估每个业务单元现在最急迫的业务问题。这样就可以提升企业的效率,即集中管理分散运维的管理模式。

 

企业的资源管理分类要适配企业的发展阶段,并无绝对的好坏之分,而是企业发展到某个阶段,使用更精细的方式实现管理和效率之间的平衡。

2)成本管理模式

从财务视角,在从云下到云上的过程中,是从计划经济到按需经济的模式转换。没有了预算枷锁管理的模式也让财务头疼不已,先用后买的模式带来了效率,带来了更好的弹性,也使得业务快速发展,但企业的财务也失去了管控权。

 

在传统行业的财务管理模式下,要购买机器,财务会先批复预算,在得到资金批复之后方可购买;而在云上购买则是按需购买,在财务的管理过程中只能被动支付以不影响业务的延续性。如何让企业经营得更好,如何从被动付款到看清费用,再到优化成本,这是是企业在成本发展过程中的关注点。

 

首先,需要看清成本,即了解每个部门使用的资金数额及资金用途,即企业内部多个业务团队使用资源的情况,那么IT部门的负责人需要把成本分摊到责任人的成本中,使得每一笔资金都记录清晰。任何一笔较大数额的资金在内部结算不清楚,都会导致企业经营面对非常大的挑战。

 

如经典的showback模式和chargeback模式。关于showback模式,企业的管理者们需要了解每一笔账目按照部门的核算情况,其关注的是核算以后是否符合预期,这种模式没有预算和独立过核算的要求,而chargeback模式下,企业的管理者不仅要review每个部门的情况,还要各个部门独立地进行成本的计费、核算和预算的管理。

3) 云上资源管理的问题

随着企业在不同阶段、运维管理模式以及成本管理模式的发展,再来探讨云上在资源大规模的资源管理过程中会遇到的问题,如下图所示:

 

image.png

这里的问题更直接、更具体,即在不同的角色关注的问题也不同。

 

如运维人员会关注业务应用如何与云上资源快速对应;如何快速找到对应的资源;如何适配快速的检索能力,而检索能力是基础,只有具备快速的检索能力才能帮助运维人员更好地进行运维。在检索过程中,不只要找某个云产品下的资源,更要找的是与业务相关的属性检索。如对于某个项目,其中某责任人对于该项目资源成本的情况。如何保障资源持续、高效、可治理?其中“治理”是第一步,但在整个管理过程中“持续”非常重要,如何持续治理、保证存量可治理、增量可保障的问题是治理的目的,即为了更安全、更便捷、更自动化地使用资源。

 

在日常管理过程中,我们需要安全地使用资源,那如何设置更精细的管理权限来保障资源在使用过程当中足够的安全以及权限足够的可控?在自动化的过程当中,如何实现云上的自动化的运维能力?从财务的视角来说,如何识别资源和资金的关系?这是财务人员最关注的事项之一。怎样把成本分摊到责任人?怎么帮助企业更好更有效地查看云上的成本情况?在看重“先用后买”模式带来的效率和弹性的同时,也要帮助企业更高效地使用云,这也是财务人员的关注点。

 

接下来,就目前存在的这些问题学习大规模的资源管理实践中这些问题相应的解决方案。


更多精彩内容,欢迎观看:

带你读《云上自动化运维宝典》——一文读懂云上大规模资源管理的最佳实践(2):https://developer.aliyun.com/article/1405348

相关文章
|
1月前
|
弹性计算 运维 安全
一文读懂云上大规模资源管理的最佳实践
阿里云弹性计算团队十三位产品专家和技术专家共同分享云上运维深度实践,详细阐述如何利用CloudOps工具实现运维提效、弹性降本。
131748 5
一文读懂云上大规模资源管理的最佳实践
|
1月前
|
运维 Kubernetes Cloud Native
构建高效云原生运维体系:Kubernetes最佳实践
【5月更文挑战第9天】 在动态和快速演变的云计算环境中,高效的运维是确保应用稳定性与性能的关键。本文将深入探讨在Kubernetes环境下,如何通过一系列最佳实践来构建一个高效且响应灵敏的云原生运维体系。文章不仅涵盖了容器化技术的选择与优化、自动化部署、持续集成/持续交付(CI/CD)流程的整合,还讨论了监控、日志管理以及灾难恢复策略的重要性。这些实践旨在帮助运维团队有效应对微服务架构下的复杂性,确保系统可靠性及业务的连续性。
|
26天前
|
运维 监控 Devops
构建高效稳定的云基础设施:DevOps与自动化运维的融合构建高效微服务架构的最佳实践
【5月更文挑战第28天】 在数字化转型的浪潮中,企业对于云基础设施的依赖日益增加。为了应对不断变化的市场需求和提供不间断的服务,传统的IT运维模式已不再适应现代业务的发展。本文将探讨如何通过结合DevOps理念和自动化工具,实现云基础设施的高效稳定运营。我们将分析自动化运维在提升效率、降低成本以及增强系统稳定性方面的关键作用,并展示实践案例以验证其效果。
|
1月前
|
运维 监控 安全
构建高效稳定的云基础设施:自动化运维策略与最佳实践
【5月更文挑战第22天】 随着云计算的日益普及,企业对云基础设施的依赖程度不断提高。有效的自动化运维策略成为确保系统稳定性、提升响应速度和降低人为错误的关键。本文将探讨一系列高效的自动化工具和流程,以及它们在云环境中的最佳实践,旨在为读者提供一套可行的方法论,用于构建和维护一个可靠且灵活的云基础设施。我们将重点讨论自动化部署、监控、故障恢复及安全性管理,并提出相应的建议和解决方案。
|
23天前
|
敏捷开发 Java 测试技术
深入理解自动化测试框架Selenium的设计理念与最佳实践
【5月更文挑战第31天】 在现代软件开发过程中,自动化测试是确保产品质量和加快交付速度的关键因素。Selenium作为一种广泛使用的自动化测试框架,它支持多种浏览器、操作系统和编程语言,极大地方便了测试人员编写和维护测试用例。本文将探讨Selenium的核心设计理念,包括其架构、组件和工作流程,并分享如何在实际项目中应用Selenium的最佳实践,以提高测试效率和准确性。通过分析真实案例,我们将展示Selenium如何帮助企业实现持续集成和持续部署(CI/CD)的目标,同时保证软件的稳定性和可靠性。
|
1月前
|
前端开发 IDE 数据可视化
深入理解与应用自动化测试框架Selenium的最佳实践
【4月更文挑战第30天】 本文将深入剖析自动化测试框架Selenium的核心原理,并结合最佳实践案例,探讨如何有效提升测试覆盖率和效率。文中不仅涉及Selenium的架构解析,还将提供针对性的策略来优化测试脚本,确保测试流程的稳定性与可靠性。通过实例演示,读者可以掌握如何在不同测试场景中灵活运用Selenium,以及如何处理常见的技术挑战。
|
1月前
|
运维 Kubernetes 持续交付
构建高效自动化运维体系:基于Docker和Kubernetes的最佳实践
在现代云计算环境中,自动化运维成为保障系统稳定性与提升效率的关键。本文深入探讨了如何利用Docker容器化技术和Kubernetes容器编排工具构建一个高效、可靠的自动化运维体系。文中不仅介绍了相关的技术原理,还结合具体案例分析了实施过程中的常见问题及解决方案,为读者提供了一套行之有效的最佳实践指南。
|
1月前
|
运维 Prometheus 监控
构建高效稳定的云基础设施:运维最佳实践
【4月更文挑战第20天】 在动态的云计算环境中,确保服务的高效性与稳定性是现代IT运维团队面临的主要挑战。本文深入探讨了一系列运维最佳实践,旨在帮助读者构建和维护一个健壮的云基础设施。从自动化部署、监控策略到灾难恢复计划,文章将详细阐述如何通过这些实践来优化资源使用效率,降低系统故障风险,并提高整体服务质量。
41 0
|
1月前
|
弹性计算 运维 监控
高弹性、高可用、低成本的云上资源管理最佳实践
阿里云弹性计算团队十三位产品专家和技术专家共同分享云上运维深度实践,详细阐述如何利用CloudOps工具实现运维提效、弹性降本。
271 0
|
1月前
|
弹性计算 运维 监控
带你读《云上自动化运维宝典》——高弹性、高可用、低成本的云上资源管理最佳实践(1)
阿里云弹性计算技术专家高庆瑞主讲《高弹性、高可用、低成本的云上资源管理最佳实践》。
292 0

热门文章

最新文章