带你读《云上自动化运维宝典》——一文读懂云上大规模资源管理的最佳实践(1)

简介: 带你读《云上自动化运维宝典》——一文读懂云上大规模资源管理的最佳实践(1)

为了更好地帮助用户在借助DevOps工具缩短开发周期、提升业务效率的同时,也能让业务保持稳定、安全、可靠,且低成本地持续运营,阿里云弹性计算团队独家出品的【弹性计算技术公开课_CloudOps云上运维季】正式启动。阿里云弹性计算团队十三位产品专家和技术专家共同分享云上运维深度实践,详细阐述如何利用CloudOps工具实现运维提效、弹性降本。该系列共10节直播课程,在阿里云官网、阿里云微信视频号、CSDN官网、阿里云钉钉视频号、阿里云开发者微信视频号同步播出,本次课程由战略合作媒体CSDN独家支持。

 

CloudOps云上运维系列课程第七节由阿里云弹性计算高级技术专家林小平主讲《云上大规模资源管理最佳实践》,点击下方链接进入【CloudOps云上运维】课程专题页即可观看课程回放,还可了解最新课程资讯。

 

CloudOps云上运维:https://developer.aliyun.com/topic/ecs-cloudops

 

以下内容根据林小平的课程整理而成,供阅览:

 

我们通常认为企业上云以发展优先、业务优先,但当企业发展到一定阶段时,就会产生管理诉求。业务的运作模式从“花钱买效率”到“管理换效率”的管理模式的转变,效率是企业可持续发展的根基,也带来了对云上管理和治理的强烈诉求。企业所要面对的是从管理模式到业务模式的转换,是从管理模式到技术模式的融合过程,如何做好转换是本节课的主题,将从上云的过程看发展的问题。

 

企业的发展到一定阶段所要面临的管理诉求是不可避免的,是每个企业在发展不同阶段过关注问题不同。关于企业的特点的描述有规模大、管理诉求高、资源多、发展快等等,这些关键字也说明了企业在发展的过程当中所面临的问题。如何帮助企业将内部的管理模式和云上的资源管理相结合,实现可执行、可复制的实践落地方案是本节课的主题,本节课将从以下四个方面来进行介绍。

 

image.png

 

首先,从不同的管理模式下企业所要面临的管理问题,介绍企业在上云发展过程中大规模的资源转换面临的问题;其次,学习企业管理视角与业务视角转换的落地方案,这部分将会从设计、检索、规范三个模块进行介绍;再次,就企业资源管理视角下的最佳实践场景:如何解决安全分账、自动化运维的案例进行介绍,从几个典型的业务场景说明资源管理的最佳实践,即如何应对资源管理转换后的模型满足企业的日常工作的需要;最后,介绍对大规模资源管理实践,总结通过本次学习可以带走的最佳实践。

1. 企业大规模资源管理面临问题:不同管理模式下的问题

前面的内容中曾讲到,企业发展到了一定的阶段会存在管理的强烈诉求,这是企业在发展过程中需要进行思考、转变以及大规模的资源管理实践落地的根本原因,我们需要深入地了解企业大规模管理实践的挑战。

1) 企业大规模资源管理挑战

 

image.png

首先,从云下到云上的视角来说,企业的内部管理和云上的连接不足。就如,企业是利用部门来进行人、财、物管理的,但云上是用产品来进行管理的,两者存在差异,如何更好地把部门管理和云上的资源管理进行连接,这是企业大规模资源管理的挑战之一。

 

其次,企业的管理视角不同。在不同管理模式下,需要不同的资源管理视角。如管理者希望看到不同的资源管理视角,包括部门成本情况、人效情况,而项目管理者则希望看到每个项目、每个人的人效情况,那么如何实现种多视角的管理也是企业大规模资源管理挑战之一。

 

再者,不同的角色需要差异化管理,如财务人员需要财务视角,运维人员需要运维视角,技术人员需要技术视角。如何在不同的视角下进行资源管理同样是企业大规模资源管理挑战之一。

 

最后,基于云上资源具有本身种类多、分布广、产品多、难管理等特点,也就形成了资源规模资源管理的难点。

 

面对资源管理的挑战,从企业的资源管理模式研究企业大规模管理问题。

2) 企业资源管理模式

从企业的资源管理模式来说,它分为运维管理模式和财务管理模式。

 

image.png

1)运维管理模式

 

不同的企业管理方式不同,这与企业当下的管理成熟度有关,管理成熟度越高的企业所需的管理越精细。

 

①分散管理分散运维:也就是说企业没有管理,每个人自管自用,即分散管理分散运维模式。它往往是初创企业选择的管理模式,因为其处于业务优先阶段,是发展的选择。

 

②集中管理集中运维:当企业发展到一定阶段,开始会意识到无管理会存在巨大的风险,如不合规、没有流程、无法把控等等,此时则会产生管理需求。首先,进行职责分离,这就诞生了集中管理和集中运维模式。这种模式下,资源对于管理者来讲“只管不用”,对于使用者来讲“只用不管”。但是集中管理模式会存在较大的挑战,因为其必须要由集中管理模式来管理整个资源的生命周期,而当规模、业务发展得越来越大的时候,集中管理模式就会成为“瓶颈”,相应的企业管理就会面临越来越大的压力和挑战。这种与日俱增的压力和挑战可以解决风险问题,但也会阻碍企业的发展,包括集中管理团队经常要负责的成本管理、身份管理、服务管理、安全合规管理、审计管理、资源管理等等,此时,则要考虑管理和效率的平衡,也就到了精细的管理阶段。

 

③集中管理分散运维:原本资源的创建、使用、分配等一系列的日常管理工作直接交付给项目和业务单元自行管理,同时,集中管理团队又有抓手和评估每个业务单元现在最急迫的业务问题。这样就可以提升企业的效率,即集中管理分散运维的管理模式。

 

企业的资源管理分类要适配企业的发展阶段,并无绝对的好坏之分,而是企业发展到某个阶段,使用更精细的方式实现管理和效率之间的平衡。

2)成本管理模式

从财务视角,在从云下到云上的过程中,是从计划经济到按需经济的模式转换。没有了预算枷锁管理的模式也让财务头疼不已,先用后买的模式带来了效率,带来了更好的弹性,也使得业务快速发展,但企业的财务也失去了管控权。

 

在传统行业的财务管理模式下,要购买机器,财务会先批复预算,在得到资金批复之后方可购买;而在云上购买则是按需购买,在财务的管理过程中只能被动支付以不影响业务的延续性。如何让企业经营得更好,如何从被动付款到看清费用,再到优化成本,这是是企业在成本发展过程中的关注点。

 

首先,需要看清成本,即了解每个部门使用的资金数额及资金用途,即企业内部多个业务团队使用资源的情况,那么IT部门的负责人需要把成本分摊到责任人的成本中,使得每一笔资金都记录清晰。任何一笔较大数额的资金在内部结算不清楚,都会导致企业经营面对非常大的挑战。

 

如经典的showback模式和chargeback模式。关于showback模式,企业的管理者们需要了解每一笔账目按照部门的核算情况,其关注的是核算以后是否符合预期,这种模式没有预算和独立过核算的要求,而chargeback模式下,企业的管理者不仅要review每个部门的情况,还要各个部门独立地进行成本的计费、核算和预算的管理。

3) 云上资源管理的问题

随着企业在不同阶段、运维管理模式以及成本管理模式的发展,再来探讨云上在资源大规模的资源管理过程中会遇到的问题,如下图所示:

 

image.png

这里的问题更直接、更具体,即在不同的角色关注的问题也不同。

 

如运维人员会关注业务应用如何与云上资源快速对应;如何快速找到对应的资源;如何适配快速的检索能力,而检索能力是基础,只有具备快速的检索能力才能帮助运维人员更好地进行运维。在检索过程中,不只要找某个云产品下的资源,更要找的是与业务相关的属性检索。如对于某个项目,其中某责任人对于该项目资源成本的情况。如何保障资源持续、高效、可治理?其中“治理”是第一步,但在整个管理过程中“持续”非常重要,如何持续治理、保证存量可治理、增量可保障的问题是治理的目的,即为了更安全、更便捷、更自动化地使用资源。

 

在日常管理过程中,我们需要安全地使用资源,那如何设置更精细的管理权限来保障资源在使用过程当中足够的安全以及权限足够的可控?在自动化的过程当中,如何实现云上的自动化的运维能力?从财务的视角来说,如何识别资源和资金的关系?这是财务人员最关注的事项之一。怎样把成本分摊到责任人?怎么帮助企业更好更有效地查看云上的成本情况?在看重“先用后买”模式带来的效率和弹性的同时,也要帮助企业更高效地使用云,这也是财务人员的关注点。

 

接下来,就目前存在的这些问题学习大规模的资源管理实践中这些问题相应的解决方案。


更多精彩内容,欢迎观看:

带你读《云上自动化运维宝典》——一文读懂云上大规模资源管理的最佳实践(2):https://developer.aliyun.com/article/1405348

相关文章
|
2月前
|
运维 Prometheus 监控
OceanBase 的运维与监控最佳实践
【8月更文第31天】随着分布式数据库解决方案的需求日益增长,OceanBase 作为一种高性能的分布式数据库系统,在众多场景下得到了广泛应用。为了确保 OceanBase 集群的稳定运行,合理的运维与监控是必不可少的。本文将探讨 OceanBase 的日常运维管理与监控策略,并提供相应的代码示例。
64 2
|
15天前
|
运维 云栖大会
运维管理新品发布与最佳实践 | 2024云栖大会预告
运维管理新品发布与最佳实践 | 2024云栖大会
|
4月前
|
运维 监控
如何使用OOS有效进行云上自动化运维
OOS(运维编排服务)是一种云上自动化运维工具,可以帮助你有效进行云资源的管理和维护。以下是如何使用OOS有效进行云上自动化运维的一些建议: 1. **利用自动化能力**:OOS提供了批量操作、
|
2月前
|
存储 运维 监控
数据库服务器运维最佳实践
【8月更文挑战第22天】
46 2
数据库服务器运维最佳实践
|
2月前
|
缓存 运维 监控
打造稳定高效的数据引擎:数据库服务器运维最佳实践全解析
打造稳定高效的数据引擎:数据库服务器运维最佳实践全解析
|
3月前
|
运维 监控 安全
云上智能监控:引领未来安防与运维的新纪元
通过智能视频分析技术自动识别违章行为(如闯红灯、超速等)并触发报警机制。同时结合交通流量监测和信号灯控制功能实现交通流量的优化和拥堵缓解。 智能零售监控:在零售行业中云上智能监控可以应用于店铺的客流统计和商品管理。
|
3月前
|
人工智能 运维 自然语言处理
|
3月前
|
运维 监控 Serverless
探索Serverless高可用架构:云上极简运维的新篇章
随着云计算的快速发展,Serverless 架构因其无需管理服务器、按需自动扩展等优势,逐渐成为企业应用构建的重要选择。阿里云提供的 Serverless 高可用架构解决方案,通过结合多种云服务,提供了强大的高可用性和自动化运维能力。本文将评测阿里云 Serverless 高可用架构的核心功能、优势及其应用场景,帮助读者更好地理解和使用这一解决方案。
|
3月前
|
运维 监控 安全
云上智能运维:重塑IT运维的未来图景
深度学习等技术实现更加精准的故障预测和性能优化。同时,随着云计算技术的不断成熟和普及,云上智能运维将实现更加灵活、高效的资源管理和服务交付。此外,随着安全技术的不断发展和完善,云上智能运维将更加注重数据安全和隐私保护,为企业提供更加安全可靠的运维服务。
|
3月前
|
运维 Prometheus 监控
「架构」云上自动化运维及其应用
企业在云上采用自动化运维,通过Prometheus+Grafana实现监控,Ansible进行配置管理,Jenkins+GitLab+SonarQube支持CI/CD,提升效率,降低成本。关键指标包括系统可用性、故障恢复时间等。通过自动化监控、配置管理和持续集成/部署,保证服务稳定性,促进快速迭代,确保市场竞争力。持续改进与培训是维持领先的关键。
59 0
下一篇
无影云桌面