Infrastructure as Code(IaC,基础设施即代码)、云原生、DevOps……云计算时代,运维领域的新鲜技术层出不穷,也推动了各企业自动化运维的进程。一群运维人聚在一起会擦出什么火花?
12月19日,由阿里云开放平台、弹性计算和阿里云MVP联合举办的“阿里云自动化运维沙龙(上海专场)”在西岸人工智能中心阿里巴巴园区如期举行,多家知名企业的运维同学主动报名参与,现场共计60多位各企业的技术负责人/CTO、运维总监和运维工程师参与了活动。
阿里云弹性计算和开放平台团队近20位技术专家来到现场,聚焦在运维领域近年比较火热的基础设施即代码的理念,分享和介绍了多种资源编排服务,包括开源的第三方资源编排工具Terraform、还有阿里云自研的自动运维编排服务OOS和自动化资源编排服务ROS,并跟现场的运维人一起交流一线经验。
阿里云基础设施自动化运维能力一览
阿里云的弹性计算(ECS)与阿里云开放平台OpenAPI服务可能是一线用户接触最多产品和服务,前者是上云的“标配”,后者则是很多运维人员用来调用阿里云底层能力的方式。不过,很多人也许没有意识到,阿里云提供了全链路的自动化运维能力。
阿里云开放平台产品专家郑清照,为大家系统性地介绍了阿里云基础设施的自动化运维能力。
针对企业上云过程的特点和诉求,阿里云开放平台已累计对外开放了覆盖100+款云产品的10000+OpenAPI,和一系列围绕OpenAPI开发和集成的工具体系,同时提供企业IT治理产品体系,涵盖一整套人、财、物、权、法的管理能力。作为阿里云“被集成”战略的基石,阿里云开放平台不断深入耕耘OpenAPI、身份、权限、资源管理、审计等产品服务,覆盖阿里云所有客户上云、用云和管云全链路场景,帮助企业级客户快速上云并完成云上管理。
围绕企业使用云服务器的全生命周期,阿里云ECS也推出了一系列的自动化运维服务套件。阿里云弹性计算产品专家马小婷将相关能力分成了两类:一类是提供给运维人员使用的自动化运维工具,包括帮助企业一键迁云的服务器迁移中心SMC、实现自动化部署的资源编排ROS、管理弹性容量的弹性伸缩ESS和弹性供应组APG,以及支持企业日常运维自动化的运编排OOS和远程管理的云助手。另一类则是高度自动化的管家套件,用户甚至不需要自己动手,这些管家套件就自动完成问题的诊断与修复、主动提供资源和稳定性评估等,给出建议。
Terraform帮助客户实现99%运维自动化
在企业上云之后,需要对资源和应用的全生命周期进行持续管理,包括云产品的开通、账号体系的搭建、网络环境与业务架构的搭建与持续管理,还有应用的上云等,每一步都需要数个步骤。
如何管理这些资源呢?阿里云提供了控制台、OpenAPI和编排服务等或简单、或自动化程度高的选项,来给个人或企业用户使用。
Terraform是什么?
阿里云开放平台专家萧竹在沙龙现场为大家介绍了基于Terraform的资源编排服务,Terraform 是一款经典的 IaC 自动化资源编排工具,而阿里云作为全球第三大云服务提供商,terraform-alicloud-provider 已经支持了超过 240 个 Resource 和 Data Source,覆盖计算、存储、网络、容器等 50 多个服务和云产品,并提供 100+ Terraform Module,并且吸引到越来越多的开发者加入到阿里云 Terraform 生态的建设中。
该服务背后基于的正是Infrastructure as Code(基础设施即代码)的理念,需要有一定的编程基础,但可以实现高度的自动化。
Terraform工作流助力企业云上IT治理样板间落地
Terraform作为一个支持多云管理的开源工具,被众多企业使用。初创企业、标准企业和集团企业分别面临着不同的云上治理痛点,阿里云开放平台所推出的Terraform工作流,针对不同自动化管理云资源的痛点,有着匹配的核心功能可以对症下药,帮助企业们以最低的门槛使用强大的编排能力。萧竹现场演示了企业云账号系统的自动化搭建—1号样板间,实际演示企业从云账号基础操作、安全加固、RAM配置、网络配置这些云账号初始化阶段流程和操作。
随后,西门子和联蔚,分别以客户与合作伙伴的身份,分享了使用阿里云Terraform的经验,以及如何利用Terraform实现管理与治理。
西门子自研的工业物联网云MindSphere仅用了一年就在中国上线,背后离不开阿里云基础设施的支持。一开始,西门子要20个人用2天在一个会议室里闭关将服务推上线,实现了自动化之后,2个人花1小时即可上线。西门子表示,在这个过程中,对他们帮助最大的就是Terraform,帮助他们实现了99%云上运维自动化管理。
从人工到自动,阿里云ROS帮助泛微实现高效部署
除了开源的编排工具Terraform,阿里云也自研了一系列工具。阿里云高级技术专家赵昱在沙龙现场跟大家分享了相关的阿里云自研的自动化运维套件。
云上运维的四大挑战
随着云计算的普及和发展,越来越多的企业选择上云。大多数企业遇到的云上运维问题比较类似。赵昱总结,主要是来自以下四个方面:
- 规模:传统的HumanOps和写脚本的管理方式,随着业务的发展不再管用。云上资源管理和运维的复杂度指数级上升。
- 安全:数据和资源是公司的资产,运维权限过大、增加失误风险,权限过小、增加管理成本。如何安全地使用云账号和资源为管理者带来极大的挑战。
- 效率:如何高效地管理运维、提升研发人员的效率,也是云上运维必须思考的问题。
- 成本:资源使用人员和财务人员,希望能够提供不同维度的资源使用账单,以便为成本优化举措提供依据。
云上自动化运维三剑客
针对这些挑战,赵昱介绍了“云上自动化运维三剑客”:资源编排ROS、弹性伸缩ESS和运维编排OOS,分别帮助ECS用户进行自动化的交付部署、容量管理和日常运维。
这三剑客,在阿里内部的重要场合,往往发挥出不俗的实力。例如,弹性伸缩不仅全面支撑了天猫双十一大促前定时扩容的大量云服务器,而且及时响应大促时临时激增的几十万台云服务器,完美完成天猫双十一All in Cloud的任务。
疫情期间,钉钉作为很多企业首选在线办公软件,用户量激增,钉钉使用资源编排ROS做集群部署,使用运维编排OOS做资源运维,效率百倍提升,成功在4天内扩容10万台云服务器。
赵昱在现场演示了使用这三剑客的五个场景:从零构建云上的DevOps环境,环境部署、弹性扩缩容、持续构建、定时和告警运维等自动化运维实践。
阿里云助力泛微实现运维自动化
沙龙还邀请到了阿里云的合作伙伴,OA领域的知名企业泛微的运维总监刘超到现场分享。
他表示,业务的增加让泛微的交付难题更为凸显。从前,泛微在部署交付软件给客户时,需要一位运维工程师驻场一天,专门服务客户。高峰时期,泛微最多有6位部署同学专门为客户部署软件。
后来,泛微通过ROS编排,实现了标准化部署,原来需要一人一天处理的交付部署工作,变成无需人工、2小时完成部署。
他回忆,4年间,泛微在云上的客户已经从10几家(占0.037%)增长到了1000多家(占2.75%)。但这仅仅只是开始,因为在这1000位客户中,只有100客户是从线下搬到云上,存量线下用户还有30000多家。未来,更多企业将全面拥抱云。
企业相互交流,分享自动化运维最佳实践
在互动交流环节,场下各个企业的大咖们开启了热烈的讨论,开启自动化运维能力自查、吐槽日常工作中的坑、分享好用的经验。最终,几个小组一起产出了六大最佳实践,并在现场跟大家分享。
本次上海专场,是阿里云自动化运维沙龙的第一站,也是阿里云开放平台俱乐部第二期、由弹性计算、开放平台和阿里云MVP合办。与会者纷纷表示获益匪浅,也认识到了许多业内的资深人士,对日后工作将有很多帮助。未来,阿里云还会在更多城市,继续举办各地专场,为运维人提供一个平等交流、相互学习的平台。
*文章来源:阿里云开放平台