一文看完“阿里云自动化运维沙龙·上海专场”整场干货

本文涉及的产品
系统运维管理,不限时长
资源编排,不限时长
简介: 与20位阿里云技术大牛面对面是一种什么体验?

Infrastructure as Code(IaC,基础设施即代码)、云原生、DevOps……云计算时代,运维领域的新鲜技术层出不穷,也推动了各企业自动化运维的进程。一群运维人聚在一起会擦出什么火花?

1.jpg

12月19日,由阿里云开放平台、弹性计算和阿里云MVP联合举办的“阿里云自动化运维沙龙(上海专场)”在西岸人工智能中心阿里巴巴园区如期举行,多家知名企业的运维同学主动报名参与,现场共计60多位各企业的技术负责人/CTO、运维总监和运维工程师参与了活动。

阿里云弹性计算和开放平台团队近20位技术专家来到现场,聚焦在运维领域近年比较火热的基础设施即代码的理念,分享和介绍了多种资源编排服务,包括开源的第三方资源编排工具Terraform、还有阿里云自研的自动运维编排服务OOS和自动化资源编排服务ROS,并跟现场的运维人一起交流一线经验。

阿里云基础设施自动化运维能力一览

阿里云的弹性计算(ECS)与阿里云开放平台OpenAPI服务可能是一线用户接触最多产品和服务,前者是上云的“标配”,后者则是很多运维人员用来调用阿里云底层能力的方式。不过,很多人也许没有意识到,阿里云提供了全链路的自动化运维能力。

阿里云开放平台产品专家郑清照,为大家系统性地介绍了阿里云基础设施的自动化运维能力。

DSC02226.JPG

针对企业上云过程的特点和诉求,阿里云开放平台已累计对外开放了覆盖100+款云产品的10000+OpenAPI,和一系列围绕OpenAPI开发和集成的工具体系,同时提供企业IT治理产品体系,涵盖一整套人、财、物、权、法的管理能力。作为阿里云“被集成”战略的基石,阿里云开放平台不断深入耕耘OpenAPI、身份、权限、资源管理、审计等产品服务,覆盖阿里云所有客户上云、用云和管云全链路场景,帮助企业级客户快速上云并完成云上管理。

2.png

围绕企业使用云服务器的全生命周期,阿里云ECS也推出了一系列的自动化运维服务套件。阿里云弹性计算产品专家马小婷将相关能力分成了两类:一类是提供给运维人员使用的自动化运维工具,包括帮助企业一键迁云的服务器迁移中心SMC、实现自动化部署的资源编排ROS、管理弹性容量的弹性伸缩ESS和弹性供应组APG,以及支持企业日常运维自动化的运编排OOS和远程管理的云助手。另一类则是高度自动化的管家套件,用户甚至不需要自己动手,这些管家套件就自动完成问题的诊断与修复、主动提供资源和稳定性评估等,给出建议。

3.jpg

Terraform帮助客户实现99%运维自动化

在企业上云之后,需要对资源和应用的全生命周期进行持续管理,包括云产品的开通、账号体系的搭建、网络环境与业务架构的搭建与持续管理,还有应用的上云等,每一步都需要数个步骤。

如何管理这些资源呢?阿里云提供了控制台、OpenAPI和编排服务等或简单、或自动化程度高的选项,来给个人或企业用户使用。

4.jpg

Terraform是什么?

阿里云开放平台专家萧竹在沙龙现场为大家介绍了基于Terraform的资源编排服务,Terraform 是一款经典的 IaC 自动化资源编排工具,而阿里云作为全球第三大云服务提供商,terraform-alicloud-provider 已经支持了超过 240 个 Resource 和 Data Source,覆盖计算、存储、网络、容器等 50 多个服务和云产品,并提供 100+ Terraform Module,并且吸引到越来越多的开发者加入到阿里云 Terraform 生态的建设中。

该服务背后基于的正是Infrastructure as Code(基础设施即代码)的理念,需要有一定的编程基础,但可以实现高度的自动化。

5.jpg

Terraform工作流助力企业云上IT治理样板间落地

Terraform作为一个支持多云管理的开源工具,被众多企业使用。初创企业、标准企业和集团企业分别面临着不同的云上治理痛点,阿里云开放平台所推出的Terraform工作流,针对不同自动化管理云资源的痛点,有着匹配的核心功能可以对症下药,帮助企业们以最低的门槛使用强大的编排能力。萧竹现场演示了企业云账号系统的自动化搭建—1号样板间,实际演示企业从云账号基础操作、安全加固、RAM配置、网络配置这些云账号初始化阶段流程和操作。

6.jpg

随后,西门子和联蔚,分别以客户与合作伙伴的身份,分享了使用阿里云Terraform的经验,以及如何利用Terraform实现管理与治理。

7.jpg

西门子自研的工业物联网云MindSphere仅用了一年就在中国上线,背后离不开阿里云基础设施的支持。一开始,西门子要20个人用2天在一个会议室里闭关将服务推上线,实现了自动化之后,2个人花1小时即可上线。西门子表示,在这个过程中,对他们帮助最大的就是Terraform,帮助他们实现了99%云上运维自动化管理。

从人工到自动,阿里云ROS帮助泛微实现高效部署
除了开源的编排工具Terraform,阿里云也自研了一系列工具。阿里云高级技术专家赵昱在沙龙现场跟大家分享了相关的阿里云自研的自动化运维套件。

8.jpg

云上运维的四大挑战

随着云计算的普及和发展,越来越多的企业选择上云。大多数企业遇到的云上运维问题比较类似。赵昱总结,主要是来自以下四个方面:

  • 规模:传统的HumanOps和写脚本的管理方式,随着业务的发展不再管用。云上资源管理和运维的复杂度指数级上升。
  • 安全:数据和资源是公司的资产,运维权限过大、增加失误风险,权限过小、增加管理成本。如何安全地使用云账号和资源为管理者带来极大的挑战。
  • 效率:如何高效地管理运维、提升研发人员的效率,也是云上运维必须思考的问题。
  • 成本:资源使用人员和财务人员,希望能够提供不同维度的资源使用账单,以便为成本优化举措提供依据。

云上自动化运维三剑客

针对这些挑战,赵昱介绍了“云上自动化运维三剑客”:资源编排ROS、弹性伸缩ESS和运维编排OOS,分别帮助ECS用户进行自动化的交付部署、容量管理和日常运维。

这三剑客,在阿里内部的重要场合,往往发挥出不俗的实力。例如,弹性伸缩不仅全面支撑了天猫双十一大促前定时扩容的大量云服务器,而且及时响应大促时临时激增的几十万台云服务器,完美完成天猫双十一All in Cloud的任务。

疫情期间,钉钉作为很多企业首选在线办公软件,用户量激增,钉钉使用资源编排ROS做集群部署,使用运维编排OOS做资源运维,效率百倍提升,成功在4天内扩容10万台云服务器。

9.jpg

赵昱在现场演示了使用这三剑客的五个场景:从零构建云上的DevOps环境,环境部署、弹性扩缩容、持续构建、定时和告警运维等自动化运维实践。

阿里云助力泛微实现运维自动化

沙龙还邀请到了阿里云的合作伙伴,OA领域的知名企业泛微的运维总监刘超到现场分享。

10.jpg

他表示,业务的增加让泛微的交付难题更为凸显。从前,泛微在部署交付软件给客户时,需要一位运维工程师驻场一天,专门服务客户。高峰时期,泛微最多有6位部署同学专门为客户部署软件。

后来,泛微通过ROS编排,实现了标准化部署,原来需要一人一天处理的交付部署工作,变成无需人工、2小时完成部署。

他回忆,4年间,泛微在云上的客户已经从10几家(占0.037%)增长到了1000多家(占2.75%)。但这仅仅只是开始,因为在这1000位客户中,只有100客户是从线下搬到云上,存量线下用户还有30000多家。未来,更多企业将全面拥抱云。

企业相互交流,分享自动化运维最佳实践

在互动交流环节,场下各个企业的大咖们开启了热烈的讨论,开启自动化运维能力自查、吐槽日常工作中的坑、分享好用的经验。最终,几个小组一起产出了六大最佳实践,并在现场跟大家分享。

11.jpg
12.jpg

本次上海专场,是阿里云自动化运维沙龙的第一站,也是阿里云开放平台俱乐部第二期、由弹性计算、开放平台和阿里云MVP合办。与会者纷纷表示获益匪浅,也认识到了许多业内的资深人士,对日后工作将有很多帮助。未来,阿里云还会在更多城市,继续举办各地专场,为运维人提供一个平等交流、相互学习的平台。

*文章来源:阿里云开放平台

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
1月前
|
机器学习/深度学习 人工智能 运维
构建高效运维体系:从自动化到智能化的演进
本文探讨了如何通过自动化和智能化手段,提升IT运维效率与质量。首先介绍了自动化在简化操作、减少错误中的作用;然后阐述了智能化技术如AI在预测故障、优化资源中的应用;最后讨论了如何构建一个既自动化又智能的运维体系,以实现高效、稳定和安全的IT环境。
65 4
|
1月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
52 4
|
7天前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####
|
16天前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在故障预测和自动化响应中的应用
智能化运维:机器学习在故障预测和自动化响应中的应用
41 4
|
1月前
|
运维 jenkins 持续交付
自动化部署的魅力:如何用Jenkins和Docker简化运维工作
【10月更文挑战第7天】在现代软件开发周期中,快速且高效的部署是至关重要的。本文将引导你理解如何使用Jenkins和Docker实现自动化部署,从而简化运维流程。我们将从基础概念开始,逐步深入到实战操作,让你轻松掌握这一强大的工具组合。通过这篇文章,你将学会如何利用这些工具来提升你的工作效率,并减少人为错误的可能性。
|
1月前
|
存储 运维 Cloud Native
阿里云国际CloudOps的优势和云上运维的特点
阿里云国际CloudOps的优势和云上运维的特点
|
1月前
|
运维 Prometheus 监控
运维中的自动化实践每月一次的系统维护曾经是许多企业的噩梦。不仅因为停机时间长,更因为手动操作容易出错。然而,随着自动化工具的引入,这一切正在悄然改变。本文将探讨自动化在IT运维中的重要性及其具体应用。
在当今信息技术飞速发展的时代,企业对系统的稳定性和效率要求越来越高。传统的手动运维方式已经无法满足现代企业的需求。自动化技术的引入不仅提高了运维效率,还显著降低了出错风险。本文通过几个实际案例,展示了自动化在IT运维中的具体应用,包括自动化部署、监控告警和故障排除等方面,旨在为读者提供一些实用的参考。
|
1月前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在故障预测和自动化响应中的应用
【10月更文挑战第1天】智能化运维:机器学习在故障预测和自动化响应中的应用
67 3
|
1月前
|
机器学习/深度学习 运维 监控
构建高效运维体系:从自动化到智能化的演进之路
在当今数字化时代,运维工作的重要性日益凸显。随着企业业务的不断扩展和技术的日新月异,传统的运维方式已难以满足现代企业的需求。因此,构建一个高效、智能的运维体系成为了企业发展的关键。本文将探讨如何从自动化逐步演进到智能化,以实现运维工作的高效化和智能化。
|
1月前
|
机器学习/深度学习 运维 监控
构建高效运维体系:从自动化到智能化的演进之路
在当今数字化浪潮中,运维作为信息技术的重要支柱,其重要性日益凸显。本文将探讨如何通过自动化和智能化手段,提升运维效率,保障系统稳定性,促进业务持续发展。