巧用Terraform和Packer开源工具完成云上自动运维

本文涉及的产品
传统型负载均衡 CLB,每月750个小时 15LCU
应用型负载均衡 ALB,每月750个小时 15LCU
网络型负载均衡 NLB,每月750个小时 15LCU
简介: 2017年在线技术分会——运维/DevOps在线技术峰会上,来自阿里云的黎山分享了利用开源DevOps工具完成云上的自动运维的实践。她首先通过对5个应用场景的分析引出了“自动化能自动化的一切”的理念。然后介绍了使用Terraform和Packer开源工具完成云上自动运维的具体实现过程。

2017年在线技术分会——运维/DevOps在线技术峰会上,来自阿里云的黎山分享了利用开源DevOps工具完成云上的自动运维的实践。她首先通过对5个应用场景的分析引出了“自动化能自动化的一切”的理念。然后介绍了使用Terraform和Packer开源工具完成云上自动运维的具体实现过程。最后对多工具组合案例进行了分享。

 

以下内容根据直播视频整理而成。

 

云计算的特点是开箱即用,可以随时扩缩容,不用考虑硬件的损坏问题,而且有丰富的云平台和云产品供选择。

应用场景分析

应用1

a0c7ba83fdc86264351cfef675dba10cc3ea2bd8

某应用1,为了增大吞吐率,做了流量均衡处理、扩大并发数、缩短延迟,选择了将两台ECS挂在一个SLB基础设施上的组合。要实现上述架构需要进行以下八个步骤来完成基础设施的构建:创建ECS、创建安全组、添加安全组规则、创建SLB、添加后端服务器、配置监听端口、配置会话保持、添加健康检查。

应用2

83d40633b6269a2aaa3b1a466094269c2a0b5acd

应用2的特点是需要做网络隔离,需要将其整个的应用架构搭在VPC网络内,同时有对外网络访问的需求,同时也有应用对外提供服务。所以,整个的架构是VPC下面有两个子网,通过NAT网关和共享带宽包提供对外请求,然后通过负载均衡提供入网能力。要实现以上架构需要七个步骤:创建VPC、创建VSWITCH、创建NAT网关、新建共享带宽包、创建ECS、创建SLB、创建SNAT、挂载SLB。

应用3

5296b30825ca85d8d762664a1fbe44ecfac0af49

应用3与应用2的基础设施要求一样。此时需要按照固定流程手工再做一次重复的工作。由于人员流动,文档不全,会导致接手的人需要几天的时间熟悉环境及各种配置。

应用4

20b7902ad267a557a03f61bb5a6e44e98d5c2a2f

随着应用的增加,ECS、SLB等资源也在增加,希望通过“打标签”区分哪些资源属于哪些应用,将资源按照应用分组。此时需要找到资源和应用的对应关系,再把每个资源都打上标签。

应用5

bc9dd2c69a48d025cfd96a8e7a93372a3e6282c5

应用2深受市场欢迎,流量暴增,需要增加ECS以承载更多的并发和访问量,需要扩容一台与线上应用一致的ECS,挂载到SLB上。此时,需要四步来完成上述任务:将应用的ECS打快照、生成镜像、基于此镜像创建ECS、添加到SLB。

通过以上场景分析,我们发现操作流程是有序可循的,配置是固定的。如果全部由手工操作来完成的话,效率低、时间长,可能导致错误,变更不能回滚,过程没有历史记录,过程不能审计(不知道是谁做了什么样的操作)。解决上述问题的方法是自动化。

自动化能自动化的一切

d61010b8e4701b93877c923be0dbdbd6e2465300

上图有三条主线,第一条是利用Packer去生成镜像,自动存储在镜像列表中,用Terraform去自动创建更新或者销毁这些基础设施。在创建ECS的时候可以选择Packer创建出来的镜像ID,同时在运行期可以使用Ansible去管理这些基础设置或者管理ECS上面的应用。

针对场景5的IaC思路

7211509d668b3e102496021e72b3bcf708330d6a

场景5的需求是扩容一台与线上应用一致的ECS。具体的操作流程是利用Packer去创建镜像,把提供服务的应用打到镜像中,用Terraform去创建ECS及其他资源,创建ECS的时候选择Packer打出来的ID。变更的时候只需要修改Terraform的模板,把ECS变量的参数加1。

Terraform/Packer介绍

5a0cf414c29bf3db306e9a110e00ebb91f3ae489

他们属于HashiCorp家族。他们具有两大特点:支持多平台,开源。

Terraform

257fe4e5e9a61bae20882d093396e801e4548f06

Terraform的安装如上图所示。

0eb54221128269c5fd893b310f085e668df302f5

上图是Terraform的一个模板,其最重要的是resource,其后有两个字串(资源名称是固定的,别名可自定义)。安全组规则中,alicloud_security_group_role是固定的,可以定义安全组的出网入网规则、端口、规则作用的安全组、指定网段。对于ECS实例,可以指定instance的name、镜像ID、实例类型、创建的数量(count)、ECS的安全组、收费类型、带宽、是否IO优化、是否分配公网IP、可用区、实例的收费类型、系统盘类型等。SLB同样可以指定name、收费类型等。SLB挂载定义了SLB和instance的主要参数。

Terraform最重要的三个命令是plan、apply和destroy,plan命令会在执行之后看到参数的所有值以及要创建哪些资源,如果没有问题的话就执行apply去真正创建这些资源,可以通过destroy做销毁。

ef5b8735bb6a9c934dd5a0b06ff40508d49b13ce

上图是VPC集群的资源拓扑图,从下往上有VPC、VSWITCH,有安全组的规则作用在安全组上,VSWITCH下有两个实例,即别名worker的ECS实例和别名为master的ECS实例。eip绑定在别名为master的实例上,自定义路由的下一跳指定的是别名为master的实例。

Packer

285642ff87ede886ac1275874e25293ef91d6869

Packer主要的思想是通过模板来定义一些内容然后创建镜像。在此过程中,Packer支持基于创建阿里云基础镜像创建镜像,以及基于自定义镜像创建镜像,会根据模板定义自动创建经典网络ECS或者是VPC网络的ECS。在ECS之上安装相关的应用,并把ECS打一个快照,根据快照生成镜像,当镜像创建完成之后释放掉过程中创建过的资源,最后还可以做进一步的操作,比如弹性伸缩、共享镜像、复制镜像。

e81253f47f0f439bd4f7bc144acca91648011d61

上图是Packer的典型模板,最重要的是builders和provisioners。builders的type决定镜像的用处,provisioners里面定义镜像要做的任务。

多个工具组合案例

案例1

627a841d8d4835c9b0f6e3b106adc3f520826a0a

可以利用Packer制作镜像,生成镜像ID,然后用Terraform的模板指定镜像ID,创建ECS,这个ECS就自带了所要提供应用的服务。这种方案的好处是一次制作、重复利用,免去每次创建机器、安装服务的重复过程。

案例2

35608ae615a45934456efdcd5f7fdc7ace23a164

可以利用Packer把应用打在镜像中,通过ESS做伸缩,可以用Terraform创建ESS的模板做弹性伸缩。很多用户做弹性伸缩的过程中很麻烦的一点是在最初的时候ECS所用的镜像是基础镜像(只有一个操作系统的镜像),那么弹出来的机器是不能提供服务的实例,结合Packer则可以解决这个问题。

案例3

418645c981125766d0dbac3da51753ee89909c04

将Terraform和Ansible做结合。Terraform在执行完成之后会在本地生成一个tfstate文件,利用开源插件Terraform Inventory可以通过tfstate生成Ansible Inventory(用来做机器分组)。Ansible可以通过读Inventory文件对指定的分组做管理或应用配置。

总结

前面的思想可以归纳为一句话:自动化能自动化的一切。其优点是:用代码描述基础设施的创建、变更、销毁;代码编写好,验证也是正确的,之后每次执行任务都不会出错;非常快速,高效;代码代替文档,有历史记录,可回滚,不用担心文档更新不及时或人员流动带来的“黑盒”问题;不用通过访问生产环境,就能知道生产环境上的配置情况;提高整个团队的DevOps能力。

Reference

相关实践学习
快速体验PolarDB开源数据库
本实验环境已内置PostgreSQL数据库以及PolarDB开源数据库:PolarDB PostgreSQL版和PolarDB分布式版,支持一键拉起使用,方便各位开发者学习使用。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
PolarDB 开源基础教程系列 4 日常运维
PolarDB日常运维指南涵盖了多个关键操作,包括读写节点故障切换、增加只读节点、配置WAL日志归档、备份与恢复、创建容灾实例以及排查CPU负载高等。通过详细的步骤和代码示例,本文档帮助用户在本地环境中体验和学习PolarDB的高级功能,如共享存储架构下的集群管理。特别地,文档提供了如何使用`polar_basebackup`工具进行备份和恢复,确保数据安全;并通过`pg_stat_statements`插件定位慢查询,优化数据库性能。此外,还介绍了常见问题的排查方法,如业务量上涨或长时间执行的SQL语句导致的CPU高负载。更多内容和进阶课程可参考提供的GitHub链接和官方文档。
81 1
无需注册、零广告!开源免费的运维面板Websoft9如何提升云端管理效率?
本文对比分析了包括Websoft9在内的五款无广告、免注册的开源运维面板,探讨它们在阿里云ECS等场景下的最佳实践。文章详细解析了各工具的功能特点、部署方式及安全加固方法,并通过实际案例展示了其在跨境电商站群管理和物联网数据中台等场景的应用价值,为开发者提供了一份全面的选型指南。
47 3
GitHub 热门开源运维工具 Websoft9:如何实现服务器管理效率翻倍?
Websoft9 提供 200+ 开源应用一键部署,支持容器化隔离、GitOps 自动化和企业级安全防护,助力服务器管理效率提升 80%。
56 1
AIOpsLab:云服务自动化运维 AI,微软开源云服务 AI 框架,覆盖整个生命周期
AIOpsLab 是微软等机构推出的开源框架,支持云服务自动化运维,涵盖故障检测、根本原因分析等完整生命周期。
208 13
AIOpsLab:云服务自动化运维 AI,微软开源云服务 AI 框架,覆盖整个生命周期
运维联盟 SOMA 评测系统正式发布,让你的运维工具跑分更丝滑
通过对特定的业务系统进行故障注入,将不同的运维工具放在一起进行评估和评测。
🎉 WatchAlert - 开源多数据源告警引擎【运维研发必备能力】
WatchAlert 是一个开源的多数据源告警引擎,支持从 Prometheus、Elasticsearch、Kubernetes 等多种数据源获取监控数据,并根据预定义的告警规则触发告警。它具备多数据源支持、灵活的告警规则、多渠道告警通知、可扩展架构和高性能等核心特性,帮助团队更高效地监控和响应问题。项目地址:https://github.com/opsre/WatchAlert
🎉 WatchAlert - 开源多数据源告警引擎【运维研发必备能力】
云资源运维难?阿里云免费工具来帮忙
阿里云推出免费运维工具——云服务诊断,帮助用户提升对云资源的运维效率、降低门槛、减轻负担。其核心功能包括「健康状态」和「诊断」。通过「健康状态」可实时查看云资源是否正常;「诊断」功能则能快速排查网络、配置、安全等问题,并提供修复建议,助您迅速恢复业务。体验评测活动火热进行中,参与即有机会赢取索尼头戴耳机、小米背包等好礼。活动链接:https://developer.aliyun.com/topic/cloud-health。
727 24
自动化运维:从脚本到工具的演进之旅
在数字化浪潮中,自动化运维成为提升效率、保障系统稳定的关键。本文将探索自动化运维的发展脉络,从基础的Shell脚本编写到复杂的自动化工具应用,揭示这一技术变革如何重塑IT运维领域。我们将通过实际案例,展示自动化运维在简化工作流程、提高响应速度和降低人为错误中的重要作用。无论你是初学者还是资深专家,这篇文章都将为你提供宝贵的洞见和实用的技巧。
加速阿里云部署:Terraform在甄云科技的深度应用
甄云科技是一家领先的数字化采购平台服务商,通过Terraform实现全球云基础设施的高效管理与快速部署。公司成立于2017年,已服务全球30多个行业的中大型企业,客户遍布20多个国家和地区。利用IaC(基础架构即代码)理念和Terraform工具,甄云科技显著提升了开发与运维效率,减少了人为错误,加快了迭代速度,并支持业务快速扩展,为全球化战略提供了稳固的云基础架构支持。未来,公司将持续优化技术框架,回馈社区,助力更多企业的数字化转型。

热门文章

最新文章

推荐镜像

更多
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等