图:阿里云弹性计算管控平台技术负责人田涛涛
2021年10月22日,在云栖大会的《云上运维最佳实践》分论坛,阿里云弹性计算管控平台技术负责人田涛涛发表了主题为“云上运维新思维”的演讲,为大家阐述云上运维的新形态,以及阿里云弹性计算提供了哪些云上运维新能力。
以下是根据他的演讲整理成的文章,主要通过三个部分来介绍云上运维新思维。
- 云上运维的新形态
- 新产品
- 新能力
一、云上运维的新形态
在过去的十二年里面,阿里云弹性计算快速的成长,以ECS实例为中心,构建了强大的计算力,我们最近新发布的第四代神龙架构就是典型代表,同时围绕最中心的实例,我们构建了更好的弹性能力,从创建弹性到监控运维的全生命周期,来保证客户可以方便使用ECS和ECI。
随着越来越多企业开始在云上使用DevOps,我们发布了“三环“产品,里面有很多很熟悉的产品,比如资源编排、运维编排等。过去很多年,我们持续打造自动化运维能力,今天给大家汇报一下过去一年我们在自动化运维能力的进展,开源生态能力的建设,以及如何更好的支持其它开源的产品。
过去几年里,越来越多企业拥抱了DevOps之后,如何更好支持在云上做更好的运维,我们观察到以下四个方面的趋势:
- 第一,客户已经从传统资源视角到应用视角转变。
- 第二,应用的安全合规。
- 第三,问题诊断方面。
- 第四,开放兼容,体验一致开放。
二、新产品
今天的第一个新产品发布是Application Manager,它的使用非常简单。只需要选择导入已有的资源,将自己的服务变成应用。结合应用,我们就会自动化来生成,通过分组维度的运行状态,自动化监控报警以及通知。同时,我们还提供基于应用视角的分组维度的运维,可以一键完成代码编译到代码发布全过程。
除了应用管理之外,另外一个重要的发布是ECS Session Manager,可以更好地管控和运维通道。它可以实现无密码直接登录服务器,可以自定义用户界面,可以对连接记录及运行命令进行审计,操作过程非常的简单。
三、新能力
1、ECS Workbench新能力
ECS Workbench,在2018年年底发布的,现在大部分客户选择Workbench作为最佳的Web指令操作工作来替代传统的SSH或者RDP。今天发布了很多新能力:
- 第一,命令审计的能力,甚至对高风险命令进行拦截.它可以强制拒绝一些高危命令,高危操作以及安卓后门程序,都会通过实时模式拦截。
- 第二,我们也提供了录屏功能。只要开启录屏回放,所有记录都可以实时回放。
- 最后,我们结合Session manager,更加简化连接通道。
2、运维编排新功能
运维编排是我们提供的Pipeline(Ops) as Code的重要产品,今天我们继续发布一系列的增强能力:
- 配置清单。如果你有两台ECS,当注册表和配置参数不同的时候,做调优和排查时会非常难。所以,我们会做实时数据分析和计算,找出两台机器的配置参数差异,并且也可以通过配置清单做分布式的大规模机器的配置下发。
- 补丁管理。很多客户希望在补丁管理过程中做更好的定制,混合以及自定义开发。
- 参数管理。今天有很多命令和参数需要重复使用的,通过参数管理就可以把这些参数托管给阿里云。同时用户可以对参数加密,加密之后可以保证参数管理的过程是加密可信的。
3、TAG新功能
过去几年越来越多的客户都已经开始使用TAG来管理云上的资源,今天我们针对TAG的新功能再次做了升级。
- 统一API及控制台,对阿里云跨所有资源类资源进行标记时,支持通过统一API及控制台进行标签管理。
- 预置标签。这个标签只能查看,不能变更。如果需要变更,可以交给CSV及云产品来更改。这样可以方便做审计和跟踪。
- CreatedBy,通过CreatedBy创建主账号时,可以基于主账号、子账号、角色扮演等方式进行标签分账。
- 标签模板,基于标签使用场景配置,环境标签、组织标签、角色标签、成本标签、使用者标签等。
4、自助排障能力提升
自助排障能力是去年云栖大会发布的重磅能力,今年继续做了增强。去年我们的自主排障支持70多项能力,今天扩展并支持100多项能力。后台可以实时查找出来问题所在。今天着重讲的三个功能:安全组的诊断;实例在启动和停止时的诊断;网络全链路实时诊断。
通过我们的诊断会给你建议和方法,包括一些修复的策略,帮你自助完成整个生命周期的管理。同时我们也开放了API,可以结合自助诊断系统快速拿到结果。
5、Auto Scaling ECI
很多客户希望实现定制模式、报警模式。一方面可以简化自己的成本,另一方面可以简化自己的操作,实现自动化扩容。我们今天也发布了Auto Scaling ECI。我们成功实现了免运维、低成本以及丰富的伸缩模式。用户无需关心底层服务器,无需预先创建集群和维护集群,可以专注业务领域创新。它可以根据业务流量自动弹性伸缩,减少空置费用,可同时配置定时任务、报警任务、固定容量等多种模式。
6、云助手支持混合云
现在每天数以万计的客户,包括我们自己的CICD Build都是完全由云助手来实现的。云助手已经成为云上最重要的安全管控通道之一。现在云助手可以管理物理机,并且所有操作都是可审计、可追溯、可回放的。同时,你也可以把这个功能安装在其他云平台的服务器上,依然无缝的做管理。所以我们认为云助手将会是未来新的云的管理通道,它可能替换和简化云的思维和运维。
7、ROS支持Terraform
很多客户非常喜欢Terraform。Terraform是客户端运营,需要自己构建一套机器在客户端运营,如果出现问题也不能实时跟踪和演进。资源编排一直是阿里云最重要的载体,所以我们重磅发布ROS已经支持Terraform,并且该功能已经上线。可以直接将Terraform的脚本交给ROS执行和在客户端运行Terraform无差别,在实现这个功能时,我们会在这个过程中会做审计、追踪、实名验证,已经完全做到无缝的迁移。
从资源到应用上,我们发布了应用管理,极大简化运营操作;ECS实例清单,实时做参数的对比、验证的对比、更多的审计;我们也发布了ECI,像ECS一样非常极简;Session Manager,提供无密码管控通道,让运维更加安全。
我们相信云时代的运维将会有自己的特点。在新的云模式下如何更好做运维需要大家一起探索,让运维变得更简单,更智能,更自动化。
点击大会官网,观看田涛涛的精彩演讲视频。