阿里云田涛涛:云上运维新思维

简介: 本篇内容分享了云上运维新思维,为大家阐述云上运维的新形态,以及阿里云弹性计算提供了哪些云上运维新能力。

封面-田涛涛.jpg

图:阿里云弹性计算管控平台技术负责人田涛涛


2021年10月22日,在云栖大会的《云上运维最佳实践》分论坛,阿里云弹性计算管控平台技术负责人田涛涛发表了主题为“云上运维新思维”的演讲,为大家阐述云上运维的新形态,以及阿里云弹性计算提供了哪些云上运维新能力。


以下是根据他的演讲整理成的文章,主要通过三个部分来介绍云上运维新思维。

  1. 云上运维的新形态
  2. 新产品
  3. 新能力


一、云上运维的新形态


image001.png

在过去的十二年里面,阿里云弹性计算快速的成长,以ECS实例为中心,构建了强大的计算力,我们最近新发布的第四代神龙架构就是典型代表,同时围绕最中心的实例,我们构建了更好的弹性能力,从创建弹性到监控运维的全生命周期,来保证客户可以方便使用ECS和ECI。


随着越来越多企业开始在云上使用DevOps,我们发布了“三环“产品,里面有很多很熟悉的产品,比如资源编排、运维编排等。过去很多年,我们持续打造自动化运维能力,今天给大家汇报一下过去一年我们在自动化运维能力的进展,开源生态能力的建设,以及如何更好的支持其它开源的产品。

image003.png

过去几年里,越来越多企业拥抱了DevOps之后,如何更好支持在云上做更好的运维,我们观察到以下四个方面的趋势:

  • 第一,客户已经从传统资源视角到应用视角转变。
  • 第二,应用的安全合规
  • 第三,问题诊断方面。
  • 第四,开放兼容,体验一致开放。


二、新产品

image005.png

今天的第一个新产品发布是Application Manager,它的使用非常简单。只需要选择导入已有的资源,将自己的服务变成应用。结合应用,我们就会自动化来生成,通过分组维度的运行状态,自动化监控报警以及通知。同时,我们还提供基于应用视角的分组维度的运维,可以一键完成代码编译到代码发布全过程。

image007.png

除了应用管理之外,另外一个重要的发布是ECS Session Manager,可以更好地管控和运维通道。它可以实现无密码直接登录服务器,可以自定义用户界面,可以对连接记录及运行命令进行审计,操作过程非常的简单。


三、新能力


1、ECS Workbench新能力

image009.png

ECS Workbench,在2018年年底发布的,现在大部分客户选择Workbench作为最佳的Web指令操作工作来替代传统的SSH或者RDP。今天发布了很多新能力:

  • 第一,命令审计的能力,甚至对高风险命令进行拦截.它可以强制拒绝一些高危命令,高危操作以及安卓后门程序,都会通过实时模式拦截。
  • 第二,我们也提供了录屏功能。只要开启录屏回放,所有记录都可以实时回放。
  • 最后,我们结合Session manager,更加简化连接通道


2、运维编排新功能

image011.png

运维编排是我们提供的Pipeline(Ops) as Code的重要产品,今天我们继续发布一系列的增强能力:


  • 配置清单。如果你有两台ECS,当注册表和配置参数不同的时候,做调优和排查时会非常难。所以,我们会做实时数据分析和计算,找出两台机器的配置参数差异,并且也可以通过配置清单做分布式的大规模机器的配置下发。
  • 补丁管理。很多客户希望在补丁管理过程中做更好的定制,混合以及自定义开发。
  • 参数管理。今天有很多命令和参数需要重复使用的,通过参数管理就可以把这些参数托管给阿里云。同时用户可以对参数加密,加密之后可以保证参数管理的过程是加密可信的。


3、TAG新功能

image013.png

过去几年越来越多的客户都已经开始使用TAG来管理云上的资源,今天我们针对TAG的新功能再次做了升级。

  • 统一API及控制台,对阿里云跨所有资源类资源进行标记时,支持通过统一API及控制台进行标签管理。
  • 预置标签。这个标签只能查看,不能变更。如果需要变更,可以交给CSV及云产品来更改。这样可以方便做审计和跟踪。
  • CreatedBy,通过CreatedBy创建主账号时,可以基于主账号、子账号、角色扮演等方式进行标签分账。
  • 标签模板,基于标签使用场景配置,环境标签、组织标签、角色标签、成本标签、使用者标签等。


4、自助排障能力提升

image015.png

自助排障能力是去年云栖大会发布的重磅能力,今年继续做了增强。去年我们的自主排障支持70多项能力,今天扩展并支持100多项能力。后台可以实时查找出来问题所在。今天着重讲的三个功能:安全组的诊断;实例在启动和停止时的诊断;网络全链路实时诊断

通过我们的诊断会给你建议和方法,包括一些修复的策略,帮你自助完成整个生命周期的管理。同时我们也开放了API,可以结合自助诊断系统快速拿到结果。


5、Auto Scaling ECI

image017.png

很多客户希望实现定制模式、报警模式。一方面可以简化自己的成本,另一方面可以简化自己的操作,实现自动化扩容。我们今天也发布了Auto Scaling ECI。我们成功实现了免运维、低成本以及丰富的伸缩模式。用户无需关心底层服务器,无需预先创建集群和维护集群,可以专注业务领域创新。它可以根据业务流量自动弹性伸缩,减少空置费用,可同时配置定时任务、报警任务、固定容量等多种模式。


6、云助手支持混合云

image019.png

现在每天数以万计的客户,包括我们自己的CICD Build都是完全由云助手来实现的。云助手已经成为云上最重要的安全管控通道之一。现在云助手可以管理物理机,并且所有操作都是可审计、可追溯、可回放的。同时,你也可以把这个功能安装在其他云平台的服务器上,依然无缝的做管理。所以我们认为云助手将会是未来新的云的管理通道,它可能替换和简化云的思维和运维


7、ROS支持Terraform

image021.png

很多客户非常喜欢Terraform。Terraform是客户端运营,需要自己构建一套机器在客户端运营,如果出现问题也不能实时跟踪和演进。资源编排一直是阿里云最重要的载体,所以我们重磅发布ROS已经支持Terraform,并且该功能已经上线。可以直接将Terraform的脚本交给ROS执行和在客户端运行Terraform无差别,在实现这个功能时,我们会在这个过程中会做审计、追踪、实名验证,已经完全做到无缝的迁移。

image023.png


从资源到应用上,我们发布了应用管理,极大简化运营操作;ECS实例清单,实时做参数的对比、验证的对比、更多的审计;我们也发布了ECI,像ECS一样非常极简;Session Manager,提供无密码管控通道,让运维更加安全。


我们相信云时代的运维将会有自己的特点。在新的云模式下如何更好做运维需要大家一起探索,让运维变得更简单,更智能,更自动化。


点击大会官网,观看田涛涛的精彩演讲视频。

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
2月前
|
存储 运维 Cloud Native
阿里云国际CloudOps的优势和云上运维的特点
阿里云国际CloudOps的优势和云上运维的特点
|
3月前
|
存储 弹性计算 运维
阿里云日常运维-购买服务器
这篇文章是关于如何在阿里云购买和配置云服务器ECS的教程。
87 6
阿里云日常运维-购买服务器
|
3月前
|
域名解析 运维
阿里云日常运维-购买域名
这篇文章是关于如何在阿里云进行日常运维,包括购买域名的详细步骤和一些推荐阅读资源。
114 4
|
4月前
|
机器学习/深度学习 人工智能 运维
"颠覆传统运维!揭秘阿里云AIGC如何化身运维界超级大脑,让故障预警、智能告警不再是梦,运维大神之路从此开启!"
【8月更文挑战第14天】随着AI技术的发展,AIGC正革新依赖人工经验的传统运维行业。阿里云凭借其领先的云计算能力和AI服务生态,为运维智能化提供了坚实基础。通过分析历史数据和系统日志,AIGC能自动发现并预测故障,大幅提升运维效率。例如,结合阿里云SLS和PAI,可构建智能告警系统,实现异常检测和实时预警。随着AIGC技术的进步,运维领域将迎来全面智能化转型,开启运维新时代。
138 3
|
4月前
|
运维 安全 网络安全
运维笔记:基于阿里云跨地域服务器通信
运维笔记:基于阿里云跨地域服务器通信
200 1
|
4月前
|
存储 运维 Cloud Native
"Flink+Paimon:阿里云大数据云原生运维数仓的创新实践,引领实时数据处理新纪元"
【8月更文挑战第2天】Flink+Paimon在阿里云大数据云原生运维数仓的实践
292 3
|
2月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
66 4
|
23天前
|
机器学习/深度学习 运维 监控
智能化运维:从自动化到AIOps的演进之路####
本文深入探讨了IT运维领域如何由传统手工操作逐步迈向高度自动化,并进一步向智能化运维(AIOps)转型的过程。不同于常规摘要仅概述内容要点,本摘要将直接引入一个核心观点:随着云计算、大数据及人工智能技术的飞速发展,智能化运维已成为提升企业IT系统稳定性与效率的关键驱动力。文章详细阐述了自动化工具的应用现状、面临的挑战以及AIOps如何通过预测性分析和智能决策支持,实现运维工作的质变,引领读者思考未来运维模式的发展趋势。 ####
|
23天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的崛起背景,深入分析了其核心概念、关键技术、应用场景及面临的挑战,并对比了传统IT运维模式,揭示了AIOps如何引领运维管理向更高效、智能的方向迈进。通过实际案例分析,展示了AIOps在不同行业中的应用成效,为读者提供了对未来智能运维趋势的洞察与思考。 ####
56 1
|
1月前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####

热门文章

最新文章