带你读《CloudOps云上自动化运维 白皮书2.0》之12:4. 阿里云的自动化能力和产品

本文涉及的产品
轻量应用服务器 2vCPU 1GiB,适用于搭建电商独立站
轻量应用服务器 2vCPU 4GiB,适用于搭建Web应用/小程序
轻量应用服务器 2vCPU 4GiB,适用于网站搭建
简介: 带你读《CloudOps云上自动化运维 白皮书2.0》之12:4. 阿里云的自动化能力和产品

4. 阿里云的自动化能力和产品

 

1) 第一层:特定场景的自动化能力

 

适合“中级”的自动化场景和需求

 

弹性伸缩

 

使用场景:当服务器数量需要进行弹性化管理时。

弹性伸缩服务:弹性伸缩(Auto Scaling)是根据业务需求和策略自动调整计算能力(即实例数量)的服务。您可以指定实例的类型,即ECS实例或ECI实例。在业务需求增长时,弹性伸缩自动增加指定类型的实例,来保证计算能力;在业务需求下降时,弹性伸缩自动减少指定类型的实例,来节约成本。弹性伸缩不仅适合业务量不断波动的应用程序,同时也适合业务量稳定的应用程序。

产品文档https://help.aliyun.com/product/25855.html

 

• 部署模版

 

使用场景:当需要具备完全自动化的部署能力时,甚至可以达到一键部署。

资源编排服务ROS:资源编排服务ROS(Resource Orchestration Service)是阿里云提供的一项简化云计算资源管理的服务。开发者和管理员可以编写模板,在模板中定义所需的阿里云资源(例如:ECS实例、RDS数据库实例)、资源间的依赖关系等。ROS的编排引擎将根据模板自动完成所有资源的创建和配置,实现自动化部署及运维。

产品文档https://help.aliyun.com/product/28850.html

 

• 事件驱动

 

使用场景:当某个特定的事件发生时,应该触发的自动化任务。

说明:事件的来源可以来自Cloud的云产品和服务器,也可以主动发送自定义事件。通常Cloud本身关注的是基础设施(Infrastructure)层,而自定义事件则多是业务系统和业务逻辑层。当事件发生时,可以触发启动相关的自动化任务,如自动检查,自动修复,或者通知某运维人员。事件通知内通常都会包括一些简单扼要的关键信息,如包括实例ID等,这类可以提取出来作为自动化任务的参数。

 

• 报警驱动

 

使用场景:当需要根据监控报警触发自动化任务时。

说明:和上述场景类似,区别在于这里的触动来源是报警。通常也可以分为Cloud提供的基础设施(Infrastructure)层的报警和业务系统和业务逻辑层的报警。并以此为触发来源,触发自动化相关的任务。

 

• 定时运维

 

使用场景:当需要在预定的时间开始执行的任务。

说明:和上述场景类似,区别在于这里的触动来源是根据预设的时间,通常允许按日,按周,按月等周期性定时运维。

 

2) 第二层:通用的自动化能力(原子能力)

 

适合“高级”及以上的自动化场景和需求。

 

自动化运维平台

 

适合通用的云上运维工作流编排引擎,且应该具备以下能力:

 

编排任何云产品Open API的能力,包括打通服务器内部和容器内部。

丰富的控制手段:并发控制,批量控制,错误控制,暂停控制。

必要的审批环节:事先审批,事中审批,事后通知。

支持多种触发方式:定时触发、事件触发、报警触发,手动触发。

支持代码化,集成版本控制系统如Git即可完成版本管理,以及GitOps,Ops as Code等先进运维理念。

 

阿里云运维编排OOS即是这样一款具备以上能力的自动化运维平台。

 

 

• 服务器内部运维通道

 

除了云产品管控面的服务能力之外,更应该更进一步,进入到数据面提供运维能力。因此应该具备打通服务器内部运维的能力:

 

包括图形化的操作方式,尤其是Windows用户。

包括命令行的操作方式,适合Linux系统。

应该支持基于OpenAPI的命令式执行,方便二次开发。

应该支持所有操作的审计能力,确保操作的安全性和合规性。

 

• 基础能力、原子能力

 

当以上的云产品都无法满足自动化需求时,或需要的自动化能力非常灵活时,则可以依赖最基础的能力,云产品的原子能力 —— OpenAPI、SDK和CLI。

 

Cloud厂商提供的SDK应该是使用OpenAPI的第一选择,SDK不仅给OpenAPI的调用提供了方便,更包含了诸多API调用的最佳实践等,根据二八原则,如默认配置应该可以满足80%的场景。

 

除此之外,Cloud厂商提供的CLI也是不二选择,当需要在Shell或脚本语言中快速集成时,或者当需要构建一个PoC类型的自动化项目时,直接使用CLI就可以快速达成目的。且CLI的语法相对而言比较简略,因此更容易上手。

 

3) 阿里云自动化能力和产品金字塔

 

image.png

4) 阿里云产品和能力与业界工具对照表

 

image.png

相关文章
|
2月前
|
弹性计算 Devops Shell
用阿里云 DevOps Flow 实现 ECS 部署自动化:从准备到落地的完整指南
阿里云 DevOps Flow 是一款助力开发者实现自动化部署的高效工具,支持代码流水线构建、测试与部署至ECS实例,显著提升交付效率与稳定性。本文详解如何通过 Flow 自动部署 Bash 脚本至 ECS,涵盖环境准备、流水线搭建、源码接入、部署流程设计及结果验证,助你快速上手云上自动化运维。
202 0
|
4月前
|
运维 算法 机器人
阿里云AnalyticDB具身智能方案:破解机器人仿真数据、算力与运维之困
本文将介绍阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL推出的全托管云上仿真解决方案,方案采用云原生架构,为开发者提供从开发环境、仿真计算到数据管理的全链路支持。
|
1月前
|
API 调度 虚拟化
VMware Cloud Foundation Automation 9.0.1.0 发布 - 私有云自动化平台
VMware Cloud Foundation Automation 9.0.1.0 发布 - 私有云自动化平台
155 3
VMware Cloud Foundation Automation 9.0.1.0 发布 - 私有云自动化平台
|
5月前
|
运维 安全 关系型数据库
【产品升级】Dataphin V5.1版本发布:跨云数据集成、指标管理、平台运维带来重大更新!
V5.1版本新增多项功能:对接AWS生态(支持Amazon EMR、Redshift等),强化研发技术支撑(如API认证升级、全量任务隔离),完善运营消费链路(新增业务指标管理、指标关系图),提升平台综合能力(自定义菜单、缩短升级停机时间)。这些功能助力企业实现高效数据治理与分析,未来还将拓展智能化与国际化支持。
360 0
|
8月前
|
存储 运维 监控
云服务运维智能时代:阿里云操作系统控制台
阿里云操作系统控制台是一款创新的云服务器运维工具,采用智能化和可视化方式简化运维工作。通过AI技术实时监控服务器状态,自动分析性能瓶颈和故障原因,生成详细的诊断报告与优化建议。用户无需复杂命令行操作,仅需通过图形化界面即可高效处理问题,降低技术门槛并提升故障处理效率。尤其在服务器宕机等紧急情况下,智能诊断工具能快速定位问题根源,确保业务稳定运行。此外,控制台还提供内存、存储、网络等专项诊断功能,帮助用户全面了解系统资源使用情况,进一步优化服务器性能。这种智能化运维方式不仅提升了工作效率,也让个人开发者和企业用户能够更专注于核心业务的发展。
|
4月前
|
人工智能 运维 自然语言处理
首个智能体模型实测:产品、开发、运维“全包了”
2025年,AI进入“动手”时代。智谱发布新一代大模型GLM-4.5,全球排名第三、国产第一,专为智能体设计,融合推理、编码与智能体能力,实现自主规划与执行任务。通过8个Demo展示其强大能力,涵盖网页设计、课件制作、小游戏开发等,展现其“带手的脑”特性,推动AI从实验室走向真实场景。
284 0
|
6月前
|
运维 监控 算法
阿里云 OS 控制台:让基础设施运维不再难
涵盖智能异常检测、智能根因分析、智能修复建议的全链路运维解决方案
|
存储 人工智能 Kubernetes
VMware Cloud Foundation Automation 9.0 发布 - 私有云自动化平台
VMware Cloud Foundation Automation 9.0 发布 - 私有云自动化平台
50 0
|
8月前
|
存储 人工智能 运维
超大规模云网络技术新突破!阿里云斩获中国自动化学会科技进步一等奖
超大规模云网络技术新突破!阿里云斩获中国自动化学会科技进步一等奖
359 60
|
7月前
|
人工智能 运维 监控
阿里云携手神州灵云打造云内网络性能监测标杆 斩获中国信通院高质量数字化转型十大案例——金保信“云内网络可观测”方案树立云原生运维新范式
2025年,金保信社保卡有限公司联合阿里云与神州灵云申报的《云内网络性能可观测解决方案》入选高质量数字化转型典型案例。该方案基于阿里云飞天企业版,融合云原生引流技术和流量“染色”专利,解决云内运维难题,实现主动预警和精准观测,将故障排查时间从数小时缩短至15分钟,助力企业降本增效,形成可跨行业复制的数字化转型方法论。
364 6

热门文章

最新文章