带你读《CloudOps云上自动化运维 白皮书2.0》之12:4. 阿里云的自动化能力和产品

简介: 带你读《CloudOps云上自动化运维 白皮书2.0》之12:4. 阿里云的自动化能力和产品

4. 阿里云的自动化能力和产品

 

1) 第一层:特定场景的自动化能力

 

适合“中级”的自动化场景和需求

 

弹性伸缩

 

使用场景:当服务器数量需要进行弹性化管理时。

弹性伸缩服务:弹性伸缩(Auto Scaling)是根据业务需求和策略自动调整计算能力(即实例数量)的服务。您可以指定实例的类型,即ECS实例或ECI实例。在业务需求增长时,弹性伸缩自动增加指定类型的实例,来保证计算能力;在业务需求下降时,弹性伸缩自动减少指定类型的实例,来节约成本。弹性伸缩不仅适合业务量不断波动的应用程序,同时也适合业务量稳定的应用程序。

产品文档https://help.aliyun.com/product/25855.html

 

• 部署模版

 

使用场景:当需要具备完全自动化的部署能力时,甚至可以达到一键部署。

资源编排服务ROS:资源编排服务ROS(Resource Orchestration Service)是阿里云提供的一项简化云计算资源管理的服务。开发者和管理员可以编写模板,在模板中定义所需的阿里云资源(例如:ECS实例、RDS数据库实例)、资源间的依赖关系等。ROS的编排引擎将根据模板自动完成所有资源的创建和配置,实现自动化部署及运维。

产品文档https://help.aliyun.com/product/28850.html

 

• 事件驱动

 

使用场景:当某个特定的事件发生时,应该触发的自动化任务。

说明:事件的来源可以来自Cloud的云产品和服务器,也可以主动发送自定义事件。通常Cloud本身关注的是基础设施(Infrastructure)层,而自定义事件则多是业务系统和业务逻辑层。当事件发生时,可以触发启动相关的自动化任务,如自动检查,自动修复,或者通知某运维人员。事件通知内通常都会包括一些简单扼要的关键信息,如包括实例ID等,这类可以提取出来作为自动化任务的参数。

 

• 报警驱动

 

使用场景:当需要根据监控报警触发自动化任务时。

说明:和上述场景类似,区别在于这里的触动来源是报警。通常也可以分为Cloud提供的基础设施(Infrastructure)层的报警和业务系统和业务逻辑层的报警。并以此为触发来源,触发自动化相关的任务。

 

• 定时运维

 

使用场景:当需要在预定的时间开始执行的任务。

说明:和上述场景类似,区别在于这里的触动来源是根据预设的时间,通常允许按日,按周,按月等周期性定时运维。

 

2) 第二层:通用的自动化能力(原子能力)

 

适合“高级”及以上的自动化场景和需求。

 

自动化运维平台

 

适合通用的云上运维工作流编排引擎,且应该具备以下能力:

 

编排任何云产品Open API的能力,包括打通服务器内部和容器内部。

丰富的控制手段:并发控制,批量控制,错误控制,暂停控制。

必要的审批环节:事先审批,事中审批,事后通知。

支持多种触发方式:定时触发、事件触发、报警触发,手动触发。

支持代码化,集成版本控制系统如Git即可完成版本管理,以及GitOps,Ops as Code等先进运维理念。

 

阿里云运维编排OOS即是这样一款具备以上能力的自动化运维平台。

 

 

• 服务器内部运维通道

 

除了云产品管控面的服务能力之外,更应该更进一步,进入到数据面提供运维能力。因此应该具备打通服务器内部运维的能力:

 

包括图形化的操作方式,尤其是Windows用户。

包括命令行的操作方式,适合Linux系统。

应该支持基于OpenAPI的命令式执行,方便二次开发。

应该支持所有操作的审计能力,确保操作的安全性和合规性。

 

• 基础能力、原子能力

 

当以上的云产品都无法满足自动化需求时,或需要的自动化能力非常灵活时,则可以依赖最基础的能力,云产品的原子能力 —— OpenAPI、SDK和CLI。

 

Cloud厂商提供的SDK应该是使用OpenAPI的第一选择,SDK不仅给OpenAPI的调用提供了方便,更包含了诸多API调用的最佳实践等,根据二八原则,如默认配置应该可以满足80%的场景。

 

除此之外,Cloud厂商提供的CLI也是不二选择,当需要在Shell或脚本语言中快速集成时,或者当需要构建一个PoC类型的自动化项目时,直接使用CLI就可以快速达成目的。且CLI的语法相对而言比较简略,因此更容易上手。

 

3) 阿里云自动化能力和产品金字塔

 

image.png

4) 阿里云产品和能力与业界工具对照表

 

image.png

相关文章
|
2月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
66 4
|
17天前
|
网络协议 网络安全 Docker
将Certbot/ACME.sh自动化申请的证书自动部署到阿里云CDN
本文介绍了阿里云 CDN SSL 证书自动更新工具,定期检查证书有效期,使用Let's Encrypt 等工具签发的证书自动更新至阿里云 CDN,支持 Docker 及 .NET 8 部署,简化证书管理流程。
|
25天前
|
机器学习/深度学习 运维 监控
智能化运维:从自动化到AIOps的演进之路####
本文深入探讨了IT运维领域如何由传统手工操作逐步迈向高度自动化,并进一步向智能化运维(AIOps)转型的过程。不同于常规摘要仅概述内容要点,本摘要将直接引入一个核心观点:随着云计算、大数据及人工智能技术的飞速发展,智能化运维已成为提升企业IT系统稳定性与效率的关键驱动力。文章详细阐述了自动化工具的应用现状、面临的挑战以及AIOps如何通过预测性分析和智能决策支持,实现运维工作的质变,引领读者思考未来运维模式的发展趋势。 ####
|
25天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的崛起背景,深入分析了其核心概念、关键技术、应用场景及面临的挑战,并对比了传统IT运维模式,揭示了AIOps如何引领运维管理向更高效、智能的方向迈进。通过实际案例分析,展示了AIOps在不同行业中的应用成效,为读者提供了对未来智能运维趋势的洞察与思考。 ####
61 1
|
1月前
2025电气自动化与电机系统国际学术会议(EAMS 2025) 2025 International Conference on Electrical Automation and Motor System
2025电气自动化与电机系统国际学术会议(EAMS 2025) 2025 International Conference on Electrical Automation and Motor System
48 7
|
1月前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####
|
1月前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在故障预测和自动化响应中的应用
智能化运维:机器学习在故障预测和自动化响应中的应用
61 4
|
1月前
|
运维 监控 中间件
数据中心运维监控系统产品价值与优势
华汇数据运维监控系统面向IT基础架构及IT支撑平台的监控和运维管理,包含监测、分析、展现和告警。监控范围涵盖了网络设备、主机系统、数据库、中间件和应用软件等。
61 4
|
2月前
|
存储 运维 监控
高效运维:从基础架构到自动化管理的全面指南
【10月更文挑战第11天】 本文将深入探讨如何通过优化基础架构和引入自动化管理来提升企业IT运维效率。我们将从服务器的选择与配置、存储解决方案的评估,到网络的设计与监控,逐一解析每个环节的关键技术点。同时,重点讨论自动化工具在现代运维中的应用,包括配置管理、持续集成与部署(CI/CD)、自动化测试及故障排除等方面。通过实际案例分析,展示这些技术如何协同工作,实现高效的运维管理。无论是IT初学者还是经验丰富的专业人员,都能从中获得有价值的见解和实操经验。
103 1
|
2月前
|
运维 监控 测试技术
构建高效运维体系:从监控到自动化的实践之路
【10月更文挑战第9天】 在当今信息技术飞速发展的时代,运维作为保障系统稳定性与效率的关键角色,正面临前所未有的挑战。本文将探讨如何通过构建一个高效的运维体系来应对这些挑战,包括监控系统的搭建、自动化工具的应用以及故障应急处理机制的制定。我们将结合具体案例,分析这些措施如何帮助提升系统的可靠性和运维团队的工作效率。
62 1

热门文章

最新文章