运维编排系列场景--使用定时运维进行状态逼近

本文涉及的产品
系统运维管理,不限时长
日志服务 SLS,月写入数据量 50GB 1个月
简介: ### 面向终态的运维 阿里云运维编排服务(Operation Orchestration Service,简称OOS),是阿里云提供的云上自动化运维服务,能够自动化管理和执行任务。OOS支持定时运维功能,可以周期性重复执行指定的运维任务。基于定时运维,OOS能够对云资源的状态进行管理,实现面向终态的运维。 本文以[ilogtail](https://help.aliyun.com/d

面向终态的运维

阿里云运维编排服务(Operation Orchestration Service,简称OOS),是阿里云提供的云上自动化运维服务,能够自动化管理和执行任务。OOS支持定时运维功能,可以周期性重复执行指定的运维任务。基于定时运维,OOS能够对云资源的状态进行管理,实现面向终态的运维。

本文以ilogtail的安装为例,介绍如何通过定时运维确保生产机的日志收集功能正常。

示例场景介绍

假定用户使用阿里云日志服务来管理应用日志。日志服务依赖在服务器上安装ilogtail来收集日志。在以下场景下

  • 新创建的实例
  • 重装系统的实例
  • 过户的实例
  • 因各种原因ilogtail被卸载的实例

有可能用户的实例上没有安装ilogtail。我们通过定时运维来保证每个实例都正确安装了ilogtail软件。

配置步骤

配置权限和创建角色

首先,需要给运维编排服务设置RAM权限并创建OOS扮演的角色。如果使用子账户登录运维编排控制台,要给子账户授予合适的权限,请参考官方文档

由于定时运维任务是持续执行的,所以配置角色是必须的,请参考官方文档

配置定时任务

首先我们来创建一个定时任务。

  1. 进入定时运维页面,点击“创建”
    Jietu20200927-203438.png
  2. 配置定时任务属性
    采用周期性重复执行,配置Cron表达式,注意运维编排限制定时的间隔不能小于30分钟。设定好定时任务的属性后,运维编排会列出最近几次的执行时间,在进行下一步前检查这些时间,确保符合预期。这里我们设置了一个每天晚上23:30触发的定时任务。

Jietu20200927-203643.png

  1. 选择模板
    这里选择公共模板《ACS-ECS-BulkyInstallLogAgent》,运维编排为常见的运维场景提供了公共模板,用户可以直接使用。如果公共模板无法满足需求,也可以自定义模板或者给运维编排提交公共模板需求。

Jietu20200927-203655.png

  1. 选择应用到的实例和并发控制设置
    我们强烈推荐使用标签来管理您的实例分组。运维编排支持按照标签、资源组来指定管理的目标资源。当然也可以按实例ID指定。这里我们按照标签ilogtail:enable来指定我们要应用的资源范围。

这里参数overwrite选择了false,表明如果已经安装了ilogtail,不会重复安装。
Jietu20200927-205430.png

效果展示

我们来看看这个定时运维的效果。可以从定时执行列表中看到我们配置的定时任务(为了方便演示实际设置的的cron表达式和上面的有区别)。

当前这个任务处于“等待中”状态,表明它在等待下一个定时触发时间点到来。“最近执行资源状态”显示的值是“成功:3”,这个代表我们最近一次触发我们对3个资源进行了操作,且都成功了。
Jietu20200927-205718.png

我们再看执行详情:
从这里我们可以看到“最近执行时间”、“最近成功执行时间”、“最近执行结果”、以及“按状态资源数”,通过这些信息用户可以了解到当前资源是否保持在我们期望的状态,在本例中,就是ECS实例是否都安装了ilogtail。
Jietu20200927-205659.png

目标tab,目标代表了我们创建执行时指定的目标资源。
Jietu20200927-205637.png

资源tab,资源代表了我们最近一次实际应用到的资源列表。目标是静态的,资源是动态的。在此例中,如果我们给一个新实例打上ilogtail:enable标签,下一次触发后,资源列表中就会增加一个新实例;同样,实例释放、从实例上解绑标签会在下一次触发后将实例从资源列表里移除。
Jietu20200927-205645.png

总结

通过配置一个定时运维任务,我们将实例保持在已安装ilogtail的状态。从执行状态上可以方便的看出当前状态是否符合预期,有哪些资源没有成功保持状态,执行失败的输出是什么。

更进一步,您可以创建一个云监控事件报警,在执行失败时收到通知,请参考最佳实践文档定时升级带宽失败时自动事件通知

欢迎使用OOS

OOS客户支持钉钉群:23330931

OOS管理控制台的链接

OOS帮助文档的链接

相关文章
|
3月前
|
运维 自然语言处理 开发者
作为一名运维人员,使用通义灵码个人版处理日常工作中的代码相关任务,极大地提升了我的工作效率。以下是我使用通义灵码的具体实践场景、效果和心得,以及相应的截图。
作为一名运维人员,我使用通义灵码处理日常工作中的代码任务,效率提升了30%。通义灵码帮助我快速理解复杂代码、生成准确的代码注释,并能从自然语言生成代码示例,大幅减少了代码编写和理解的时间。
114 3
|
4月前
|
机器学习/深度学习 人工智能 运维
|
7月前
|
运维 监控
如何使用OOS有效进行云上自动化运维
OOS(运维编排服务)是一种云上自动化运维工具,可以帮助你有效进行云资源的管理和维护。以下是如何使用OOS有效进行云上自动化运维的一些建议: 1. **利用自动化能力**:OOS提供了批量操作、
|
5月前
|
存储 边缘计算 运维
边缘计算问题之OpenYurt 对边缘计算场景中的运维难题如何解决
边缘计算问题之OpenYurt 对边缘计算场景中的运维难题如何解决
55 1
|
5月前
|
弹性计算 运维 监控
通过阿里云OOS“快速设置”快速配置多地域运维任务
阿里云OOS的快速设置功能助力用户简便配置多地域运维任务,如云监控安装、配置收集与补丁扫描,定时开关机,周期性带宽升级,实现自动化管理,确保配置一致性,提升运维效率。
|
5月前
|
运维 监控 测试技术
5个常见运维场景,用这几个Python脚本就够了!
5个常见运维场景,用这几个Python脚本就够了!
|
7月前
|
消息中间件 弹性计算 缓存
通过OOS定时升级Redis实例临时带宽
阿里云OOS提供了定时升级Redis实例临时带宽的功能,以应对数据驱动业务中的流量高峰。这个功能允许用户根据预测的业务负载,在特定日期和时间自动增加Redis实例的带宽,确保服务性能和稳定性。在高流量事件结束后,带宽会自动恢复到原设置,节省成本。 此功能适用于电商平台促销、大型游戏更新等场景,确保在流量高峰期间的系统稳定运行。
|
8月前
|
弹性计算 运维 安全
如何使用OOS有效进行云上自动化运维
阿里云弹性计算团队十三位产品专家和技术专家共同分享云上运维深度实践,详细阐述如何利用CloudOps工具实现运维提效、弹性降本。
134309 220
|
7月前
|
弹性计算 UED
通过OOS定时升级EIP实例临时带宽
阿里云推出了一项定时升级EIP(弹性公网IP)带宽的功能,旨在解决企业在特定流量高峰时段的网络带宽需求。此功能允许用户预设特定日期和时间自动升级带宽,如电商大促、直播活动或数据备份期间,以确保服务稳定并降低成本。用户可通过OOS控制台设置自动化任务,包括定时类型(立即、一次或周期性)、EIP实例地域、带宽值、升级持续时间和执行速率控制。在流量高峰过后,带宽会自动恢复到原设定,以节省费用。此功能适用于按固定带宽计费的EIP实例,不支持按流量计费的公网带宽。
|
6月前
|
运维 监控 容灾
智能化运维场景分析
【7月更文挑战第12天】智能运维目标是解放运维人员,提高效率,确保业务连续性和优化资源利用。