运维编排系列场景--使用定时运维进行状态逼近

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: ### 面向终态的运维 阿里云运维编排服务(Operation Orchestration Service,简称OOS),是阿里云提供的云上自动化运维服务,能够自动化管理和执行任务。OOS支持定时运维功能,可以周期性重复执行指定的运维任务。基于定时运维,OOS能够对云资源的状态进行管理,实现面向终态的运维。 本文以[ilogtail](https://help.aliyun.com/d

面向终态的运维

阿里云运维编排服务(Operation Orchestration Service,简称OOS),是阿里云提供的云上自动化运维服务,能够自动化管理和执行任务。OOS支持定时运维功能,可以周期性重复执行指定的运维任务。基于定时运维,OOS能够对云资源的状态进行管理,实现面向终态的运维。

本文以ilogtail的安装为例,介绍如何通过定时运维确保生产机的日志收集功能正常。

示例场景介绍

假定用户使用阿里云日志服务来管理应用日志。日志服务依赖在服务器上安装ilogtail来收集日志。在以下场景下

  • 新创建的实例
  • 重装系统的实例
  • 过户的实例
  • 因各种原因ilogtail被卸载的实例

有可能用户的实例上没有安装ilogtail。我们通过定时运维来保证每个实例都正确安装了ilogtail软件。

配置步骤

配置权限和创建角色

首先,需要给运维编排服务设置RAM权限并创建OOS扮演的角色。如果使用子账户登录运维编排控制台,要给子账户授予合适的权限,请参考官方文档

由于定时运维任务是持续执行的,所以配置角色是必须的,请参考官方文档

配置定时任务

首先我们来创建一个定时任务。

  1. 进入定时运维页面,点击“创建”
    Jietu20200927-203438.png
  2. 配置定时任务属性
    采用周期性重复执行,配置Cron表达式,注意运维编排限制定时的间隔不能小于30分钟。设定好定时任务的属性后,运维编排会列出最近几次的执行时间,在进行下一步前检查这些时间,确保符合预期。这里我们设置了一个每天晚上23:30触发的定时任务。

Jietu20200927-203643.png

  1. 选择模板
    这里选择公共模板《ACS-ECS-BulkyInstallLogAgent》,运维编排为常见的运维场景提供了公共模板,用户可以直接使用。如果公共模板无法满足需求,也可以自定义模板或者给运维编排提交公共模板需求。

Jietu20200927-203655.png

  1. 选择应用到的实例和并发控制设置
    我们强烈推荐使用标签来管理您的实例分组。运维编排支持按照标签、资源组来指定管理的目标资源。当然也可以按实例ID指定。这里我们按照标签ilogtail:enable来指定我们要应用的资源范围。

这里参数overwrite选择了false,表明如果已经安装了ilogtail,不会重复安装。
Jietu20200927-205430.png

效果展示

我们来看看这个定时运维的效果。可以从定时执行列表中看到我们配置的定时任务(为了方便演示实际设置的的cron表达式和上面的有区别)。

当前这个任务处于“等待中”状态,表明它在等待下一个定时触发时间点到来。“最近执行资源状态”显示的值是“成功:3”,这个代表我们最近一次触发我们对3个资源进行了操作,且都成功了。
Jietu20200927-205718.png

我们再看执行详情:
从这里我们可以看到“最近执行时间”、“最近成功执行时间”、“最近执行结果”、以及“按状态资源数”,通过这些信息用户可以了解到当前资源是否保持在我们期望的状态,在本例中,就是ECS实例是否都安装了ilogtail。
Jietu20200927-205659.png

目标tab,目标代表了我们创建执行时指定的目标资源。
Jietu20200927-205637.png

资源tab,资源代表了我们最近一次实际应用到的资源列表。目标是静态的,资源是动态的。在此例中,如果我们给一个新实例打上ilogtail:enable标签,下一次触发后,资源列表中就会增加一个新实例;同样,实例释放、从实例上解绑标签会在下一次触发后将实例从资源列表里移除。
Jietu20200927-205645.png

总结

通过配置一个定时运维任务,我们将实例保持在已安装ilogtail的状态。从执行状态上可以方便的看出当前状态是否符合预期,有哪些资源没有成功保持状态,执行失败的输出是什么。

更进一步,您可以创建一个云监控事件报警,在执行失败时收到通知,请参考最佳实践文档定时升级带宽失败时自动事件通知

欢迎使用OOS

OOS客户支持钉钉群:23330931

OOS管理控制台的链接

OOS帮助文档的链接

相关文章
|
3月前
|
人工智能 弹性计算 运维
通勤路上修故障?钉钉机器人+ OOS AI 助手实现 7×24 小时运维自由
通过钉钉机器人配置阿里云 OOS AI 助手,您可以直接在钉钉群内发送文字指令,实现免登录、跨设备、秒级响应的阿里云运维操作。
|
人工智能 弹性计算 运维
通勤路上修故障?钉钉机器人+OOS AI助手实现7×24小时运维自由
通过钉钉机器人配置阿里云OOS AI助手,您可以直接在钉钉群内发送文字指令,实现免登录、跨设备、秒级响应的阿里云运维操作。
|
7月前
|
运维 监控 前端开发
Zabbix告警分析新革命:DeepSeek四大创新场景助力智能运维
面对日益复杂的IT环境,高效分析监控数据并快速响应成为运维的关键挑战。本文深入探讨了DeepSeek与Zabbix结合的创新应用,包括一键式智能告警分析、Zabbix文档知识库助手及钉钉告警增强功能。通过部署指南和实用脚本,展示了如何提升故障排查效率,为运维工程师提供高效解决方案。
632 5
|
运维 监控
如何使用OOS有效进行云上自动化运维
OOS(运维编排服务)是一种云上自动化运维工具,可以帮助你有效进行云资源的管理和维护。以下是如何使用OOS有效进行云上自动化运维的一些建议: 1. **利用自动化能力**:OOS提供了批量操作、
|
机器学习/深度学习 人工智能 运维
|
12月前
|
运维 自然语言处理 开发者
作为一名运维人员,使用通义灵码个人版处理日常工作中的代码相关任务,极大地提升了我的工作效率。以下是我使用通义灵码的具体实践场景、效果和心得,以及相应的截图。
作为一名运维人员,我使用通义灵码处理日常工作中的代码任务,效率提升了30%。通义灵码帮助我快速理解复杂代码、生成准确的代码注释,并能从自然语言生成代码示例,大幅减少了代码编写和理解的时间。
294 3
|
存储 边缘计算 运维
边缘计算问题之OpenYurt 对边缘计算场景中的运维难题如何解决
边缘计算问题之OpenYurt 对边缘计算场景中的运维难题如何解决
89 1
|
弹性计算 运维 监控
通过阿里云OOS“快速设置”快速配置多地域运维任务
阿里云OOS的快速设置功能助力用户简便配置多地域运维任务,如云监控安装、配置收集与补丁扫描,定时开关机,周期性带宽升级,实现自动化管理,确保配置一致性,提升运维效率。
|
运维 监控 测试技术
5个常见运维场景,用这几个Python脚本就够了!
5个常见运维场景,用这几个Python脚本就够了!
296 0