运维编排系列场景--使用定时运维进行状态逼近

简介: ### 面向终态的运维 阿里云运维编排服务(Operation Orchestration Service,简称OOS),是阿里云提供的云上自动化运维服务,能够自动化管理和执行任务。OOS支持定时运维功能,可以周期性重复执行指定的运维任务。基于定时运维,OOS能够对云资源的状态进行管理,实现面向终态的运维。 本文以[ilogtail](https://help.aliyun.com/d

面向终态的运维

阿里云运维编排服务(Operation Orchestration Service,简称OOS),是阿里云提供的云上自动化运维服务,能够自动化管理和执行任务。OOS支持定时运维功能,可以周期性重复执行指定的运维任务。基于定时运维,OOS能够对云资源的状态进行管理,实现面向终态的运维。

本文以ilogtail的安装为例,介绍如何通过定时运维确保生产机的日志收集功能正常。

示例场景介绍

假定用户使用阿里云日志服务来管理应用日志。日志服务依赖在服务器上安装ilogtail来收集日志。在以下场景下

  • 新创建的实例
  • 重装系统的实例
  • 过户的实例
  • 因各种原因ilogtail被卸载的实例

有可能用户的实例上没有安装ilogtail。我们通过定时运维来保证每个实例都正确安装了ilogtail软件。

配置步骤

配置权限和创建角色

首先,需要给运维编排服务设置RAM权限并创建OOS扮演的角色。如果使用子账户登录运维编排控制台,要给子账户授予合适的权限,请参考官方文档

由于定时运维任务是持续执行的,所以配置角色是必须的,请参考官方文档

配置定时任务

首先我们来创建一个定时任务。

  1. 进入定时运维页面,点击“创建”
    Jietu20200927-203438.png
  2. 配置定时任务属性
    采用周期性重复执行,配置Cron表达式,注意运维编排限制定时的间隔不能小于30分钟。设定好定时任务的属性后,运维编排会列出最近几次的执行时间,在进行下一步前检查这些时间,确保符合预期。这里我们设置了一个每天晚上23:30触发的定时任务。

Jietu20200927-203643.png

  1. 选择模板
    这里选择公共模板《ACS-ECS-BulkyInstallLogAgent》,运维编排为常见的运维场景提供了公共模板,用户可以直接使用。如果公共模板无法满足需求,也可以自定义模板或者给运维编排提交公共模板需求。

Jietu20200927-203655.png

  1. 选择应用到的实例和并发控制设置
    我们强烈推荐使用标签来管理您的实例分组。运维编排支持按照标签、资源组来指定管理的目标资源。当然也可以按实例ID指定。这里我们按照标签ilogtail:enable来指定我们要应用的资源范围。

这里参数overwrite选择了false,表明如果已经安装了ilogtail,不会重复安装。
Jietu20200927-205430.png

效果展示

我们来看看这个定时运维的效果。可以从定时执行列表中看到我们配置的定时任务(为了方便演示实际设置的的cron表达式和上面的有区别)。

当前这个任务处于“等待中”状态,表明它在等待下一个定时触发时间点到来。“最近执行资源状态”显示的值是“成功:3”,这个代表我们最近一次触发我们对3个资源进行了操作,且都成功了。
Jietu20200927-205718.png

我们再看执行详情:
从这里我们可以看到“最近执行时间”、“最近成功执行时间”、“最近执行结果”、以及“按状态资源数”,通过这些信息用户可以了解到当前资源是否保持在我们期望的状态,在本例中,就是ECS实例是否都安装了ilogtail。
Jietu20200927-205659.png

目标tab,目标代表了我们创建执行时指定的目标资源。
Jietu20200927-205637.png

资源tab,资源代表了我们最近一次实际应用到的资源列表。目标是静态的,资源是动态的。在此例中,如果我们给一个新实例打上ilogtail:enable标签,下一次触发后,资源列表中就会增加一个新实例;同样,实例释放、从实例上解绑标签会在下一次触发后将实例从资源列表里移除。
Jietu20200927-205645.png

总结

通过配置一个定时运维任务,我们将实例保持在已安装ilogtail的状态。从执行状态上可以方便的看出当前状态是否符合预期,有哪些资源没有成功保持状态,执行失败的输出是什么。

更进一步,您可以创建一个云监控事件报警,在执行失败时收到通知,请参考最佳实践文档定时升级带宽失败时自动事件通知

欢迎使用OOS

OOS客户支持钉钉群:23330931

OOS管理控制台的链接

OOS帮助文档的链接

目录
相关文章
|
5月前
|
弹性计算 运维 监控
带你读《云上自动化运维宝典》——如何使用OOS有效进行云上自动化运维(1)
带你读《云上自动化运维宝典》——如何使用OOS有效进行云上自动化运维(1)
256 0
|
5月前
|
弹性计算 运维 安全
带你读《云上自动化运维宝典》——如何使用OOS有效进行云上自动化运维(2)
带你读《云上自动化运维宝典》——如何使用OOS有效进行云上自动化运维(2)
247 1
|
10天前
|
运维 算法 物联网
五大智能运维场景
【5月更文挑战第3天】智能运维场景分5类:异常检测、根因诊断、故障自愈、事件预警、效能优化。
|
24天前
|
存储 运维 NoSQL
通过OOS实现定时备份Redis实例转储到OSS
基于阿里云 Redis 备份功能,现结合 OOS 推出自动转储至 OSS 的新方案,解决了数据安全风险、运维繁琐、成本增加和效率低下等问题。新方案亮点包括: 1. 数据安全性提高:备份文件自动上传至OSS,利用OSS的数据冗余存储,保证数据在硬件故障时的持久性和可用性。 2. 完全自动化:设置好定时规则后,备份和转储过程无需人工干预。 3. 多实例多地域集中管理:支持一次选择多个实例和跨区域备份,简化管理。 4. 灵活的备份策略和成本控制:自定义备份频率,并通过OSS生命周期管理策略控制成本。 5. 监控和告警:集成OSS和云监控,实时掌握备份状态,及时处理异常。
155 0
|
3月前
|
弹性计算 运维 安全
如何使用OOS有效进行云上自动化运维
阿里云弹性计算团队十三位产品专家和技术专家共同分享云上运维深度实践,详细阐述如何利用CloudOps工具实现运维提效、弹性降本。
133882 219
|
5月前
|
弹性计算 运维 应用服务中间件
带你读《云上自动化运维宝典》——ECS多场景迁移上云最佳实践(1)
带你读《云上自动化运维宝典》——ECS多场景迁移上云最佳实践(1)
230 1
|
5月前
|
弹性计算 运维 应用服务中间件
带你读《云上自动化运维宝典》——ECS多场景迁移上云最佳实践(2)
带你读《云上自动化运维宝典》——ECS多场景迁移上云最佳实践(2)
213 1
|
5月前
|
弹性计算 运维 Linux
带你读《云上自动化运维宝典》——ECS多场景迁移上云最佳实践(3)
带你读《云上自动化运维宝典》——ECS多场景迁移上云最佳实践(3)
199 1
|
5月前
|
存储 运维 安全
如何使用OOS有效进行云上自动化运维
弹性计算技术公开课——CloudOps云上运维季圆满结束了,阿里云弹性计算技术专家郑大禹在本次系列课程中带来了主题为《使用OOS进行云上自动化运维》的课程分享,课程内容涵盖云上资源运维面临的挑战、OOS 自动化运维能力揭秘、使用 OOS 云上 CloudOps 实践等方向。
|
6月前
|
弹性计算 运维
5分钟构建了个阿里云OOS运维模板顾问GPTs
本文介绍了通过gpts构建阿里云OOS运维模板顾问的背景及效果
186 0