一、什么是OOS
当我们接触到一个新的事物时,往往会关心,它是什么?有什么用?
OOS的英文全称是,Operation Orchestration Service (阿里云运维编排服务)直译为“操作编排服务”,顾名思义,它可以将一组的操作编排在一起。
比如说,当服务器的cpu使用率持续较高,磁盘容量不足,带宽常常满载等。这个时候,我们的运维人员,首先,需要升级CPU,且升级后需要重启服务器;其次,需要扩容磁盘,且扩容磁盘前,还需要先对磁盘进行快照备份数据;最后,需要升级服务器带宽。
按照常规的做法,需要一步步手动操作,相对来说比较繁琐,且改动需要在业务低峰期,所以常常需要在深夜进行调试。对于运维人员来说,身心疲惫,加上操作繁琐,出现误操作的概率大大增加。对于企业来说,这不但降低降低了工作效率,而且还增加了失误的风险。
那么OOS怎么帮我们解决这个问题呢?
OOS可以将这些服务器的运维操作都编排到OOS模板中,当需要时一键启动,自动执行。模板化的操作,提升效率的同时,降低了误操作的风险。让运维更加的准确和高效。这就是OOS,而触发式带宽自动升级,也是通过OOS实现,我们看看是怎么做到的吧。
二、 触发式带宽自动临时升级OOS模板简介
模板的架构图如上,详细说明如下:
(1) 监控触发。通过云监控CMS对服务器公网带宽进行监控,当服务器的带宽使用率达到阈值时,会自动启动OOS的预设模板(后文提供),准备对服务器的带宽进行升级操作。
(2) DDos检测。正式升级服务器带宽前,会对服务器的DDOS状态进行检测,避免服务器带宽满载是由DDOS攻击导致。DDOS攻击是一种资源消耗型的攻击,如果检测状态为异常,则会通过钉钉机器人告知用户,相关运维人员可以通过钉钉机器人提供的链接,来登录DDOS控制台确认并处理异常,模板的运行也会就此自动终止。
(3) 阈值通知。DDOS检测通过后,在带宽正式升级前,会通过钉钉机器人发出阈值通知,告知用户,阈值触发了OOS进行带宽升级。
(4) 升级带宽。当前环节,会对服务器的带宽进行临时升级。升级完成后,通过钉钉机器人通知客户服务器带宽升级成功。当升级出现错误时,会通过钉钉机器人进行反馈,并停止模板。
(5) 结果反馈。带宽升级成功后,还会检测升级后的带宽使用率,进一步将升级结果反馈给用户。
三、 模板的运行结果展示
场景描述:通过从服务器下载文件,模拟服务器的出方向带宽达到阈值,触发OOS调用模板实现带宽自动的升级。
下图为服务器公网出方向的带宽使用情况(初始固定带宽为1M)
14:05 流量开始满载(达到阈值)
14:15 OOS监测达到阈值,并触发模板(满载到触发用时10分钟,后续说明)
同时向钉钉机器人发送带宽达到阈值的通知
14:18 带宽临时升级完成(固定时间,3分钟)
14:20 向钉钉机器人发送通知---带宽升级成功(固定时间,5分钟)
14:25 向钉钉机器人发送通知---升级后,带宽使用率(固定时间,10分钟)
其他说明:
关于带宽满载到OOS模板被触发,用时共10分钟的问题。本模板使用的触发条件,为OOS中“告警与事件运维”中的阈值告警。由于云监控中公网出方向带宽使用率仅支持平均值,而OOS依赖云监控作为模板触发条件,所以OOS也只支持平均值,上图数据使用的是最大值,所以导致触发时间过长(后续,官方应该会优化)。建议大家设置“触发规则”参数时,使用带宽使用率的平均值作为阈值触发的指标。
钉钉机器人收到的通知示意
升级触发通知:
升级完成通知:
升级成效通知
四、 费用预估
1M升级到50M,持续时间为24小时,费用约为:120元
1M升级到100M,持续时间为24小时,费用约为:250元
1M升级到200M,持续时间为24小时,费用约为:500元
可根据上述区间,粗略估算,升级产生的费用。如需查看准确的价格,请参照下面链接中的步骤,进行查看
https://help.aliyun.com/document_detail/59717.html?spm=5176.11065259.1996646101.searchclickresult.b8037bcdFtHGnv
五、 实现步骤
1.创建模板
点击链接:https://oos.console.aliyun.com/
2.创建OOS扮演的角色
参考链接创建角色,并添加下图中的权限,即可(https://help.aliyun.com/document_detail/120810.html?spm=5176.11065259.1996646101.searchclickresult.1d9375f5f0ablH)
3.创建钉钉机器人,获取升级通知
参数如下链接中创建钉钉机器人的步骤创建机器人
https://help.aliyun.com/document_detail/144679.html#h2--2-webhook-5
并在钉钉机器人的设置中添加“阿里云”为自定义关键词
4.创建OOS“告警与事件运维”
“触发式带宽自动临时升级”的OOS模板,到此已经创建完成,当带宽达到阈值时,会按照模板设置的参数自动升级带宽,升级后带宽的持续时间是可以自定义的,到期后,带宽会自动回落到升级前的水平,节省带宽成本。
六、 模板提供
创作不易,感谢大家的支持,当文章的阅读量,达到2000+,将会在文章更新提供模板。有劳转发,感谢大家。