阿里云自动化运维-OOS-触发式带宽自动临时升级-阿里云开发者社区

开发者社区> 开发与运维> 正文

阿里云自动化运维-OOS-触发式带宽自动临时升级

简介: 对于初创公司而言,公司的网站流量暴增的时间点往往具有不确定性。预备富余的带宽,虽然可以提升用户的访问体验,但是平时的带宽使用率并不大,这就造成了带宽的浪费,而且增加了不必要的开销。本文将介绍如何使用OOS实现,当流量访问大的时候自动提升带宽,热度下降自动降低带宽。既提升用户访问体验,又有的放矢,节省公司的带宽成本。

一、什么是OOS
当我们接触到一个新的事物时,往往会关心,它是什么?有什么用?
1.png

OOS的英文全称是,Operation Orchestration Service (阿里云运维编排服务)直译为“操作编排服务”,顾名思义,它可以将一组的操作编排在一起。
比如说,当服务器的cpu使用率持续较高,磁盘容量不足,带宽常常满载等。这个时候,我们的运维人员,首先,需要升级CPU,且升级后需要重启服务器;其次,需要扩容磁盘,且扩容磁盘前,还需要先对磁盘进行快照备份数据;最后,需要升级服务器带宽。
按照常规的做法,需要一步步手动操作,相对来说比较繁琐,且改动需要在业务低峰期,所以常常需要在深夜进行调试。对于运维人员来说,身心疲惫,加上操作繁琐,出现误操作的概率大大增加。对于企业来说,这不但降低降低了工作效率,而且还增加了失误的风险。
a1.png

那么OOS怎么帮我们解决这个问题呢?
OOS可以将这些服务器的运维操作都编排到OOS模板中,当需要时一键启动,自动执行。模板化的操作,提升效率的同时,降低了误操作的风险。让运维更加的准确和高效。这就是OOS,而触发式带宽自动升级,也是通过OOS实现,我们看看是怎么做到的吧。
a2.png

二、 触发式带宽自动临时升级OOS模板简介
a3.png

模板的架构图如上,详细说明如下:

(1) 监控触发。通过云监控CMS对服务器公网带宽进行监控,当服务器的带宽使用率达到阈值时,会自动启动OOS的预设模板(后文提供),准备对服务器的带宽进行升级操作。

(2) DDos检测。正式升级服务器带宽前,会对服务器的DDOS状态进行检测,避免服务器带宽满载是由DDOS攻击导致。DDOS攻击是一种资源消耗型的攻击,如果检测状态为异常,则会通过钉钉机器人告知用户,相关运维人员可以通过钉钉机器人提供的链接,来登录DDOS控制台确认并处理异常,模板的运行也会就此自动终止。

(3) 阈值通知。DDOS检测通过后,在带宽正式升级前,会通过钉钉机器人发出阈值通知,告知用户,阈值触发了OOS进行带宽升级。

(4) 升级带宽。当前环节,会对服务器的带宽进行临时升级。升级完成后,通过钉钉机器人通知客户服务器带宽升级成功。当升级出现错误时,会通过钉钉机器人进行反馈,并停止模板。

(5) 结果反馈。带宽升级成功后,还会检测升级后的带宽使用率,进一步将升级结果反馈给用户。

三、 模板的运行结果展示
场景描述:通过从服务器下载文件,模拟服务器的出方向带宽达到阈值,触发OOS调用模板实现带宽自动的升级。
下图为服务器公网出方向的带宽使用情况(初始固定带宽为1M)
流量图.png

14:05 流量开始满载(达到阈值)
14:15 OOS监测达到阈值,并触发模板(满载到触发用时10分钟,后续说明)

  同时向钉钉机器人发送带宽达到阈值的通知

14:18 带宽临时升级完成(固定时间,3分钟)
14:20 向钉钉机器人发送通知---带宽升级成功(固定时间,5分钟)
14:25 向钉钉机器人发送通知---升级后,带宽使用率(固定时间,10分钟)

其他说明:
关于带宽满载到OOS模板被触发,用时共10分钟的问题。本模板使用的触发条件,为OOS中“告警与事件运维”中的阈值告警。由于云监控中公网出方向带宽使用率仅支持平均值,而OOS依赖云监控作为模板触发条件,所以OOS也只支持平均值,上图数据使用的是最大值,所以导致触发时间过长(后续,官方应该会优化)。建议大家设置“触发规则”参数时,使用带宽使用率的平均值作为阈值触发的指标。
a4.png

钉钉机器人收到的通知示意
升级触发通知:
ding1.png

升级完成通知:
ding2.png

升级成效通知
ding3.png

四、 费用预估
1M升级到50M,持续时间为24小时,费用约为:120元
1M升级到100M,持续时间为24小时,费用约为:250元
1M升级到200M,持续时间为24小时,费用约为:500元
可根据上述区间,粗略估算,升级产生的费用。如需查看准确的价格,请参照下面链接中的步骤,进行查看
https://help.aliyun.com/document_detail/59717.html?spm=5176.11065259.1996646101.searchclickresult.b8037bcdFtHGnv

五、 实现步骤
1.创建模板
点击链接:https://oos.console.aliyun.com/

s1.png
s2.png
s3.png

2.创建OOS扮演的角色
参考链接创建角色,并添加下图中的权限,即可(https://help.aliyun.com/document_detail/120810.html?spm=5176.11065259.1996646101.searchclickresult.1d9375f5f0ablH
s4.png

3.创建钉钉机器人,获取升级通知
参数如下链接中创建钉钉机器人的步骤创建机器人
https://help.aliyun.com/document_detail/144679.html#h2--2-webhook-5
并在钉钉机器人的设置中添加“阿里云”为自定义关键词
s9.png

4.创建OOS“告警与事件运维”
s5.png
s6.png
s7.png
s8.png
s10.png
s11.png
s12.png

“触发式带宽自动临时升级”的OOS模板,到此已经创建完成,当带宽达到阈值时,会按照模板设置的参数自动升级带宽,升级后带宽的持续时间是可以自定义的,到期后,带宽会自动回落到升级前的水平,节省带宽成本。

六、 模板提供
创作不易,感谢大家的支持,当文章的阅读量,达到2000+,将会在文章更新提供模板。有劳转发,感谢大家。

版权声明:本文中所有内容均属于阿里云开发者社区所有,任何媒体、网站或个人未经阿里云开发者社区协议授权不得转载、链接、转贴或以其他方式复制发布/发表。申请授权请邮件developerteam@list.alibaba-inc.com,已获得阿里云开发者社区协议授权的媒体、网站,在转载使用时必须注明"稿件来源:阿里云开发者社区,原文作者姓名",违者本社区将依法追究责任。 如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:developer2020@service.aliyun.com 进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
开发与运维
使用钉钉扫一扫加入圈子
+ 订阅

集结各类场景实战经验,助你开发运维畅行无忧

其他文章