阿里云自动化运维-OOS-触发式带宽自动临时升级

本文涉及的产品
系统运维管理,不限时长
简介: 对于初创公司而言,公司的网站流量暴增的时间点往往具有不确定性。预备富余的带宽,虽然可以提升用户的访问体验,但是平时的带宽使用率并不大,这就造成了带宽的浪费,而且增加了不必要的开销。本文将介绍如何使用OOS实现,当流量访问大的时候自动提升带宽,热度下降自动降低带宽。既提升用户访问体验,又有的放矢,节省公司的带宽成本。

一、什么是OOS
当我们接触到一个新的事物时,往往会关心,它是什么?有什么用?
1.png

OOS的英文全称是,Operation Orchestration Service (阿里云运维编排服务)直译为“操作编排服务”,顾名思义,它可以将一组的操作编排在一起。
比如说,当服务器的cpu使用率持续较高,磁盘容量不足,带宽常常满载等。这个时候,我们的运维人员,首先,需要升级CPU,且升级后需要重启服务器;其次,需要扩容磁盘,且扩容磁盘前,还需要先对磁盘进行快照备份数据;最后,需要升级服务器带宽。
按照常规的做法,需要一步步手动操作,相对来说比较繁琐,且改动需要在业务低峰期,所以常常需要在深夜进行调试。对于运维人员来说,身心疲惫,加上操作繁琐,出现误操作的概率大大增加。对于企业来说,这不但降低降低了工作效率,而且还增加了失误的风险。
a1.png

那么OOS怎么帮我们解决这个问题呢?
OOS可以将这些服务器的运维操作都编排到OOS模板中,当需要时一键启动,自动执行。模板化的操作,提升效率的同时,降低了误操作的风险。让运维更加的准确和高效。这就是OOS,而触发式带宽自动升级,也是通过OOS实现,我们看看是怎么做到的吧。
a2.png

二、 触发式带宽自动临时升级OOS模板简介
a3.png

模板的架构图如上,详细说明如下:

(1) 监控触发。通过云监控CMS对服务器公网带宽进行监控,当服务器的带宽使用率达到阈值时,会自动启动OOS的预设模板(后文提供),准备对服务器的带宽进行升级操作。

(2) DDos检测。正式升级服务器带宽前,会对服务器的DDOS状态进行检测,避免服务器带宽满载是由DDOS攻击导致。DDOS攻击是一种资源消耗型的攻击,如果检测状态为异常,则会通过钉钉机器人告知用户,相关运维人员可以通过钉钉机器人提供的链接,来登录DDOS控制台确认并处理异常,模板的运行也会就此自动终止。

(3) 阈值通知。DDOS检测通过后,在带宽正式升级前,会通过钉钉机器人发出阈值通知,告知用户,阈值触发了OOS进行带宽升级。

(4) 升级带宽。当前环节,会对服务器的带宽进行临时升级。升级完成后,通过钉钉机器人通知客户服务器带宽升级成功。当升级出现错误时,会通过钉钉机器人进行反馈,并停止模板。

(5) 结果反馈。带宽升级成功后,还会检测升级后的带宽使用率,进一步将升级结果反馈给用户。

三、 模板的运行结果展示
场景描述:通过从服务器下载文件,模拟服务器的出方向带宽达到阈值,触发OOS调用模板实现带宽自动的升级。
下图为服务器公网出方向的带宽使用情况(初始固定带宽为1M)
流量图.png

14:05 流量开始满载(达到阈值)
14:15 OOS监测达到阈值,并触发模板(满载到触发用时10分钟,后续说明)

  同时向钉钉机器人发送带宽达到阈值的通知

14:18 带宽临时升级完成(固定时间,3分钟)
14:20 向钉钉机器人发送通知---带宽升级成功(固定时间,5分钟)
14:25 向钉钉机器人发送通知---升级后,带宽使用率(固定时间,10分钟)

其他说明:
关于带宽满载到OOS模板被触发,用时共10分钟的问题。本模板使用的触发条件,为OOS中“告警与事件运维”中的阈值告警。由于云监控中公网出方向带宽使用率仅支持平均值,而OOS依赖云监控作为模板触发条件,所以OOS也只支持平均值,上图数据使用的是最大值,所以导致触发时间过长(后续,官方应该会优化)。建议大家设置“触发规则”参数时,使用带宽使用率的平均值作为阈值触发的指标。
a4.png

钉钉机器人收到的通知示意
升级触发通知:
ding1.png

升级完成通知:
ding2.png

升级成效通知
ding3.png

四、 费用预估
1M升级到50M,持续时间为24小时,费用约为:120元
1M升级到100M,持续时间为24小时,费用约为:250元
1M升级到200M,持续时间为24小时,费用约为:500元
可根据上述区间,粗略估算,升级产生的费用。如需查看准确的价格,请参照下面链接中的步骤,进行查看
https://help.aliyun.com/document_detail/59717.html?spm=5176.11065259.1996646101.searchclickresult.b8037bcdFtHGnv

五、 实现步骤
1.创建模板
点击链接:https://oos.console.aliyun.com/

s1.png
s2.png
s3.png

2.创建OOS扮演的角色
参考链接创建角色,并添加下图中的权限,即可(https://help.aliyun.com/document_detail/120810.html?spm=5176.11065259.1996646101.searchclickresult.1d9375f5f0ablH
s4.png

3.创建钉钉机器人,获取升级通知
参数如下链接中创建钉钉机器人的步骤创建机器人
https://help.aliyun.com/document_detail/144679.html#h2--2-webhook-5
并在钉钉机器人的设置中添加“阿里云”为自定义关键词
s9.png

4.创建OOS“告警与事件运维”
s5.png
s6.png
s7.png
s8.png
s10.png
s11.png
s12.png

“触发式带宽自动临时升级”的OOS模板,到此已经创建完成,当带宽达到阈值时,会按照模板设置的参数自动升级带宽,升级后带宽的持续时间是可以自定义的,到期后,带宽会自动回落到升级前的水平,节省带宽成本。

六、 模板提供
创作不易,感谢大家的支持,当文章的阅读量,达到2000+,将会在文章更新提供模板。有劳转发,感谢大家。

目录
相关文章
|
6月前
|
弹性计算 运维 安全
带你读《云上自动化运维宝典》——如何使用OOS有效进行云上自动化运维(2)
带你读《云上自动化运维宝典》——如何使用OOS有效进行云上自动化运维(2)
289 1
|
6月前
|
弹性计算 运维 监控
带你读《云上自动化运维宝典》——如何使用OOS有效进行云上自动化运维(1)
带你读《云上自动化运维宝典》——如何使用OOS有效进行云上自动化运维(1)
303 0
|
6月前
|
弹性计算 运维 Linux
Docker环境如何配置?使用阿里云OOS一步搞定!
阿里云OOS简化了ECS上应用部署,提供Docker一键安装服务。支持多种操作系统,包括Alibaba Cloud Linux、CentOS、Ubuntu、Debian和Windows Server。要安装Docker,用户只需在OOS扩展程序中选择并确认实例,执行安装。OOS扩展程序还支持Java、Python等开发环境及宝塔面板、WordPress等应用的快速配置,提升运维效率,让云资源管理更便捷。
Docker环境如何配置?使用阿里云OOS一步搞定!
|
5月前
|
运维 监控
如何使用OOS有效进行云上自动化运维
OOS(运维编排服务)是一种云上自动化运维工具,可以帮助你有效进行云资源的管理和维护。以下是如何使用OOS有效进行云上自动化运维的一些建议: 1. **利用自动化能力**:OOS提供了批量操作、
|
3月前
|
弹性计算 运维 监控
通过阿里云OOS“快速设置”快速配置多地域运维任务
阿里云OOS的快速设置功能助力用户简便配置多地域运维任务,如云监控安装、配置收集与补丁扫描,定时开关机,周期性带宽升级,实现自动化管理,确保配置一致性,提升运维效率。
|
4月前
|
Java BI 运维
开发与运维配置问题之升级机器配置后出现频繁的GC问题和超长的GC时间如何解决
开发与运维配置问题之升级机器配置后出现频繁的GC问题和超长的GC时间如何解决
34 1
|
4月前
|
Java 运维
开发与运维内存问题之触发Full GC,类加载检查如何解决
开发与运维内存问题之触发Full GC,类加载检查如何解决
32 0
|
5月前
|
消息中间件 弹性计算 缓存
通过OOS定时升级Redis实例临时带宽
阿里云OOS提供了定时升级Redis实例临时带宽的功能,以应对数据驱动业务中的流量高峰。这个功能允许用户根据预测的业务负载,在特定日期和时间自动增加Redis实例的带宽,确保服务性能和稳定性。在高流量事件结束后,带宽会自动恢复到原设置,节省成本。 此功能适用于电商平台促销、大型游戏更新等场景,确保在流量高峰期间的系统稳定运行。
|
5月前
|
弹性计算 UED
通过OOS定时升级EIP实例临时带宽
阿里云推出了一项定时升级EIP(弹性公网IP)带宽的功能,旨在解决企业在特定流量高峰时段的网络带宽需求。此功能允许用户预设特定日期和时间自动升级带宽,如电商大促、直播活动或数据备份期间,以确保服务稳定并降低成本。用户可通过OOS控制台设置自动化任务,包括定时类型(立即、一次或周期性)、EIP实例地域、带宽值、升级持续时间和执行速率控制。在流量高峰过后,带宽会自动恢复到原设定,以节省费用。此功能适用于按固定带宽计费的EIP实例,不支持按流量计费的公网带宽。
|
6月前
|
弹性计算 运维 安全
如何使用OOS有效进行云上自动化运维
阿里云弹性计算团队十三位产品专家和技术专家共同分享云上运维深度实践,详细阐述如何利用CloudOps工具实现运维提效、弹性降本。
134209 220

热门文章

最新文章