阿里云自动化运维-OOS-触发式带宽自动临时升级

本文涉及的产品
系统运维管理,不限时长
简介: 对于初创公司而言,公司的网站流量暴增的时间点往往具有不确定性。预备富余的带宽,虽然可以提升用户的访问体验,但是平时的带宽使用率并不大,这就造成了带宽的浪费,而且增加了不必要的开销。本文将介绍如何使用OOS实现,当流量访问大的时候自动提升带宽,热度下降自动降低带宽。既提升用户访问体验,又有的放矢,节省公司的带宽成本。

一、什么是OOS
当我们接触到一个新的事物时,往往会关心,它是什么?有什么用?
1.png

OOS的英文全称是,Operation Orchestration Service (阿里云运维编排服务)直译为“操作编排服务”,顾名思义,它可以将一组的操作编排在一起。
比如说,当服务器的cpu使用率持续较高,磁盘容量不足,带宽常常满载等。这个时候,我们的运维人员,首先,需要升级CPU,且升级后需要重启服务器;其次,需要扩容磁盘,且扩容磁盘前,还需要先对磁盘进行快照备份数据;最后,需要升级服务器带宽。
按照常规的做法,需要一步步手动操作,相对来说比较繁琐,且改动需要在业务低峰期,所以常常需要在深夜进行调试。对于运维人员来说,身心疲惫,加上操作繁琐,出现误操作的概率大大增加。对于企业来说,这不但降低降低了工作效率,而且还增加了失误的风险。
a1.png

那么OOS怎么帮我们解决这个问题呢?
OOS可以将这些服务器的运维操作都编排到OOS模板中,当需要时一键启动,自动执行。模板化的操作,提升效率的同时,降低了误操作的风险。让运维更加的准确和高效。这就是OOS,而触发式带宽自动升级,也是通过OOS实现,我们看看是怎么做到的吧。
a2.png

二、 触发式带宽自动临时升级OOS模板简介
a3.png

模板的架构图如上,详细说明如下:

(1) 监控触发。通过云监控CMS对服务器公网带宽进行监控,当服务器的带宽使用率达到阈值时,会自动启动OOS的预设模板(后文提供),准备对服务器的带宽进行升级操作。

(2) DDos检测。正式升级服务器带宽前,会对服务器的DDOS状态进行检测,避免服务器带宽满载是由DDOS攻击导致。DDOS攻击是一种资源消耗型的攻击,如果检测状态为异常,则会通过钉钉机器人告知用户,相关运维人员可以通过钉钉机器人提供的链接,来登录DDOS控制台确认并处理异常,模板的运行也会就此自动终止。

(3) 阈值通知。DDOS检测通过后,在带宽正式升级前,会通过钉钉机器人发出阈值通知,告知用户,阈值触发了OOS进行带宽升级。

(4) 升级带宽。当前环节,会对服务器的带宽进行临时升级。升级完成后,通过钉钉机器人通知客户服务器带宽升级成功。当升级出现错误时,会通过钉钉机器人进行反馈,并停止模板。

(5) 结果反馈。带宽升级成功后,还会检测升级后的带宽使用率,进一步将升级结果反馈给用户。

三、 模板的运行结果展示
场景描述:通过从服务器下载文件,模拟服务器的出方向带宽达到阈值,触发OOS调用模板实现带宽自动的升级。
下图为服务器公网出方向的带宽使用情况(初始固定带宽为1M)
流量图.png

14:05 流量开始满载(达到阈值)
14:15 OOS监测达到阈值,并触发模板(满载到触发用时10分钟,后续说明)

  同时向钉钉机器人发送带宽达到阈值的通知

14:18 带宽临时升级完成(固定时间,3分钟)
14:20 向钉钉机器人发送通知---带宽升级成功(固定时间,5分钟)
14:25 向钉钉机器人发送通知---升级后,带宽使用率(固定时间,10分钟)

其他说明:
关于带宽满载到OOS模板被触发,用时共10分钟的问题。本模板使用的触发条件,为OOS中“告警与事件运维”中的阈值告警。由于云监控中公网出方向带宽使用率仅支持平均值,而OOS依赖云监控作为模板触发条件,所以OOS也只支持平均值,上图数据使用的是最大值,所以导致触发时间过长(后续,官方应该会优化)。建议大家设置“触发规则”参数时,使用带宽使用率的平均值作为阈值触发的指标。
a4.png

钉钉机器人收到的通知示意
升级触发通知:
ding1.png

升级完成通知:
ding2.png

升级成效通知
ding3.png

四、 费用预估
1M升级到50M,持续时间为24小时,费用约为:120元
1M升级到100M,持续时间为24小时,费用约为:250元
1M升级到200M,持续时间为24小时,费用约为:500元
可根据上述区间,粗略估算,升级产生的费用。如需查看准确的价格,请参照下面链接中的步骤,进行查看
https://help.aliyun.com/document_detail/59717.html?spm=5176.11065259.1996646101.searchclickresult.b8037bcdFtHGnv

五、 实现步骤
1.创建模板
点击链接:https://oos.console.aliyun.com/

s1.png
s2.png
s3.png

2.创建OOS扮演的角色
参考链接创建角色,并添加下图中的权限,即可(https://help.aliyun.com/document_detail/120810.html?spm=5176.11065259.1996646101.searchclickresult.1d9375f5f0ablH
s4.png

3.创建钉钉机器人,获取升级通知
参数如下链接中创建钉钉机器人的步骤创建机器人
https://help.aliyun.com/document_detail/144679.html#h2--2-webhook-5
并在钉钉机器人的设置中添加“阿里云”为自定义关键词
s9.png

4.创建OOS“告警与事件运维”
s5.png
s6.png
s7.png
s8.png
s10.png
s11.png
s12.png

“触发式带宽自动临时升级”的OOS模板,到此已经创建完成,当带宽达到阈值时,会按照模板设置的参数自动升级带宽,升级后带宽的持续时间是可以自定义的,到期后,带宽会自动回落到升级前的水平,节省带宽成本。

六、 模板提供
创作不易,感谢大家的支持,当文章的阅读量,达到2000+,将会在文章更新提供模板。有劳转发,感谢大家。

目录
相关文章
|
15天前
|
运维 监控 安全
构建高效运维体系:从监控到自动化的全方位实践
本文深入探讨了构建高效运维体系的关键要素,从监控、日志管理、自动化工具、容器化与微服务架构、持续集成与持续部署(CI/CD)、虚拟化与云计算以及安全与合规等方面进行了全面阐述。通过引入先进的技术和方法,结合实际案例和项目经验,为读者提供了一套完整的运维解决方案,旨在帮助企业提升运维效率,降低运营成本,确保业务稳定运行。
|
14天前
|
机器学习/深度学习 运维 Prometheus
构建高效运维体系:从自动化部署到智能监控的全方位实践
在当今数字化时代,企业对运维效率和稳定性的要求越来越高。本文将探讨如何构建一个高效的运维体系,从自动化部署、持续集成与持续交付(CI/CD)、智能监控、故障管理以及数据驱动决策等方面进行深入分析和实践指导。通过这些方法,企业可以实现更快速、更可靠的软件发布和问题解决,提升整体运营效率。
|
9天前
|
敏捷开发 运维 Prometheus
构建高效运维体系:从基础架构到自动化管理
本文探讨了如何通过优化基础架构、引入自动化工具和流程,以及加强团队协作,构建高效的运维体系。通过案例分析和实践建议,帮助运维人员实现系统的稳定性、可靠性和可维护性。
|
4天前
|
机器学习/深度学习 运维 Cloud Native
构建高效运维体系:从自动化到智能化的演进之路
在当今数字化时代,运维作为信息技术的重要支柱,其效率与创新能力直接关系到企业信息系统的稳定性和业务连续性。本文将探讨如何通过技术手段,实现运维从传统手工操作向自动化、智能化的转变,进而构建一个高效、可靠的运维体系。我们将从自动化工具的应用开始,逐步深入到智能运维的实践,最终展望云原生架构下的运维未来趋势。
|
6天前
|
运维 Ubuntu 应用服务中间件
自动化运维:使用Ansible进行配置管理和任务自动化
【9月更文挑战第27天】在现代IT基础设施中,自动化运维是提高效率、减少人为错误和确保系统一致性的关键。本文将介绍如何使用Ansible,一个流行的开源IT自动化工具,来简化日常的运维任务。我们将探索Ansible的核心概念,包括它的架构、如何安装和使用它,以及一些实际的使用案例。无论你是新手还是有经验的运维专家,这篇文章都会提供有价值的见解和技巧,以帮助你更好地利用Ansible实现自动化。
|
4天前
|
运维 监控 关系型数据库
自动化运维:编写基本的自动化脚本
自动化运维:编写基本的自动化脚本
8 1
|
6天前
|
运维 Prometheus 监控
运维中的自动化工具与实践指南
本文深入探讨了自动化工具在IT运维中的重要性,提供了多种实用工具的推荐与应用实例。通过分析自动化工具如何提升运维效率、减少错误率,我们将揭示其在现代信息技术管理中的核心价值。无论你是IT新手还是经验丰富的专家,都能从中汲取到有益的知识,进而提升你的工作效果。
|
11天前
|
弹性计算 运维 监控
高效运维:从自动化到智能化
本文探讨了运维领域的发展历程,重点分析了自动化和智能化在提升运维效率和稳定性中的关键作用。通过对实际案例的剖析,展示了如何利用现代技术手段优化运维流程,并展望了未来运维的发展方向。
|
7天前
|
机器学习/深度学习 人工智能 运维
构建高效运维体系:从自动化到智能化的演进之路
在当今数字化时代,运维作为保障企业IT系统稳定运行的关键环节,正经历着前所未有的变革。本文将探讨如何通过实施自动化和引入智能化技术,构建一个更加高效、可靠的运维体系,以应对日益复杂的业务需求和技术挑战。
19 1
|
14天前
|
机器学习/深度学习 人工智能 运维
高效运维:从自动化到智能化的演进之路
在当今数字化时代,运维领域正经历着从人工到自动化,再向智能化迈进的深刻变革。本文将探讨自动化运维的实践方法、面临的挑战以及如何向智能化运维转型的策略,旨在为读者提供一条清晰的演进路径,帮助企业提升运维效率,降低风险,并最终实现价值最大化。
下一篇
无影云桌面