运维编排系列场景--通过告警触发自动重启CPU使用率高的ECS实例

本文涉及的产品
性能测试 PTS,5000VUM额度
系统运维管理,不限时长
简介: 运维编排(OOS) 简介什么是OOSOperation Orchestration Service,简称OOS,是全面、免费的云上自动化运维平台,提供运维任务的管理和执行。典型使用场景包括:事件驱动运维,批量操作运维,定时运维任务,跨地域运维等,OOS为重要运维场景提供审批,通知等功能。OOS帮您实现标准化运维任务,从而实践运维即代码(Operations as Code)的先进理念。关于OOS更

运维编排(OOS) 简介

什么是OOS

Operation Orchestration Service,简称OOS,是全面、免费的云上自动化运维平台,提供运维任务的管理和执行。典型使用场景包括:事件驱动运维,批量操作运维,定时运维任务,跨地域运维等,OOS为重要运维场景提供审批,通知等功能。OOS帮您实现标准化运维任务,从而实践运维即代码(Operations as Code)的先进理念。关于OOS更详细的介绍请查阅 运维编排服务

场景介绍

当ECS实例因已知或未知的原因CPU使用率过高时,往往会影响实例上应用的运行状态,造成应用运行缓慢甚至卡死。这是如果通过重启实例能够将ECS实例的CPU使用率快速恢复到较低的水平,就能够避免对应用的影响。在这个场景中,可以使用OOS告警触发功能,将CPU使用率高的实例自动重启,从而达到无人值守自动恢复的效果。

操作步骤

  1. 登录 OOS控制台
  2. 单击 告警与事件运维 ,单击 创建
  3. 设置 触发规则
  4. 产品类型选择 云服务器ECS ,在规则描述中选择触发条件;本文选择当 cpu_total 大于80%时,触发告警操作,即进行重启实例; 触发沉默周期 默认为5分钟,即5分钟内不会因为重复的告警而重启实例。
  5. 在需要 报警资源 中,选择要监控CPU使用率的实例。
  6. 选择模板,模板类型选择公共模板,并选择批量重启ECS实例模板  ACS-ECS-BulkyRebootInstances
  7. 设置模板参数。选择 从告警消息体选择参数
    1. 地域ID 目标实例 任务执行的并发比率 保留默认配置即可。
    2. 执行使用到的权限的来源 ,需要为OOS服务创建RAM角色,参考《 为OOS服务设置RAM权限 》。执行此模板需要的权限策略。
{
  "Version": "1",
  "Statement": [
    {
      "Action": [
        "ecs:RebootInstance",
        "ecs:DescribeInstances"
      ],
      "Resource": "*",
      "Effect": "Allow"
    }
  ]
}

  1. 设置完成后,单击 创建

结果验证

针对本文中的场景,可以通过压测工具 stress-ng 模拟CPU使用率高的情况。

  1. 远程连接 登录到监控的ECS实例。
  2. 安装stress-ng
# AliyunLinux/CentOS/RHEL
yum install stress-ng -y

# Ubuntu/Debian
apt-get install stress-ng -y
  1. 运行stress-ng命令模拟CPU使用。
# stress-ng命令可以根据压测需求调整参数。
# 示例命令中,使用stress-ng压测2个CPU核,CPU负载设置为85%,运行5分钟后停止。
stress-ng --cpu 2 --cpu-load 85 --timeout 5m
  1. 压测1分钟左右,观察告警触发被执行,运行命令的ECS实例被重启成功,ECS实例的CPU使用率也下降。

 

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
5月前
|
存储 编解码 缓存
阿里云服务器实例规格选择参考:根据业务场景选择云服务器实例规格
在阿里云服务器的购买过程中,云服务器实例规格是很多用户最难选择的一个选项,因为阿里云有着多达几十种不同的实例规格,为此,阿里云官方在云服务器购买页面新推出了一个场景化选型推荐,用户可通过自己的上云场景结合场景化选型里面的业务场景和细分场景来选择适合自己的阿里云服务器实例规格,在很大程度上解决了新手用户在选择阿里云服务器实例规格上的困局。
166 11
阿里云服务器实例规格选择参考:根据业务场景选择云服务器实例规格
|
7月前
|
存储 安全 数据库
阿里云服务器计算型、通用型、内存型主要实例规格性能特点和适用场景汇总
阿里云服务器ECS计算型、通用型、内存型规格族属于独享型云服务器,在高负载不会出现计算资源争夺现象,因为每一个vCPU都对应一个Intel ® Xeon ®处理器核心的超线程,具有性能稳定且资源独享的特点。本文为大家整理汇总了阿里云服务器ECS计算型、通用型、内存型主要实例规格族具体实例规格有哪些,各个实例规格的性能特点和主要适用场景。
阿里云服务器计算型、通用型、内存型主要实例规格性能特点和适用场景汇总
|
3月前
|
人工智能 安全 Linux
|
4月前
|
机器学习/深度学习 人工智能 边缘计算
高算力服务器的应用场景
【10月更文挑战第18天】高算力服务器作为现代信息社会不可或缺的计算资源,正广泛应用于各行各业。从人工智能到科学研究,从智能交通到数字孪生,它为复杂的计算任务提供了不可替代的支持。
124 0
|
5月前
|
弹性计算 JSON 运维
阿里云ECS实例运维属性-如何控制实例的宕机表现
介绍如何通过运维属性指定阿里云ECS的宕机运维表现等
|
6月前
|
弹性计算 固态存储 ice
阿里云服务器2核16G、4核32G、8核64G配置不同ECS实例规格收费标准和CPU性能差异
2024年阿里云提供2核16G、4核32G及8核64G等多种服务器配置,用户可根据需求选择不同实例规格如内存型r8i、通用算力型u1等。以华北2(北京)为例,2核16G月费从286.2至385.99元不等;4核32G为572.4至771.97元;8核64G则在1144.8至1543.94元区间。公网带宽与系统盘(如ESSD云盘)亦有多样化选择与价格方案。长期租赁可享折扣,具体价格请访问阿里云官网确认。
210 7
|
7月前
|
存储 人工智能 数据可视化
阿里云服务器的十二种典型应用场景
阿里云还提供了数据可视化服务DataV,帮助用户通过图形化的界面轻松搭建专业水准的可视化应用。用户可以利用DataV进行数据监控、调度和会展演示等工作,提高数据分析和决策的效率。
|
6月前
|
开发框架 JavaScript Java
【Azure 应用服务】Azure App Service多实例中,出现某一个实例CPU居高不下的情况,如何重启单个实例呢?
【Azure 应用服务】Azure App Service多实例中,出现某一个实例CPU居高不下的情况,如何重启单个实例呢?
|
7月前
|
存储 分布式计算 视频直播
阿里云服务器的十二种典型应用场景:解锁云计算的无限可能
场景概述: 区块链技术在金融、供应链管理等领域有着广泛的应用。阿里云提供了区块链服务BaaS,支持联盟链的快速部署和管理。
|
弹性计算 负载均衡 测试技术
运维编排系列场景--跨可用区批量克隆ECS实例
背景可用区(Availability Zone,简称 AZ)是指在同一地域内,电力和网络互相独立的物理区域。例如,华北1(青岛)地域支持2个可用区,包括青岛 可用区B和青岛 可用区C。同一可用区内实例之间的网络延时更小,其用户访问速度更快。将应用部署在多个可用区可以提高应用的可用性,降低故障风险。然而,在实际应用中,有时需要将实例从一个可用区迁移到另一个可用区,以实现故障切换、负载均衡、数据备份与
运维编排系列场景--跨可用区批量克隆ECS实例