SLS新版告警入门-监控主机CPU异常

本文涉及的产品
对象存储 OSS,20GB 3个月
云备份 Cloud Backup,100GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
简介: 随着用户量的增加,后台服务经常需要部署在多台服务器或者集群中来提高性能和增强可用性,在提供服务的过程中,由于程序bug或者业务徒增导致CPU飙高,如果CPU持续飙高,可能会导致机器down机,对服务造成不可用。本文以此为背景,在主机监控时序数据中,配置SLS告警,来监控主机CPU飙高,并且在CPU飙高时发出告警到钉钉机器人。

背景

随着用户量的增加,后台服务经常需要部署在多台服务器或者集群中来提高性能和增强可用性,在提供服务的过程中,由于程序bug或者业务徒增导致CPU飙高,如果CPU持续飙高,可能会导致机器down机,对服务造成不可用。

所以,及时发现CPU资源紧张,并发出告警非常重要。

本文以此为背景,在主机监控时序数据中,配置SLS告警,来监控主机CPU飙高,并且在CPU飙高时发出告警到钉钉机器人;


主要步骤

  • 设置监控目标,主机监控,时序数据
  • 配置告警规则:设置触发告警
  • 设置行动策略:设置告警触发后的通知渠道
  • 接收告警通知


配置告警

查询主机CPU使用率

  • 如果未接入主机监控数据,可以使用主机监控模拟接入来生成时序数据【参考
  • 接入主机监控时序数据后,切到相应的时序库,比如ecs-metric;点击查询分析,选择指标cpu_util,点击右边预览按钮;页面上方会展示出时序数据的图表
  • 鼠标滑过某个点区域,可以看到不同维度下指标值;接下来的告警将按照时序的维度来发出告警

配置告警规则

  • 在上述查询页面中,点击页面右边的另存为告警按钮
  • 首次配置(每个用户仅需配置一次):需要选择告警中心Project的存储位置,告警中心Project中默认有一个internal-alert-center-log的logstore(免费),会存储一些告警的重要日志,还有三个重要报表供查询分析,包括告警链路中心,监控规则中心,告警排障中心。


  • 接下来将对指标值进行监控,如果cpu_util的值大于200%,需要发出告警给指定的钉钉机器人。
  • 配置告警规则名,触发条件,和添加标注

  • 触发条件这里设置的value > 200,表示任意机器的cpu_util高于200%,触发告警;【参考】.
  • 对于时序库,使用SQL+PromQL查询分析,value表示某个时间点对应的值;参考
  • 标注默认包含标题和描述:在标题和描述中我们可以引用时序查询结果中的hostname,ip和value;
  • 注意promql_query查询出来的labels会被展开;
  • 标注标题:机器CPU过高
  • 标题描述:机器${hostname}CPU过高,当前值为${value}%


新增行动策略

行动策略是指告警触发后,需要执行什么动作,比如可以发送邮件,发送钉钉,调用webhook等;这里以首次配置行动策略为例,来讲如何新增行动策略。

  • 点击新增,会跳转到创建行动策略页面,当前页面不要关闭。

  • 接下来在界面上配置行动策略,填写行动策略ID和行动策略名称,点击行动的小icon(上图红框位置),添加通知渠道;

  • 这里通知渠道例子使用钉钉机器人来通知,需要事先配置好钉钉机器人[参考],注意钉钉机器人的安全设置,可以启用自定义关键词,填入“告警”;行动组,选择渠道钉钉,请求地址写钉钉机器人的Webhook,内容模板选择默认模板【内容模板参考

  • 点击结束按钮
  • 会增加一个结束节点

  • 点击确认按钮,即创建好了行动策略



配置行动策略

  • 创建完行动策略,返回告警规则页面,点击告警策略的刷新按钮

  • 点击行动策略的下拉框,选择刚才创建的行动策略

  • 其他保持默认,点击确认按钮,保存告警规则

接收告警通知

  • 等待5分钟,在钉钉中可以收到告警消息,因为在配置告警规则时,分组评估默认为标签自动,表示会按照时序的维度分开来告警,可以从下图看到有两台ECS出现CPU飙高,分别有两条告警消息
  • 点击查询详情可以跳转到告警执行时刻的日志查询页面,点击屏蔽5分钟可以跳转到告警规则页面。


常见问题

  • 如果想尽快收到告警,可以在配置告警规则步骤中,将检查频率设置为1分钟;触发条件设置为value > 80,这样更容易触发告警;
  • 钉钉机器人未收到告警可以排查是否设置了安全关键词;


至此,一个监控主机CPU飙高的告警例子就完成了。这里只是一个简单的告警项目,演示了告警的一些基本功能,SLS告警具有非常强大的功能,新版告警提供对日志、时序等各类数据的告警监控,亦可接受三方告警,对告警进行降噪、事件管理、通知管理等,新增40+功能场景,充分考虑研发、运维、安全以及运营人员的告警监控运维需求。【参考


更多参考

  • 什么是日志服务告警【链接
  • 告警监控,创建告警规则【链接
  • 告警管理,创建告警规则【链接
  • 用户管理,创建用户及用户组【链接
  • 通知管理【链接

进一步参考


最后,如果您还想了解更多智能运维前沿资讯,欢迎您报名参加【数智创新行·智能运维专场】。

6月25日|上海·西岸国际人工智能中心

数智创新行上海站·智能运维专场

阿里云将带来云原生智能运维解决方案,满足海量事件有效感知、高效响应,可观测数据统一分析、故障定位,以及基于AI的异常检测等需求,助力企业构建自己的运维平台,成为开发、运维人员高效可靠的助手。

扫描海报二维码或点击下方链接报名, 期待您一起开启智能运维新时代!

https://www.aliyun.com/page-source//developer/special/osssalon

智能运维专场图片.jpg


相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
存储 SQL 监控
SLS新版告警自助排查系列之告警监控
在SLS告警中,告警监控通过对数据源的查询监控,然后产生告警,并将告警发送到告警管理,告警管理会对告警进行降噪处理包括合并抑制静默后,在将告警发送给行动管理,最终发送通知到用户配置的接收渠道。在整个过程中,告警监控作为告警的源头,决定着告警是否能准确的发出。在配置告警监控规则时,配置不当或者配置错误都会导致告警不能触发或者不是希望的触发。本文主要介绍在告警监控中如何进行自助排查问题。
643 0
|
监控 API 存储
如何实现 Logtail 的状态监控与异常告警
作为日志服务的采集 agent,Logtail 一般位于业务数据链路的前段,为链路中的后续部分输送数据,因此,它的正常运行显得至关重要。经过多年的实战打磨,Logtail 在稳定性和性能上都已经比较出色,在机器、网络等环境不变的情况下,配置完成后基本不再需要进行任何运维。
2479 0
如何实现 Logtail 的状态监控与异常告警
|
9月前
|
运维 监控 安全
SLS相同监控规则太多?试试告警监控模板
本文主要介绍了SLS自定义告警监控模板的使用场景以及最佳实践。
176 0
SLS相同监控规则太多?试试告警监控模板
|
监控 数据可视化 机器人
SLS新版本告警入门——告警管理概述
日志服务支持为查询或分析结果设置告警。设置告警后,日志服务定期检查查询或分析结果,当检查结果满足预设条件时发送告警通知,实现实时的服务状态监控。在旧版本的告警中,告警规则以及通知的配置都很简单直观,但是也存在着一些痛点。为了解决上述种种存在的痛点,我们对SLS的告警功能进行了升级,提供了更加强大的功能。可以完美解决以上的一些痛点。
714 0
SLS新版本告警入门——告警管理概述
|
SQL 存储 数据采集
用户指南—监控与告警—计算资源监控
为方便您掌握实例的运行状态,PolarDB-X提供监控查询功能。您可以在控制台上查看计算资源监控和存储资源监控信息。其中计算资源监控展示了实例计算层资源的性能数据,本文将介绍如何查看计算资源监控信息。
147 0
用户指南—监控与告警—计算资源监控
|
监控 应用服务中间件 nginx
日志服务之告警接入与管理-4
日志服务之告警接入与管理-4
130 0
|
监控 应用服务中间件 nginx
日志服务之告警接入与管理-3
日志服务之告警接入与管理-3
160 0
|
数据采集 运维 监控
日志服务之告警接入与管理-1
日志服务之告警接入与管理-1
116 0
|
Web App开发 存储 监控
日志服务之告警接入与管理
本教程介绍如何使用日志服务接入NGINX模拟数据,并配置告警规则来对NGINX访问错误进行监控。
|
Web App开发 存储 移动开发
日志服务之告警接入与管理-2
日志服务之告警接入与管理-2
127 0

相关产品

  • 日志服务