【新功能】智能巡检支持更加灵活的告警

本文涉及的产品
对象存储 OSS,20GB 3个月
阿里云盘企业版 CDE,企业版用户数5人 500GB空间
云备份 Cloud Backup,100GB 3个月
简介: 主要介绍如何通过SLS的告警2.0的能力去管理【智能巡检】任务产生的异常事件。通过实体维度和特征纬度的单独配置您需要的告警事件。

前期回顾

功能介绍

基础任务创建

为了提高【智能巡检】任务结果事件处理的灵活性,同时规避掉【结果字段】复杂且难理解的问题,我们开发了对于事件管理的【告警配置】页面。下面,根据一个特定的场景来介绍如何使用该告警能力。

  • 打开SLS的产品首页,我们找到【智能巡检】的入口

  • 我们先来创建一个【巡检任务】

在选择了对应的project/logstore后,我们通过如下SQL语句进行任务的配置,具体如下:

* | select __time__ - __time__ % 60 as time, COUNT(*) as num, avg(duration) as avg_duration, approx_percentile(duration, 0.95) as p95_duration, approx_percentile(duration, 0.99) as p99_duration,service from log group by time, service order by time limit 1000000

这里的数据是通过每分钟执行上面的SQL来得到每分钟,每个服务的观测特征(每分钟的请求次数、每分钟的平均响应延时、每分钟响应延时的95分位数、每分钟响应延时的99分位数),并将上述结果,分别按照规则配置到【时间列、实体列、特征列】中。在后续进行简单的配置后(就是什么都不用修改,按照默认参数配置就行)我们来到了告警配置页面。接下来,我们会较为详细的介绍告警配置服务。

告警配置

告警配置在【巡检任务】中一共有两个部分

  • 在【任务创建】阶段的【最后一个步骤】,这里我们起名为【告警配置一

  • 在【任务详情】部分有单独的【告警配置页面】,这里我们起名为【告警配置二


接下来,分别阐述各自告警的能力

告警配置一

一个【巡检作业】对应后台一个【常驻任务】,这里面是将告警的【通道】(行动策略和告警策略)作为参数传递给了这个【常驻任务】,这里的告警内容是根据【常驻任务】中的通知逻辑进行发送的。这里有几个典型的特点,具体的细节可以查看【智能巡检告警配置最佳实践】这篇文章中的详细说明。

告警配置二

每个【常驻任务】会将算法检查出来的【异常事件】写入到指定的logstore中,一般默认是任务所关联的原始Project中的【internal-ml-log】中去,具体的结构说明,可以参考官网文档【https://help.aliyun.com/document_detail/362912.html】。这里的【告警配置】是对这些【异常事件】进行再次加工和处理,得到的汇聚事件在进行告警的。接下来我们根据告警配置页面进行一下说明:

实体选择

  • 完整匹配模式

您可以选择【ALL】表示关注全部的实体;您也可以多选任意几个实体,每个实体底层会对应一个md5值;

  • 模糊匹配模式

这里是对这个维度中的实体进行过滤,您要使用SQL中的针对字符串模糊匹配的语法,可以使用like操作。

特征选择

  • 任意维度:上述选择出来的实体中,任意一个维度有异常都要进行相关的告警通知
  • 特定维度

这里也比较好理解,您可以选择实体的观测维度中自由的进行组合,可以去指定您感兴趣的维度、异常类型、异常分数等进行告警的过滤。

检查频率

这里有一个注意事项:检查频率的固定间隔,最好选择要覆盖【巡检任务】中的【调度延时】。这里我提供一个形象的示意图。

因此,在配置检查频率时已经要至少 >【数据聚合频率】+【执行调度延时】+【固定观测间隔】+【1分钟】。

目录
相关文章
|
6月前
|
Prometheus 运维 Java
|
数据采集 监控 前端开发
新功能:SLS支持持续性能数据采集与监控
降本增效的背景下,提升资源利用率变得更加重要,SLS 新功能持续性能数据采集与监控助力开发者突破性能瓶颈,定位系统顽疾。
19944 0
新功能:SLS支持持续性能数据采集与监控
|
运维 监控 安全
多监控系统产生的告警如何高效管理-运维事件中心
阿里云运维事件中心作为数字化运营企业业务连续性的一站式运维管理平台,提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能,帮助企业完成数字化管理。
685 0
多监控系统产生的告警如何高效管理-运维事件中心
|
运维 监控 调度
【Dataphin智能运维】智能基线,自动化预警代替人工监控
DataphinV3.6版本全新上线智能运维模块,支持基线监控和调度限流功能。基线监控能够快速捕捉导致基线上的任务无法按时完成的异常情况并提前预警,保障复杂依赖场景下重要数据能在预期时间内顺利产出,帮助您降低人工配置成本、提升监控及时性和准确性、避免无效报警,运维人员的好帮手,管理者的福音!
【Dataphin智能运维】智能基线,自动化预警代替人工监控
|
云安全 安全 数据库
基础巡检功能使用 | 学习笔记
快速学习基础巡检功能使用
159 0
|
运维 Prometheus 监控
告警运维中心|构建高效精准的告警协同处理体系
基于报告,ARMS 能快速的整合上下文,包括 Prometheus 监控进行监控。还有前端监控的相关数据,都会整合到报告里面,进行全方位检测来收敛相关问题。
告警运维中心|构建高效精准的告警协同处理体系
3 月应用实时监控服务 ARMS 产品功能更新
3 月应用实时监控服务 ARMS 产品功能更新
3 月应用实时监控服务 ARMS 产品功能更新
|
6月前
|
存储 运维 监控
基于业务的告警管理最佳实践
本文主要介绍了SLS告警管理中心的业务概念和功能。
252 0
基于业务的告警管理最佳实践
|
消息中间件 存储 运维
平台上配置智能告警
平台上配置智能告警
179 0
|
机器人
智能巡检告警配置最佳实践
智能异常分析的检测结果通过 SLS 告警功能输出到用户配置的通知渠道。在智能巡检场景中,单个任务往往会巡检大量的实体对象,涉及到的对象规则很多,我们通过SLS新版告警可以实现较好的对于巡检事件的管理。
760 0