智能巡检告警配置最佳实践

本文涉及的产品
对象存储 OSS,20GB 3个月
阿里云盘企业版 CDE,企业版用户数5人 500GB空间
云备份 Cloud Backup,100GB 3个月
简介: 智能异常分析的检测结果通过 SLS 告警功能输出到用户配置的通知渠道。在智能巡检场景中,单个任务往往会巡检大量的实体对象,涉及到的对象规则很多,我们通过SLS新版告警可以实现较好的对于巡检事件的管理。

智能异常分析的检测结果通过 SLS 告警功能输出到用户配置的通知渠道。在智能巡检场景中,单个任务往往会巡检大量的实体对象,涉及到的对象规则很多,我们通过SLS新版告警可以实现较好的对于巡检事件的管理。

巡检事件基础结构

在这里,我们先简单看下巡检任务的基本逻辑:

对于单个巡检作业而言,内部包含N个实体的巡检,每个巡检实体对应一个巡检模型,其中任意一个异常事件产生后,都会通过告警系统通知到用户,因此我们需要有能力通过不同的方式将结果进行分发和管理。

我们先看下巡检事件的基础结构,具体的内置模板如下所示:

## 数据源
+ Project: ${results[0].project}
+ LogStore: ${results[0].store}
##  异常对象
+ Entity: ${labels}
## 异常程度
+ Score: ${annotations.anomaly_score}
## 异常时序图
![image](${annotations.__plot_image__})
[[数据详情](${query_url})]
[[作业详情](${alert_url})]
[[确认](${annotations.__ensure_url__})]
[[误报](${annotations.__mismatch_url__})]

我们一起来看下具体的告警消息的样例,接下来我们所有的描述都会根据对应的如下结果进行描述。

{
"results": [
    {
"store_type": "log",
"region": "cn-chengdu",
"project": "sls-ml-demo",
"store": "machine_metric_logtail",
"start_time": 1641361140,
"end_time": 1641361200    }
  ],
"labels": {
"ip": "192.168.1.5",
"name": "load_avg"  },
"annotations": {
"__ensure_url__": "$url_path",
"__mismatch_url__": "$url_path",
"__plot_image__": "$url_path",
"alert_msg_type": "ml_anomaly_msg",
"anomaly_score": "0.8000",
"anomaly_type_id": "1",
"anomaly_type_name": "STAB_TYPE",
"job_id": "29030-2bbf5beba0110fa869339708a8217b67",
"model_id": "9c0f0d5ad4879eb75237e2ec8494f5f1",
"title": "metric-logtail-sql"  },
"severity": 8,
"drill_down_url": "$url_path"}


典型场景配置

场景一

目标:过滤特定实体的异常

操作步骤

  • 寻找到某个巡检任务的【行动策略ID】,这里要根据用户自己的实际配置来确定,具体的路径如下:

  • 在行动策略中,添加对应的条件

  • 根据上述提供的告警字段而言,我们假设目前只将【标签】中字段为【ip】且值为【192.168.1.5】的告警消息发送到特定的【钉钉机器人】中

场景二

目标:过滤特定分数的异常

操作步骤

  • 找到特定的【行动策略ID】,添加【条件】
  • 配置【异常分数】超过【0.9】分数以上的告警到特定的渠道
  • 【名称】- anomaly_score
  • 【正则】- ^((1\.0*)|(0\.9[0-9]*))$

场景三

目标:过滤特定实体的特定分数的异常

操作步骤

  • 找到特定的【行动策略ID】,添加【条件】
  • 配置【特定实体】的【异常分数】超过【0.9】分数以上的告警到特定的渠道
  • 【标注】的名称设置为 anomaly_score,【正则】- ^((1\.0*)|(0\.9[0-9]*))$
  • 【标签】的名称设置为 ip,对应的实体内容是 192.168.1.5

场景四

目标:过滤特定异常类型的异常

操作步骤

  • 找到特定的【行动策略ID】,添加【条件】
  • 配置【特定异常形态】

场景五

目标:根据巡检事件和根因事件类型进行分发

操作步骤

  • 找到特定的【行动策略ID】,添加【条件】
  • 配置【智能告警的事件类型】
  • 配置【标注】alert_msg_type,对应的值是 ml_anomaly_msg (这个字段表示的是智能巡检的告警)


参考资料

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
7月前
|
数据采集 DataWorks 监控
DataWorks常见问题之监控规则是数据质量配置好钉钉机器人不报警如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
存储 数据采集 监控
无数据告警最佳实践
在对SLS的Logstore和Metricstore进行监控的过程中,有时候会出现一些无数据的情况,监控SLS的存储库中无数据的情况,是保证数据成功上传到SLS的一个重要手段,本文将介绍无数据告警的常见配置方法。
473 0
无数据告警最佳实践
|
机器学习/深度学习 SQL 存储
SLS智能巡检最佳实践:针对有异常标签数据
日志服务 SLS 智能异常分析 APP 提供自动化、智能化模型训练能力,可以根据设定的历史数据区间进行监督建模。您可以使用模型训练任务通过监督的方式加强对自身数据的异常学习,来提升未来的异常预警的准确率,模型训练任务主要有以下优势:直接使用SLS的智能巡检功能,准确率不及预期,可以选择使用SLS的模型训练任务,来提升异常检测的准确性智能巡检检测出来的异常和您所认为的异常之间可能存在gap,这种情况
223 0
|
存储 运维 监控
SLS智能巡检最佳实践:针对无标签数据
日志服务 SLS 智能异常分析 APP 提供自动化、智能化模型训练能力,可以根据设定的历史数据区间进行监督建模。您可以使用模型训练任务通过监督的方式加强对自身数据的异常学习,来提升未来的异常预警的准确率,模型训练任务主要有以下优势:直接使用SLS的智能巡检功能,准确率不及预期,可以选择使用SLS的模型训练任务,来提升异常检测的准确性智能巡检检测出来的异常和您所认为的异常之间可能存在gap,这种情况
169 0
|
监控 机器人
夜莺系列 2 告警管理
夜莺的告警管理
684 0
|
7月前
|
存储 数据采集 监控
【最佳实践】无数据告警配置
背景在对SLS的Logstore和Metricstore进行监控的过程中,有时候会出现一些无数据的情况,例如数据采集阶段出现故障Logtail采集异常、数据导入任务异常或者SDK写入数据出错等情况都有可能导致日志库中没有数据。业务系统出现问题例如用户的业务日志中有某个系统模块的日志,在一段时间内,由...
176 0
【最佳实践】无数据告警配置
|
运维 监控 安全
多监控系统产生的告警如何高效管理-运维事件中心
阿里云运维事件中心作为数字化运营企业业务连续性的一站式运维管理平台,提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能,帮助企业完成数字化管理。
711 0
多监控系统产生的告警如何高效管理-运维事件中心
|
运维 监控 调度
【Dataphin智能运维】智能基线,自动化预警代替人工监控
DataphinV3.6版本全新上线智能运维模块,支持基线监控和调度限流功能。基线监控能够快速捕捉导致基线上的任务无法按时完成的异常情况并提前预警,保障复杂依赖场景下重要数据能在预期时间内顺利产出,帮助您降低人工配置成本、提升监控及时性和准确性、避免无效报警,运维人员的好帮手,管理者的福音!
【Dataphin智能运维】智能基线,自动化预警代替人工监控
|
SQL 机器学习/深度学习 弹性计算
【新功能】智能巡检支持更加灵活的告警
主要介绍如何通过SLS的告警2.0的能力去管理【智能巡检】任务产生的异常事件。通过实体维度和特征纬度的单独配置您需要的告警事件。
413 0
|
云安全 安全 数据库
基础巡检功能使用 | 学习笔记
快速学习基础巡检功能使用