【新功能】智能巡检支持更加灵活的告警

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储OSS,敏感数据保护2.0 200GB 1年
文件存储 NAS,50GB 3个月
简介: 主要介绍如何通过SLS的告警2.0的能力去管理【智能巡检】任务产生的异常事件。通过实体维度和特征纬度的单独配置您需要的告警事件。

前期回顾

功能介绍

基础任务创建

为了提高【智能巡检】任务结果事件处理的灵活性,同时规避掉【结果字段】复杂且难理解的问题,我们开发了对于事件管理的【告警配置】页面。下面,根据一个特定的场景来介绍如何使用该告警能力。

  • 打开SLS的产品首页,我们找到【智能巡检】的入口

  • 我们先来创建一个【巡检任务】

在选择了对应的project/logstore后,我们通过如下SQL语句进行任务的配置,具体如下:

* | select __time__ - __time__ % 60 as time, COUNT(*) as num, avg(duration) as avg_duration, approx_percentile(duration, 0.95) as p95_duration, approx_percentile(duration, 0.99) as p99_duration,service from log group by time, service order by time limit 1000000

这里的数据是通过每分钟执行上面的SQL来得到每分钟,每个服务的观测特征(每分钟的请求次数、每分钟的平均响应延时、每分钟响应延时的95分位数、每分钟响应延时的99分位数),并将上述结果,分别按照规则配置到【时间列、实体列、特征列】中。在后续进行简单的配置后(就是什么都不用修改,按照默认参数配置就行)我们来到了告警配置页面。接下来,我们会较为详细的介绍告警配置服务。

告警配置

告警配置在【巡检任务】中一共有两个部分

  • 在【任务创建】阶段的【最后一个步骤】,这里我们起名为【告警配置一

  • 在【任务详情】部分有单独的【告警配置页面】,这里我们起名为【告警配置二


接下来,分别阐述各自告警的能力

告警配置一

一个【巡检作业】对应后台一个【常驻任务】,这里面是将告警的【通道】(行动策略和告警策略)作为参数传递给了这个【常驻任务】,这里的告警内容是根据【常驻任务】中的通知逻辑进行发送的。这里有几个典型的特点,具体的细节可以查看【智能巡检告警配置最佳实践】这篇文章中的详细说明。

告警配置二

每个【常驻任务】会将算法检查出来的【异常事件】写入到指定的logstore中,一般默认是任务所关联的原始Project中的【internal-ml-log】中去,具体的结构说明,可以参考官网文档【https://help.aliyun.com/document_detail/362912.html】。这里的【告警配置】是对这些【异常事件】进行再次加工和处理,得到的汇聚事件在进行告警的。接下来我们根据告警配置页面进行一下说明:

实体选择

  • 完整匹配模式

您可以选择【ALL】表示关注全部的实体;您也可以多选任意几个实体,每个实体底层会对应一个md5值;

  • 模糊匹配模式

这里是对这个维度中的实体进行过滤,您要使用SQL中的针对字符串模糊匹配的语法,可以使用like操作。

特征选择

  • 任意维度:上述选择出来的实体中,任意一个维度有异常都要进行相关的告警通知
  • 特定维度

这里也比较好理解,您可以选择实体的观测维度中自由的进行组合,可以去指定您感兴趣的维度、异常类型、异常分数等进行告警的过滤。

检查频率

这里有一个注意事项:检查频率的固定间隔,最好选择要覆盖【巡检任务】中的【调度延时】。这里我提供一个形象的示意图。

因此,在配置检查频率时已经要至少 >【数据聚合频率】+【执行调度延时】+【固定观测间隔】+【1分钟】。

目录
相关文章
|
8天前
|
机器学习/深度学习 人工智能 运维
运维告警别乱飞了!AI智能报警案例解析
运维告警别乱飞了!AI智能报警案例解析
64 0
|
3月前
|
编解码 监控 算法
CDN+OSS边缘加速实践:动态压缩+智能路由降低30%视频流量成本(含带宽峰值监控与告警配置)
本方案通过动态压缩、智能路由及CDN与OSS集成优化,实现视频业务带宽成本下降31%,首帧时间缩短50%,错误率降低53%。结合实测数据分析与架构创新,有效解决冷启动延迟、跨区域传输及设备适配性问题,具备快速投入回收能力。
205 0
|
10月前
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第26天】Prometheus与Grafana是智能运维中的强大组合,前者是开源的系统监控和警报工具,后者是数据可视化平台。Prometheus具备时间序列数据库、多维数据模型、PromQL查询语言等特性,而Grafana支持多数据源、丰富的可视化选项和告警功能。两者结合可实现实时监控、灵活告警和高度定制化的仪表板,广泛应用于服务器、应用和数据库的监控。
965 3
|
6月前
|
运维 监控 前端开发
Zabbix告警分析新革命:DeepSeek四大创新场景助力智能运维
面对日益复杂的IT环境,高效分析监控数据并快速响应成为运维的关键挑战。本文深入探讨了DeepSeek与Zabbix结合的创新应用,包括一键式智能告警分析、Zabbix文档知识库助手及钉钉告警增强功能。通过部署指南和实用脚本,展示了如何提升故障排查效率,为运维工程师提供高效解决方案。
623 5
|
7月前
|
人工智能 运维 监控
Zabbix告警分析新纪元:本地DeepSeek大模型实现智能化告警分析
本文由Zabbix中国峰会演讲嘉宾张世宏撰写,介绍如何通过集成Zabbix监控系统与深度求索(DeepSeek)AI助手,构建智能化告警处理方案。该方案利用Webhook机制传递告警信息,借助DeepSeek的智能分析能力,帮助运维团队快速识别问题根源并提供解决方案。文章详细描述了技术架构、环境搭建、Webhook配置及实际案例,展示了AI在运维领域的应用前景和优势。
1079 0
|
10月前
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第27天】在智能运维中,Prometheus和Grafana的组合已成为监控和告警体系的事实标准。Prometheus负责数据收集和存储,支持灵活的查询语言PromQL;Grafana提供数据的可视化展示和告警功能。本文介绍如何配置Prometheus监控目标、Grafana数据源及告警规则,帮助运维团队实时监控系统状态,确保稳定性和可靠性。
927 0
|
机器学习/深度学习 人工智能 运维
"颠覆传统运维!揭秘阿里云AIGC如何化身运维界超级大脑,让故障预警、智能告警不再是梦,运维大神之路从此开启!"
【8月更文挑战第14天】随着AI技术的发展,AIGC正革新依赖人工经验的传统运维行业。阿里云凭借其领先的云计算能力和AI服务生态,为运维智能化提供了坚实基础。通过分析历史数据和系统日志,AIGC能自动发现并预测故障,大幅提升运维效率。例如,结合阿里云SLS和PAI,可构建智能告警系统,实现异常检测和实时预警。随着AIGC技术的进步,运维领域将迎来全面智能化转型,开启运维新时代。
350 3
|
机器学习/深度学习 运维 自然语言处理
抑制告警风暴—SLS告警智能合并发布
SLS最新推出了告警智能合并能力,让用户只需一些极简的配置,便可开启告警的智能降噪,抑制告警风暴。
1589 1
|
SQL 机器学习/深度学习 运维
一站式云原生智能告警运维平台——SLS新版告警发布!
本文介绍什么是云原生可观测性需求以及告警限制,介绍一站式云原生智能告警运维平台——SLS新版告警。
14582 4
一站式云原生智能告警运维平台——SLS新版告警发布!
|
机器人
智能巡检告警配置最佳实践
智能异常分析的检测结果通过 SLS 告警功能输出到用户配置的通知渠道。在智能巡检场景中,单个任务往往会巡检大量的实体对象,涉及到的对象规则很多,我们通过SLS新版告警可以实现较好的对于巡检事件的管理。
901 0