抑制告警风暴—SLS告警智能合并发布

本文涉及的产品
对象存储 OSS,标准 - 本地冗余存储 20GB 3个月
对象存储OSS,敏感数据保护2.0 200GB 1年
对象存储 OSS,标准 - 同城冗余存储 20GB 3个月
简介: SLS最新推出了告警智能合并能力,让用户只需一些极简的配置,便可开启告警的智能降噪,抑制告警风暴。

告警运维系统的痛点

随着现代业务的发展,开发运维人员在承担越来越多的职责和角色。因此日常的开发运维过程中,对于告警监控运维系统是有很高的要求的,但现状却不容乐观,常规的监控运维系统存在如下常见问题


在上述常见问题中,我们日常运维过程中遇到的最多、影响最大的便是【告警风暴】问题。运维监控系统,一般都是通过配置固定阈值、条件,达到阈值或满足特定条件后自动触发告警。运维监控人员经常会困扰于如下的告警风暴场景:

  • 故障期间,告警风暴,手机/邮箱会被海量告警淹没;
  • 运维人员很难从海量告警从筛选出重要告警,容易忽略重要告警;
  • 固定阈值控制,频繁误报、漏报告警;
  • ...


在监控场景下,一旦出现告警风暴,告警本身就失去了意义和价值。因此需要有一套方案,帮助用户在不遗漏重要告警前提下,有效减少告警数量。


SLS一站式告警运维系统

阿里云SLS提供了一站式告警运维系统,支持对日志、时序等各类数据的告警监控,亦可接受三方告警,对告警进行降噪、事件管理、通知管理等,覆盖40+功能场景,充分考虑研发、运维、安全以及运营人员的告警监控运维需求。



其中告警管理模块为用户提供了降噪控制的能力,用户可以通过自定义降噪规则,完成对不同来源的告警的去重、合并、路由、抑制、静默等降噪操作。


本次发布对告警管理模块中的告警合并能力进行升级,支持智能合并,一键开启告警风暴抑制!


SLS最新发布:告警智能合并

如前述介绍,SLS告警运维系统已经为用户提供了自定义规则降噪的能力。然而现实环境总是十分复杂的,作为运维人员,往往很难确定如何按照某种固定的规则去对告警进行降噪;即使设置了比较合理的降噪规则,现实场景下也有可能出现意想不到的告警风暴。


因此SLS最新推出了告警智能合并能力,让用户只需一些极简的配置,便可开启告警的智能降噪。


1. 什么是告警智能合并

为了解决告警风暴问题,很多监控系统、平台都推出了告警合并(降噪)功能,来有效地减少告警数量,减轻运维人员的负担。对于监控系统的运维人员来说,告警的合并不仅可以将相关告警作为单个聚合单元进行管理来降低噪音,还可以引导他们找到告警的可能共同的根本原因。


告警合并分为自定义规则合并和智能合并,其原理是通过一些用户自定义的合并规则或者智能算法自动合并,将重复、冗余或者有关联的告警合并到一个分组中,并且每个分组的告警在一段时间内只会通知一次,从而有效减少告警通知的数量。



告警智能合并,可以在最小化用户配置成本的同时,通过机器学习/NLP算法,自动化地去学习告警之间的关联或相似关系进行合并,达到智能降噪的效果。


2. SLS告警智能合并原理

SLS告警智能合并依托于NLP算法,自动化地去学习告警之间的关联或相似关系,在不依赖于历史告警数据的前提下(冷启动),可以实时地对不同来源的告警进行智能合并,然后再通知给用户,让用户免于告警风暴的困扰。

如上图所示,SLS告警智能合并的核心步骤包括4个步骤:

  1. 多源告警数据汇集:将不同来源的告警数据汇集到一起,进行集中处理;
  2. 告警文本的预处理基于告警专业特色词/停用词库,数据字典,人工标注信息等,对告警全文本进行预处理,剔除无用文本,提取关键词。
  3. 告警文本聚类:采用两种不同的聚类技术对告警文本进行聚类
  1. MinJoin聚类算法:一种通过最小化局部哈希值来进行文本编辑距离计算及聚类的高效率算法
  2. 向量相似度聚类:首先对告警文本进行分词,接着利用特征工程将其向量化表示,最后基于告警向量之间的相似度(如余弦相似度等)进行聚类
  1. 聚类蔟合并:将第3步中两种聚类技术各自得到的聚类结果进行合并,得到一个最终的聚类结果,即是告警智能合并的最终结果。


3. 使用SLS告警智能合并

3.1 开启告警智能合并模式

只需要几个简单的步骤,便可开启智能降噪模式:

  • Step1:从SLS Project下的告警中心进入【告警策略】管理模块;或者从SLS告警管理中心APP进入【业务策略】管理模块


  • Step2:新建或者修改一条已有的告警策略,在【路由合并策略】中点击开启【智能合并模式】


  • Step3:配置【智能合并模式】的参数

完成上述三个步骤的配置后,所有使用该告警策略的告警,将会被智能合并、去重、静默、路由之后,再通知到用户。


3.2 智能合并模式相关参数说明

  • 合并基准: 基于告警的哪些信息进行智能合并,支持【全文】和【自定义】。
  • 默认使用【全文】合并,将基于告警的名称、所在项目、告警的全部标签信息以及全部标注信息进行智能合并。
  • 用户也可以自定义合并基准,智能合并模块将根据用户自定义的字段,使用智能算法进行合并。
  • 行动策略:定义了通知渠道、通知人等逻辑,直接选择或新建即可。参考行动策略
  • 首次等待时间: 新触发的告警,在该时间段内,按智能算法自动合并,然后再通知。
  • 重复等待时间:如果一个告警合并集合已经被发送通知,对于此合并集合,在该配置时间段内,新触发的告警不会再重复通知。


     


4. 智能合并效果展示

  • 通知效果展示

对于OSS公网访问告警,一共触发了11条告警,涉及了不同的子账号公网访问不同的OSS Bucket。通过智能合并模块处理后,这11条告警被合并为同一条告警发送给用户,有效避免了告警风暴的产生(11条独立告警的发送)。


  • 总体降噪效果展示

下图是告警的全局链路图,可以看到初始状态下累计触发了近15000+次告警,在经过降噪模块的智能合并、去重、静默和路由之后,仅通知到用户374次,降噪比近98%。这有效避免了告警风暴问题,提升运维人员的处理效率。


总结

在监控场景下,一旦出现告警风暴,告警本身就失去了意义和价值。因此需要有一套方案,帮助用户在不遗漏重要告警前提下,有效减少告警数量。


SLS告警智能合并依托于NLP算法,自动化地去学习告警之间的关联或相似关系,可以实时地对新触发的告警进行智能合并、去重、路由、静默,然后再通知给用户。对于监控系统的运维人员来说,只需要一些极简的配置,便可以开启智能合并模式,有效减少告警风暴带来的困扰。告警运维人员不仅可以将合并后的告警作为单个聚合单元进行管理来降低噪音,还可以引导他们找到告警的可能共同的根本原因。


参考文章






相关实践学习
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
目录
相关文章
|
2月前
|
SQL 传感器 人工智能
生成更智能,调试更轻松,SLS SQL Copilot 焕新登场!
阿里云日志服务(SLS)推出智能分析助手 SLS SQL Copilot,融合 AI 技术与日志分析最佳实践,将自然语言转换为 SQL 查询,降低使用门槛,提升查询效率。其具备原生集成、智能语义理解与高效执行能力,助力用户快速洞察日志数据价值,实现智能化日志分析新体验。
161 1
|
2月前
|
机器学习/深度学习 人工智能 运维
运维告警别乱飞了!AI智能报警案例解析
运维告警别乱飞了!AI智能报警案例解析
272 0
|
2月前
|
SQL 传感器 人工智能
生成更智能,调试更轻松,SLS SQL Copilot 焕新登场!
本文是阿里云日志服务(SLS)首次对外系统性地揭秘 SLS SQL Copilot 背后的产品理念、架构设计与核心技术积淀。我们将带你深入了解,这一智能分析助手如何从用户真实需求出发,融合前沿 AI 能力与 SLS 十余年日志分析最佳实践,打造出面向未来的智能化日志分析体验。
230 25
|
7月前
|
消息中间件 运维 监控
智能运维,由你定义:SAE自定义日志与监控解决方案
通过引入 Sidecar 容器的技术,SAE 为用户提供了更强大的自定义日志与监控解决方案,帮助用户轻松实现日志采集、监控指标收集等功能。未来,SAE 将会支持 istio 多租场景,帮助用户更高效地部署和管理服务网格。
493 52
|
5月前
|
编解码 监控 算法
CDN+OSS边缘加速实践:动态压缩+智能路由降低30%视频流量成本(含带宽峰值监控与告警配置)
本方案通过动态压缩、智能路由及CDN与OSS集成优化,实现视频业务带宽成本下降31%,首帧时间缩短50%,错误率降低53%。结合实测数据分析与架构创新,有效解决冷启动延迟、跨区域传输及设备适配性问题,具备快速投入回收能力。
291 0
|
12月前
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第26天】Prometheus与Grafana是智能运维中的强大组合,前者是开源的系统监控和警报工具,后者是数据可视化平台。Prometheus具备时间序列数据库、多维数据模型、PromQL查询语言等特性,而Grafana支持多数据源、丰富的可视化选项和告警功能。两者结合可实现实时监控、灵活告警和高度定制化的仪表板,广泛应用于服务器、应用和数据库的监控。
1050 3
|
8月前
|
数据采集 运维 监控
数据采集监控与告警:错误重试、日志分析与自动化运维
本文探讨了数据采集技术从“简单采集”到自动化运维的演进。传统方式因反爬策略和网络波动常导致数据丢失,而引入错误重试、日志分析与自动化告警机制可显著提升系统稳定性与时效性。正方强调健全监控体系的重要性,反方则担忧复杂化带来的成本与安全风险。未来,结合AI与大数据技术,数据采集将向智能化、全自动方向发展,实现动态调整与智能识别反爬策略,降低人工干预需求。附带的Python示例展示了如何通过代理IP、重试策略及日志记录实现高效的数据采集程序。
355 7
数据采集监控与告警:错误重试、日志分析与自动化运维
|
8月前
|
运维 监控 前端开发
Zabbix告警分析新革命:DeepSeek四大创新场景助力智能运维
面对日益复杂的IT环境,高效分析监控数据并快速响应成为运维的关键挑战。本文深入探讨了DeepSeek与Zabbix结合的创新应用,包括一键式智能告警分析、Zabbix文档知识库助手及钉钉告警增强功能。通过部署指南和实用脚本,展示了如何提升故障排查效率,为运维工程师提供高效解决方案。
720 5
|
8月前
|
消息中间件 运维 监控
智能运维,由你定义:SAE自定义日志与监控解决方案
SAE(Serverless应用引擎)是阿里云推出的全托管PaaS平台,致力于简化微服务应用开发与管理。为满足用户对可观测性和运维能力的更高需求,SAE引入Sidecar容器技术,实现日志采集、监控指标收集等功能扩展,且无需修改主应用代码。通过共享资源模式和独立资源模式,SAE平衡了资源灵活性与隔离性。同时,提供全链路运维能力,确保应用稳定性。未来,SAE将持续优化,支持更多场景,助力用户高效用云。
|
9月前
|
人工智能 运维 监控
Zabbix告警分析新纪元:本地DeepSeek大模型实现智能化告警分析
本文由Zabbix中国峰会演讲嘉宾张世宏撰写,介绍如何通过集成Zabbix监控系统与深度求索(DeepSeek)AI助手,构建智能化告警处理方案。该方案利用Webhook机制传递告警信息,借助DeepSeek的智能分析能力,帮助运维团队快速识别问题根源并提供解决方案。文章详细描述了技术架构、环境搭建、Webhook配置及实际案例,展示了AI在运维领域的应用前景和优势。
1234 0

相关产品

  • 日志服务
  • 下一篇
    开通oss服务