抑制告警风暴—SLS告警智能合并发布

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
日志服务 SLS,月写入数据量 50GB 1个月
简介: SLS最新推出了告警智能合并能力,让用户只需一些极简的配置,便可开启告警的智能降噪,抑制告警风暴。

告警运维系统的痛点

随着现代业务的发展,开发运维人员在承担越来越多的职责和角色。因此日常的开发运维过程中,对于告警监控运维系统是有很高的要求的,但现状却不容乐观,常规的监控运维系统存在如下常见问题


在上述常见问题中,我们日常运维过程中遇到的最多、影响最大的便是【告警风暴】问题。运维监控系统,一般都是通过配置固定阈值、条件,达到阈值或满足特定条件后自动触发告警。运维监控人员经常会困扰于如下的告警风暴场景:

  • 故障期间,告警风暴,手机/邮箱会被海量告警淹没;
  • 运维人员很难从海量告警从筛选出重要告警,容易忽略重要告警;
  • 固定阈值控制,频繁误报、漏报告警;
  • ...


在监控场景下,一旦出现告警风暴,告警本身就失去了意义和价值。因此需要有一套方案,帮助用户在不遗漏重要告警前提下,有效减少告警数量。


SLS一站式告警运维系统

阿里云SLS提供了一站式告警运维系统,支持对日志、时序等各类数据的告警监控,亦可接受三方告警,对告警进行降噪、事件管理、通知管理等,覆盖40+功能场景,充分考虑研发、运维、安全以及运营人员的告警监控运维需求。



其中告警管理模块为用户提供了降噪控制的能力,用户可以通过自定义降噪规则,完成对不同来源的告警的去重、合并、路由、抑制、静默等降噪操作。


本次发布对告警管理模块中的告警合并能力进行升级,支持智能合并,一键开启告警风暴抑制!


SLS最新发布:告警智能合并

如前述介绍,SLS告警运维系统已经为用户提供了自定义规则降噪的能力。然而现实环境总是十分复杂的,作为运维人员,往往很难确定如何按照某种固定的规则去对告警进行降噪;即使设置了比较合理的降噪规则,现实场景下也有可能出现意想不到的告警风暴。


因此SLS最新推出了告警智能合并能力,让用户只需一些极简的配置,便可开启告警的智能降噪。


1. 什么是告警智能合并

为了解决告警风暴问题,很多监控系统、平台都推出了告警合并(降噪)功能,来有效地减少告警数量,减轻运维人员的负担。对于监控系统的运维人员来说,告警的合并不仅可以将相关告警作为单个聚合单元进行管理来降低噪音,还可以引导他们找到告警的可能共同的根本原因。


告警合并分为自定义规则合并和智能合并,其原理是通过一些用户自定义的合并规则或者智能算法自动合并,将重复、冗余或者有关联的告警合并到一个分组中,并且每个分组的告警在一段时间内只会通知一次,从而有效减少告警通知的数量。



告警智能合并,可以在最小化用户配置成本的同时,通过机器学习/NLP算法,自动化地去学习告警之间的关联或相似关系进行合并,达到智能降噪的效果。


2. SLS告警智能合并原理

SLS告警智能合并依托于NLP算法,自动化地去学习告警之间的关联或相似关系,在不依赖于历史告警数据的前提下(冷启动),可以实时地对不同来源的告警进行智能合并,然后再通知给用户,让用户免于告警风暴的困扰。

如上图所示,SLS告警智能合并的核心步骤包括4个步骤:

  1. 多源告警数据汇集:将不同来源的告警数据汇集到一起,进行集中处理;
  2. 告警文本的预处理基于告警专业特色词/停用词库,数据字典,人工标注信息等,对告警全文本进行预处理,剔除无用文本,提取关键词。
  3. 告警文本聚类:采用两种不同的聚类技术对告警文本进行聚类
  1. MinJoin聚类算法:一种通过最小化局部哈希值来进行文本编辑距离计算及聚类的高效率算法
  2. 向量相似度聚类:首先对告警文本进行分词,接着利用特征工程将其向量化表示,最后基于告警向量之间的相似度(如余弦相似度等)进行聚类
  1. 聚类蔟合并:将第3步中两种聚类技术各自得到的聚类结果进行合并,得到一个最终的聚类结果,即是告警智能合并的最终结果。


3. 使用SLS告警智能合并

3.1 开启告警智能合并模式

只需要几个简单的步骤,便可开启智能降噪模式:

  • Step1:从SLS Project下的告警中心进入【告警策略】管理模块;或者从SLS告警管理中心APP进入【业务策略】管理模块


  • Step2:新建或者修改一条已有的告警策略,在【路由合并策略】中点击开启【智能合并模式】


  • Step3:配置【智能合并模式】的参数

完成上述三个步骤的配置后,所有使用该告警策略的告警,将会被智能合并、去重、静默、路由之后,再通知到用户。


3.2 智能合并模式相关参数说明

  • 合并基准: 基于告警的哪些信息进行智能合并,支持【全文】和【自定义】。
  • 默认使用【全文】合并,将基于告警的名称、所在项目、告警的全部标签信息以及全部标注信息进行智能合并。
  • 用户也可以自定义合并基准,智能合并模块将根据用户自定义的字段,使用智能算法进行合并。
  • 行动策略:定义了通知渠道、通知人等逻辑,直接选择或新建即可。参考行动策略
  • 首次等待时间: 新触发的告警,在该时间段内,按智能算法自动合并,然后再通知。
  • 重复等待时间:如果一个告警合并集合已经被发送通知,对于此合并集合,在该配置时间段内,新触发的告警不会再重复通知。


     


4. 智能合并效果展示

  • 通知效果展示

对于OSS公网访问告警,一共触发了11条告警,涉及了不同的子账号公网访问不同的OSS Bucket。通过智能合并模块处理后,这11条告警被合并为同一条告警发送给用户,有效避免了告警风暴的产生(11条独立告警的发送)。


  • 总体降噪效果展示

下图是告警的全局链路图,可以看到初始状态下累计触发了近15000+次告警,在经过降噪模块的智能合并、去重、静默和路由之后,仅通知到用户374次,降噪比近98%。这有效避免了告警风暴问题,提升运维人员的处理效率。


总结

在监控场景下,一旦出现告警风暴,告警本身就失去了意义和价值。因此需要有一套方案,帮助用户在不遗漏重要告警前提下,有效减少告警数量。


SLS告警智能合并依托于NLP算法,自动化地去学习告警之间的关联或相似关系,可以实时地对新触发的告警进行智能合并、去重、路由、静默,然后再通知给用户。对于监控系统的运维人员来说,只需要一些极简的配置,便可以开启智能合并模式,有效减少告警风暴带来的困扰。告警运维人员不仅可以将合并后的告警作为单个聚合单元进行管理来降低噪音,还可以引导他们找到告警的可能共同的根本原因。


参考文章






相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
1月前
|
Oracle 关系型数据库 数据库
【赵渝强老师】Oracle的参数文件与告警日志文件
本文介绍了Oracle数据库的参数文件和告警日志文件。参数文件分为初始化参数文件(PFile)和服务器端参数文件(SPFile),在数据库启动时读取并分配资源。告警日志文件记录了数据库的重要活动、错误和警告信息,帮助诊断问题。文中还提供了相关视频讲解和示例代码。
|
4月前
|
人工智能 Java Spring
Spring框架下,如何让你的日志管理像‘AI’一样智能,提升开发效率的秘密武器!
【8月更文挑战第31天】日志管理在软件开发中至关重要,不仅能帮助开发者追踪问题和调试程序,还是系统监控和运维的重要工具。在Spring框架下,通过合理配置Logback等日志框架,可大幅提升日志管理效率。本文将介绍如何引入日志框架、配置日志级别、在代码中使用Logger,以及利用ELK等工具进行日志聚合和分析,帮助你构建高效、可靠的日志管理系统,为开发和运维提供支持。
78 0
|
6月前
|
运维 Serverless API
Serverless 应用引擎产品使用合集之sls日志告警调用函数计算,出现抛出的结果异常,是什么原因
阿里云Serverless 应用引擎(SAE)提供了完整的微服务应用生命周期管理能力,包括应用部署、服务治理、开发运维、资源管理等功能,并通过扩展功能支持多环境管理、API Gateway、事件驱动等高级应用场景,帮助企业快速构建、部署、运维和扩展微服务架构,实现Serverless化的应用部署与运维模式。以下是对SAE产品使用合集的概述,包括应用管理、服务治理、开发运维、资源管理等方面。
|
6月前
|
存储 运维 Serverless
函数计算产品使用问题之日志告警不生效,一般是由于什么造成的
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
7月前
|
弹性计算 运维 Shell
智能日志分析器
【4月更文挑战第30天】
54 0
|
Web App开发 存储 监控
日志服务之告警接入与管理
本教程介绍如何使用日志服务接入NGINX模拟数据,并配置告警规则来对NGINX访问错误进行监控。
|
7月前
|
C语言
反转链表、链表的中间结点、合并两个有序链表【LeetCode刷题日志】
反转链表、链表的中间结点、合并两个有序链表【LeetCode刷题日志】
|
7月前
|
JSON Prometheus Cloud Native
Grafana 系列 -Loki- 基于日志实现告警
Grafana 系列 -Loki- 基于日志实现告警
|
7月前
|
人工智能 运维 监控
SLS 智能运维 AI 基础模型创新
SLS 全新发布运维场景基础模型,覆盖 Log、Metric、Trace 等可观测数据场景,模型提供开箱即用的异常检测、自动标注、分类和根因分析等能力;根因分析算法千级异常请求秒级定位,生产中准确率达95%;同时支持人工辅助微调,提供人工标注、结果打标修正,模型根据人工反馈自动微调,提升场景准确率。
91380 1
|
7月前
|
人工智能 运维 自然语言处理
AI Powered SLS 智能分析能力创新
随着云计算技术不断升级,承载业务的 IT 基础设施规模扩大,各个应用之间的链路关系变得越来越复杂,每时每刻都在产生海量级的日志。
97986 3

相关产品

  • 日志服务