跟误告警说再见,Smart Metrics 帮你用算法配告警

本文涉及的产品
性能测试 PTS,5000VUM额度
可观测可视化 Grafana 版,10个用户账号 1个月
应用实时监控服务-可观测链路OpenTelemetry版,每月50GB免费额度
简介: 本文从两类常见的无效告警规则入手,分析有效告警配置难,误告警泛滥的原因,介绍 Smart Metrics 是如何帮助用户解决告警难配的问题的,并介绍一些最佳实践。

作者:董善东、陈昆仪


引言


某位资深 SRE 同学表示“一天不收个几十条告警,我都觉得不安心”,“告警天天告,我们的应用一点事情都没有”。这都反映了一个非常普遍的现象 -- "误告警泛滥",而“真”告警容易被淹没。ARMS AIOps 团队对超过 6 万条关于响应时间和错误率突增的告警进行了分析,发现其中只有 3.05%的告警是“真”告警。同时发现误告警泛滥根源在于单靠现有告警产品的能力很难配置出行之有效的告警规则。因此,ARMS 基于托管版 Grafana  推出智能告警插件——Smart Metrics,用算法帮助用户解决"告警配置难、维护难"的问题。


本文从两类常见的无效告警规则入手,分析有效告警配置难,误告警泛滥的原因,介绍 Smart Metrics 是如何帮助用户解决告警难配的问题的,并介绍一些最佳实践。最后,欢迎加入 SmartMetrics 交流群,钉钉群号 25125004458。


告警现状分析


误告警泛滥


我们通过对 ARMS 告警数据及用户访谈进行分析,发现许多用户一天收几百条告警,但其中真正有用的只有几条。更可怕的是,那几条“真”告警往往被淹没在大量误告警中,导致用户没能在第一时间对真实故障做出处理。这些误告警往往是由一些不良的告警配置习惯造成的,比较典型的有下面两种:


“一刀切”式配告警方式:

比如一位 SRE 同学要管理很多接口,但为了节省告警配置时间,所以选择对所有应用/接口的响应时间、错误率和调用量配置统一且固定阈值。然而,不同应用/接口正常状态下的响应时间、调用量和错误率指标的正常水位本身就不相同,成百上千的应用/接口使用同一阈值自然会产生大量误告警。


“疏于打理”的告警阈值:

有的告警规则在应用起初是没有问题的,但随着业务增长,响应时间、调用量等业务指标,以及 CPU 使用率等机器指标的平均水位线已发生变化。但 SRE 没有及时更新阈值,导致系统正常时也会不断产生告警。


一般而言,只要针对上述两种告警策略进行优化,就可以有效避免大量误告警。但实际上,它们的优化并不简单。原因在于现有告警产品往往只支持用户使用静态阈值配置告警。


我们先来看一下典型告警配置页面:它提供了很多常用聚合算子:均值、最大值、最小值、差分等,用户可以用这些算子自定义告警规则。


1.png


我们再来看看真实的运维指标,比如 qps(每分钟调用量),发现它长这个样子:


2.png


那么,现在应该 min\max\avg 什么?阈值该设置成多少?


有效告警配置难、维护难的原因


面对真实多变的运维指标,即使是经验丰富的运维专家也很难配出有效告警。我们总结有效告警配置难、维护难的主要原因:


1. 许多运维指标起伏不定,很难设定合适的静态阈值。

它们往往呈现出以小时、天、周为周期的季节性特征。这些指标本身就起伏不定,导致静态阈值、同比阈值都不好配。


2. 同一指标,不同应用\接口\主机阈值不同。

以 RT 指标(响应时间)举例, 有的接口正常时 RT 在 200ms 左右,那么当 RT 大于 300ms 时,可以判定为异常。然而,有些接口长期访问量大, 整体指标在 500ms 左右正常波动,合适的告警阈值可能是 600ms 左右。而一个应用可能有几百个接口,运维同学要对所有接口配置合适的阈值,时间成本非常高。


3. 指标的正常水位会随着业务的增长变化。

随着公司业务发展、新应用上线,一些指标正常状态水位会不断变化。如果没有及时更新阈值,就很容易产生大量误告警。


综上,靠现有告警产品中依赖静态阈值方式,需要 SRE 同学投入大量时间成本且难以取得较好效果。 为解决这个问题,ARMS推出基于 Grafana 的智能告警插件——SmartMetrics,用算法来帮助用户配置有效告警。


更简单的告警配置方式-SmartMetrics


3.png


SmartMetrics 是一款“智能、易用、效果可见”的告警插件,能够从历史指标数据学习指标的特征,并对未来一段时间内指标正常变化范围做出预测,生成上下边界。这里的上下边界围成的区间默认就是 90 置信区间。也就是按照前面几天的趋势,指标没有发生异常的话,有 90 的概率,它未来的值会落到我们预测得到的上下边界中。


SmartMetrics 支持 Grafana 原生告警功能,可利用 SmartMetrics 生成的上下边界作为配置告警的阈值。简单的配告警策略可以是当指标超过上界或低于下界时发出告警。也可以配置更多复杂策略,如原始曲线高于上边界 1.5 倍且过去一小时内没有出现过高于上边界的情况下才发出告警等。


目前,SmartMetrics 已在托管版 Grafana 上线,未来还将作为附加功能嵌入到 ARMS 的告警能力中。


SmartMetrics 如何生成上下边界


SmartMetrics 通过多模型融合方式为不同类型指标计算上下边界。SmartMetrics 先通过 Smart-PLR 算法捕捉指标关键特征,并利用分类算法确定该指标曲线类型;根据其类型来选择最适合时序预测模型与最佳参数;最后生成上下边界。


SmartMetrics 在采取业界热门开源算法 Prophet、STL、ARIMA, BiLSTM 基础上,基于阿里云内部大数据实践进行单周期/多周期识别、趋势识别、异常点识别、毛刺识别、变点识别等优化, 最终融合成一套多模型 Smart-Prophet 算法方案。SmartMetrics 具有以下几个特点:


a. 准确性:算法在阿里云内部进行多场景经历过验证, 拥有精准、全面的异常点发现能力。配合告警持续时间,起到精准告警效果。

b. 通用性:算法对于业务指标和基础指标有比较好支持, 对于周期性、趋势性、波动性指标进行比较好的曲线分类和模型参数配置。

c. 免维护:使用SmartMetrics的用户无需随业务变化对算法进行动态化调参,算法可自适应通过对指标变化的规律学习,从而适应业务变化。


SmartMetrics 如何解决有效告警配置难、维护难的问题


1.  SmartMetrics 如何应对起伏不定的运维指标配置有效告警的需求

SmartMetrics 会自动根据 7 天历史数据预测曲线在未来 1 天内曲线在正常状态下的上下边界,并实时地写入指标实际值。用户可以利用 Grafana 自带的告警能力配置告警:当指标实际值超出上下边界时,或是实际值超出上边界值 1.5 倍时,发出告警。用户可自定义多种告警规则,更多最佳实践可以参考 SmartMetrics 的官方文档。


4.png


2. SmartMetrics如何应对同一指标,不同应用\接口\主机告警阈值不同的场景

对不同应用\接口\主机的指标分配用 SmartMetrics 生成上下边界,SmartMetrics 会自动学习各自特征,生成适合的动态基线,用户不需要再手工输入静态阈值。


3. SmartMetrics如何应对由于业务发展带来的静态阈值维护难的问题

SmartMetrics默认每天更新模型,自动学习由于业务变化带来的指标正常水位线变化,免人工维护。


SmartMetrics 最佳实践


步骤 1. 创建动态阈值任务


  • 选择合适的数据源
  • 选择所需要动态监控的指标


注意:目前只支持1条指标的任务, 因此需要明确指标中的 label value, 或者通过算子如 sum, count,实现单个指标查询。多指标配置目前规划中,依据用户反馈决定是否上线。


  • 选择完成后, 执行 Run Query, 可以查询到对应的指标曲线。
  • 设定合适的模型参数, 选则灵敏度等,建议使用默认配置。
  • 填写正确的名称及描述。
  • 点击创建预测,完成创建。 


5.png


步骤 2.  查看指标


  • 创建成功任务之后, 可以点击返回任务列表。


注意:创建任务后,任务立即启动, 完成数据拉取, 计算, 存储等任务, 该过程需要等待 1-2 分钟左右。


  • 点击查看大盘, 查看具体的指标和对应上下边界情况。  


6.png


  • 大盘提供了原始指标时间序列数据和对应的上下边界组合成的正常区域。指标值在边界之内则可以理解为算法判定正常, 超出上下边界则可以理解为算法判定异常。 

7.png


  • 点击 Edit, 进入编辑页面。


  • 当前指标和上下边界统一保存在promenthus数据源cloud_product_prometheus_cn-hangzhou_aiops_userId中。指标名称即为创建任务时的名称, 对应的label:smart_metric取不同的值(actual,upper, lower), 则对应着(原始指标, 上边界指标, 下边界指标)。例如:如果用户想单独查看上边界, 则只需要在对应的数据源cloud_product_prometheus_cn-hangzhou_aiops_userId 中查找对应的指标。 


8.png


步骤 3.  异常检测&配置告警



  • 在查看指标大盘页面中, 点击 Edit,进入编辑页面 


9.png


  • 在 Query 页面, 可以查看 D 查询指标中, 默认预置了超过上边界的指标查询:

tuyang_test{smart_metric="actual"} > ignoring (smart_metric) tuyang_test{smart_metric="upper"}


10.png


  • 在 grafana 下方 tab 页面, 进入到 Alert 页面,并 Create Alert


  • 配置 NULL 的情况下, 为 OK, 同时配置通知人和通知信息 


11.png


其他查询玩法请参考:超出上边界:


test{smart_metric="actual"} > ignoring (smart_metric) test{smart_metric="upper"}


超出下边界:


test{smart_metric="actual"} < ignoring (smart_metric) test{smart_metric="lower"}


超出上/下边界:


test{smart_metric="actual"} > ignoring (smart_metric) test{smart_metric="upper"}  or test{smart_metric="actual"} < ignoring (smart_metric) test{smart_metric="lower"}


超出上边界阈值比例 20%:


test{smart_metric="actual"} > ignoring (smart_metric) test{smart_metric="upper"} *1.2


步骤 4. 告警通知


  • 对于发生的告警, 可以在配置的通知方式获取到告警, 点击链接并跳转到 grafana 中进行查看。 


12.png


步骤 5. 任务管理


  • 对于不需要的动态阈值检测任务, 可以在任务列表中进行删除。 


13.png


欢迎加入 SmartMetrics 交流群


Last but not least,欢迎加入 SmartMetrics 交流群并提出更多的需求与指导意见!!


钉钉搜索群号:25125004458


14.jpeg


15.png


首月免费,点击此处立即体验!

相关实践学习
通过云拨测对指定服务器进行Ping/DNS监测
本实验将通过云拨测对指定服务器进行Ping/DNS监测,评估网站服务质量和用户体验。
相关文章
|
15天前
|
算法
基于WOA算法的SVDD参数寻优matlab仿真
该程序利用鲸鱼优化算法(WOA)对支持向量数据描述(SVDD)模型的参数进行优化,以提高数据分类的准确性。通过MATLAB2022A实现,展示了不同信噪比(SNR)下模型的分类误差。WOA通过模拟鲸鱼捕食行为,动态调整SVDD参数,如惩罚因子C和核函数参数γ,以寻找最优参数组合,增强模型的鲁棒性和泛化能力。
|
21天前
|
机器学习/深度学习 算法 Serverless
基于WOA-SVM的乳腺癌数据分类识别算法matlab仿真,对比BP神经网络和SVM
本项目利用鲸鱼优化算法(WOA)优化支持向量机(SVM)参数,针对乳腺癌早期诊断问题,通过MATLAB 2022a实现。核心代码包括参数初始化、目标函数计算、位置更新等步骤,并附有详细中文注释及操作视频。实验结果显示,WOA-SVM在提高分类精度和泛化能力方面表现出色,为乳腺癌的早期诊断提供了有效的技术支持。
|
1天前
|
供应链 算法 调度
排队算法的matlab仿真,带GUI界面
该程序使用MATLAB 2022A版本实现排队算法的仿真,并带有GUI界面。程序支持单队列单服务台、单队列多服务台和多队列多服务台三种排队方式。核心函数`func_mms2`通过模拟到达时间和服务时间,计算阻塞率和利用率。排队论研究系统中顾客和服务台的交互行为,广泛应用于通信网络、生产调度和服务行业等领域,旨在优化系统性能,减少等待时间,提高资源利用率。
|
9天前
|
存储 算法
基于HMM隐马尔可夫模型的金融数据预测算法matlab仿真
本项目基于HMM模型实现金融数据预测,包括模型训练与预测两部分。在MATLAB2022A上运行,通过计算状态转移和观测概率预测未来值,并绘制了预测值、真实值及预测误差的对比图。HMM模型适用于金融市场的时间序列分析,能够有效捕捉隐藏状态及其转换规律,为金融预测提供有力工具。
|
17天前
|
算法
基于GA遗传算法的PID控制器参数优化matlab建模与仿真
本项目基于遗传算法(GA)优化PID控制器参数,通过空间状态方程构建控制对象,自定义GA的选择、交叉、变异过程,以提高PID控制性能。与使用通用GA工具箱相比,此方法更灵活、针对性强。MATLAB2022A环境下测试,展示了GA优化前后PID控制效果的显著差异。核心代码实现了遗传算法的迭代优化过程,最终通过适应度函数评估并选择了最优PID参数,显著提升了系统响应速度和稳定性。
|
9天前
|
机器学习/深度学习 算法 信息无障碍
基于GoogleNet深度学习网络的手语识别算法matlab仿真
本项目展示了基于GoogleNet的深度学习手语识别算法,使用Matlab2022a实现。通过卷积神经网络(CNN)识别手语手势,如&quot;How are you&quot;、&quot;I am fine&quot;、&quot;I love you&quot;等。核心在于Inception模块,通过多尺度处理和1x1卷积减少计算量,提高效率。项目附带完整代码及操作视频。
|
14天前
|
算法
基于WOA鲸鱼优化的购售电收益与风险评估算法matlab仿真
本研究提出了一种基于鲸鱼优化算法(WOA)的购售电收益与风险评估算法。通过将售电公司购售电收益风险计算公式作为WOA的目标函数,经过迭代优化计算出最优购电策略。实验结果表明,在迭代次数超过10次后,风险价值收益优化值达到1715.1万元的最大值。WOA还确定了中长期市场、现货市场及可再生能源等不同市场的最优购电量,验证了算法的有效性。核心程序使用MATLAB2022a实现,通过多次迭代优化,实现了售电公司收益最大化和风险最小化的目标。
|
18天前
|
算法
通过matlab分别对比PSO,反向学习PSO,多策略改进反向学习PSO三种优化算法
本项目使用MATLAB2022A版本,对比分析了PSO、反向学习PSO及多策略改进反向学习PSO三种优化算法的性能,主要通过优化收敛曲线进行直观展示。核心代码实现了标准PSO算法流程,加入反向学习机制及多种改进策略,以提升算法跳出局部最优的能力,增强全局搜索效率。
|
12天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于深度学习网络的宝石类型识别算法matlab仿真
本项目利用GoogLeNet深度学习网络进行宝石类型识别,实验包括收集多类宝石图像数据集并按7:1:2比例划分。使用Matlab2022a实现算法,提供含中文注释的完整代码及操作视频。GoogLeNet通过其独特的Inception模块,结合数据增强、学习率调整和正则化等优化手段,有效提升了宝石识别的准确性和效率。
|
17天前
|
算法 5G 数据安全/隐私保护
基于MIMO系统的PE-AltMin混合预编码算法matlab性能仿真
本文介绍了基于交替最小化(AltMin)算法的混合预编码技术在MIMO系统中的应用。通过Matlab 2022a仿真,展示了该算法在不同信噪比下的性能表现。核心程序实现了对预编码器和组合器的优化,有效降低了硬件复杂度,同时保持了接近全数字预编码的性能。仿真结果表明,该方法具有良好的鲁棒性和收敛性。
31 8
下一篇
DataWorks