为什么「告警等级」对缩短平均修复时间如此重要?

简介:

互联网时代 IT 相关的衍生产品有很多,监控工具为其中的佼佼者。很多监控工具对于确保网站和应用的平稳运行做了非常多的工作,但是,对于告警产生到通知用户的过程,还有很大的改进空间。

在合理评估告警严重程度的基础上,确保通知合适的运维汪,对于快速有效解决事件至关重要。但是我们对告警等级的重要性以及如何设置告警等级来提高团队效率,还缺少必要的认识。针对该问题,以下几条快速指南可以供大家参考。

什么是告警等级?有什么重要性?

简单来说,告警等级是表征事件严重性的指标之一,取决于事件对用户体验以及网站或应用整体性能造成的负面影响的大小。

例如,导致网站崩溃的事件,被认为负面影响极大,告警等级也就较高;而一个Ping的问题有时不会很明显,被认为负面影响略小,告警等级也就较低。

告警等级的重要性体现在以下方面:

  • 有助于减少和控制告警噪声的数量。
  • 使得错误处理流程更为顺畅。
  • 使你解决问题更有效率。

总而言之,根据告警等级不同,可以优先处理重要事件,避免干扰到不在职责范围内的无关人员。

怎样创建合适的团队告警等级规则?

确定告警等级的重要性,相信大家已经了解了,但如何创建一个适合整个团队事件严重程度的评估方法,是监控工具开发人员的棘手问题。

一般来说,评估告警等级过程需考虑以下3个方面:

1.严重性等级结构
2.团队结构
3.通信结构

1)严重性等级结构

严重性等级的主要目的是确保合适的人员能够知道问题,并按照严重程度来处理问题。一般来说,设置严重程度等级结构的最简单方法是根据商业价值来确定网站或应用的最关键部分。并且在团队中,并没有所谓的正确或错误的方式来判定严重性等级。要知道,重要的是了解团队如何划分具体的事件,并确保每个人都达成共识。

2)团队结构

清晰地认识团队结构并对告警进行有序分派,将提高整个团队的执行效率。为了更有序和有效的分派告警,我们应该注意几个问题:

  • 告警处理需要涉及哪些人?
  • 处理事件时,每个人的责任是什么?
  • 告警要求在哪个环节通知哪些人?

3)通信结构

如果你不知道告警在团队结构内应该如何通信,那么建立通信结构将是创建严重性等级过程中最为困难的一环。

你可以这样考虑:

  • 严重性等级结构:这个问题有多严重?
  • 团队结构:这是谁的责任?
  • 通信结构:如果问题发生,如何以及何时联系团队成员?

创建通信结构能将不同事件与团队中的不同角色联系起来,并根据时间紧迫度与错误频率添加更明确的操作。这样,可以确保通过恰当的渠道联系到合适的人员,且符合当前的情况。如果一个响应者不在线上,可通过告警升级机制确保团队中的其他成员得到通知。

根据团队结构,选择合适的通知渠道与阈值配置,意味着问题解决能更加高效,且不会牵涉到无关人员。如 OneAlert 云告警平台允许成员自行设置通知方式与阈值配置,如下图所示,如果告警在30分钟(用户自行设置)后,一线成员无响应,将自动升级为通知二级成员。用户可以根据团队结构的不同,设置不同层次的通知策略。

为什么「告警等级」对缩短平均修复时间如此重要?

希望这篇文章对你有所帮助!

OneAlert 是应用性能管理领军企业 OneAPM 公司旗下产品,也是国内首个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有 IT 事件,提升 IT 可靠性。想了解更多信息,请访问 OneAlert 官网 。
本文转自 OneAPM 官方博客

相关文章
|
3月前
|
监控 安全 数据安全/隐私保护
等级保护 —— 安全控制点,安全要求
等级保护 —— 安全控制点,安全要求
48 0
|
7月前
|
SQL 数据库连接 API
应用性能管理场景下自动探查风险
本场景主要内容是体验如何在应用性能管理场景下,模拟数据的导入、读取和预处理的过程,了解自动探查风险。
48 1
|
数据采集 监控 数据管理
数据质量最佳实践(1):批量配置质量规则,快速提升质量覆盖率
在Dataphin3.9版本中,Dataphin支持了批量创建质量规则,支持选择单个规则批量应用到多张质量监控表中,提升质量整体的配置效率和监控覆盖效果。
数据质量最佳实践(1):批量配置质量规则,快速提升质量覆盖率
|
监控
限制SLS告警通知时段的几种常见方法
在对系统进行监控告警的过程中,有时候并非在任何时候都要接收告警通知,本文会介绍几种常见的限制告警通知时段的方法,以及它们各自所适用的场景。
348 0
限制SLS告警通知时段的几种常见方法
|
云安全 安全 Oracle
安全基线核查
安全基线核查
1842 0
安全基线核查
|
Java
报警系统QuickAlarm之报警规则解析
前面两篇分别说了报警执行器和报警规则的定义及用户扩展加载,接下来就是比较核心的一块了,如何将报警规则和报警执行器关联起来,即当发生报警时,应该call哪一个报警执行器
345 0
|
机器学习/深度学习 运维 自然语言处理
抑制告警风暴—SLS告警智能合并发布
SLS最新推出了告警智能合并能力,让用户只需一些极简的配置,便可开启告警的智能降噪,抑制告警风暴。
959 1
|
运维 监控 负载均衡
无效告警优化实践总结
无效告警优化实践总结
无效告警优化实践总结
|
存储 Web App开发 缓存
技术干货 | 应用上线前的“体检”,你知道需要检测哪些指标吗?
应用上线前检测哪些项目?如何检测?检测数据指标包括哪些?
1468 0
技术干货 | 应用上线前的“体检”,你知道需要检测哪些指标吗?
|
SQL 运维 监控
监控异常操作频率并报警
当企业上云后,监控云资源的异常操作就是一件非常重要的事情。如何监控这些异常操作呢?答案就是操作审计。接下来就以一些实际场景为例,介绍如何基于操作审计,监控云上异常操作或操作频率,进行报警。
监控异常操作频率并报警