关于告警,要想做好,从这些方面着手

简介: 监控告警最应该关注的是哪些方面?告警收敛、告警聚合、告警降噪、排班、认领、升级、协同

FlashDuty

各类监控系统都会产生告警事件,于是,就产生了 FlashDuty、PagerDuty、Opsgenie 这类产品,做告警事件的收敛降噪、排班认领升级等。如果你想增强自己公司的告警事件处理能力,参考(chao xi)这些产品的功能就可以了 😎。

  • 告警集成:目标是在一个Oncall平台上处理所有告警,一般常见的监控工具,都有对接webhook的能力,因此Oncall平台可以对不同监控工具进行接口适配,提供一个相应的webhook,对用户来说配置成本最低。还有一些不那么开放的监控工具,可能只对外提供了发邮件通知的方式,如果Oncall平台能够接受这些邮件并对内容进行解析的话,也是一种兜底的告警集成方式。

  • 标签增强:告警信息中的标签越丰富,工程师在接收到告警的时候处理起来就更高效。现实情况中很多监控工具发送出来的告警只有光秃秃的有限的几个字段,比如机器名、监控项、阈值,如果能对接外部元数据(比如CMDB),对告警的字段进行扩充,那就可以利用扩充出来的字段,更自动化的分发告警,以及在处理故障的时候,让工程师能快速判断告警的影响面和严重程度。

  • 聚合降噪:对相似的告警进行聚合、对频发的告警进行收敛,能够显著降低告警数量,减少对工程师的无效打扰。基于规则、基于语义相似度都是可行的聚合方式。告警的聚合,可以跨监控数据来源,比如来源于Zabbix的告警和来源于Prometheus的告警,如果“相似”,就可以聚合。

  • 告警抑制:可以是高级别的告警抑制低级别的告警,也可是底层基础设施的告警抑制上层模块的告警,总而言之是引入了“某种依赖关系”。这些依赖关系的维护成本较高,且不容易解释,不推荐大规模场景重度使用。

  • 值班排班:目的是避免整个团队被经常性打断。日常值班、节假日值班、临时调班、公平轮换都是排班时要考虑的因素,值班轮换交接时,要有清晰的通知机制。值班人也要有角色的概念,比如主备值班人。

  • 认领:理论上来说,所有的告警都需要被认领。如果一个告警发送出来后,没有人认领,也没有产生任何不良的后果,那这个告警是无意义的,就不应该发送出来。通常会用 MTTA 量化告警认领的效率和效果。

  • 升级/转派:针对不同等级的告警,提前建立清晰的升级路线,会降低Oncall工程师心理压力,有助于快速、准确的解决问题。告警升级可以是手动升级,也可以是自动升级,比如当某个告警超过30分钟未被处理,且未恢复,那么就自动升级到主管或者备份人员,确保问题最终得到及时的处理。

  • 协同:在告警处理的过程中,可以随时把相关的人员拉进来协同(通常,把相关人员拉齐,问题就解决了一半,如果能自动创建 warroom 就更好了),添加协同人时需要准确及时的通知到对方,并把告警处理的过程和时间线,清晰的保留下来,供协作方快速了解全貌。

  • 通知:国外Slack可以连接巨大的周边生态,很多协同工作是在Slack中完成的,说是协同领域的操作系统也不夸张;在国内那就是企微、飞书、钉钉三足鼎立了,这些IM支持开发应用,在这些内置应用中接收告警、认领、关闭、转派、处理,是提升Oncall体验的关键方法。移动办公的体验感,用过都说好。

  • 统计分析运营:告警压缩率、MTTA、MTTR、告警认领比例、告警数量是衡量Oncall效率的关键指标,通过按业务、按团队、按个人等维度分析以上指标,能够有效的推动告警的优化和治理工作,让Oncall更有效率。

这类产品缺少开源项目,可能是随着越来越多的开源作者养家糊口都困难,没人愿意用爱发电了。如果有预算,建议上 FlashDuty,我觉得这是东半球最好用的 OnCall 产品。

目录
相关文章
|
17天前
|
存储 人工智能 自然语言处理
不用写代码!阿里云分钟级部署OpenClaw,三步拥有专属AI助理!
OpenClaw是开源本地AI智能体,支持自然语言调用浏览器、邮件、文件等工具,自动处理周报、查资料、跑脚本等任务,数据全留本地,安全可控。阿里云提供一键部署方案,三步操作、几分钟即可在服务器上启用!
151 0
|
存储 弹性计算 固态存储
阿里云服务器1TB存储收费标准(数据盘/对象存储OSS/文件存储NAS)
阿里云服务器1TB存储多少钱?系统盘最大可选到500GB,数据盘选到1TB价格为3655元一年。也可以选择对象存储OSS和文件存储NAS
8696 2
阿里云服务器1TB存储收费标准(数据盘/对象存储OSS/文件存储NAS)
|
11月前
|
运维 Prometheus 监控
基于阿里云可观测产品构建企业级告警体系的通用路径与最佳实践
本文围绕企业级告警体系构建展开,探讨了监控与告警在系统稳定性中的重要作用。通过梳理监控对象、分析指标、采集数据及配置规则等环节,提出告警体系建设的通用流程,并针对多平台告警、误报、告警风暴等问题提供解决思路。结合阿里云可观测产品,分享了某电商企业的实践案例,展示了如何通过标签规范、日志标准和统一管理平台实现高效告警处置,为构建全面且实用的告警体系提供了参考指南。
1070 1
|
17天前
|
人工智能 IDE 算法
Prompt、Skill、Agent、MCP 到底啥区别?一篇讲透 AI 工作体系
本文用生动比喻为测试新人厘清AI核心概念:大模型是“天才员工”,Prompt是临时口头交代,Agent是自主干活的模式,Skill是可复用的SOP手册,MCP是连接系统的“门禁卡”,IDE是智能办公室,Claude Code则是终端特种兵。重在构建AI工作体系,而非死记定义。
|
运维 Prometheus 监控
基于阿里云可观测产品构建企业级告警体系的通用路径与最佳实践
基于阿里云可观测产品构建企业级告警体系的通用路径与最佳实践
526 1
|
供应链 监控 安全
ERP系统中的库存管理与优化
【7月更文挑战第25天】 ERP系统中的库存管理与优化
1512 2
|
jenkins 持续交付
jenkins学习笔记之九:jenkins认证集成github
jenkins学习笔记之九:jenkins认证集成github
|
存储 Kubernetes 监控
etcd:分布式键值存储系统技术
`etcd` 是一个用于共享配置和服务发现的高度可用键值存储系统,基于Raft算法保证数据一致性。它提供HTTP/GRPC API,常用于服务发现、配置共享和分布式锁。etcd集群包含多个节点,每个节点可为领导者或跟随者。在Kubernetes中,etcd存储集群状态,其稳定性和一致性至关重要。维护etcd涉及备份、状态监控、日志审计和安全措施。
736 2
|
存储 NoSQL 大数据
【大数据】LSM树,专为海量数据读写而生的数据结构
【大数据】LSM树,专为海量数据读写而生的数据结构
935 0
|
开发者
如何画好一张架构图/业务图/流程图,掌握这4个关键点
作为一个开发,日常工作中免不了要画一些图,无论是技术架构图还是业务流程图。基于个人的一些经验,作者分享了他的作图方法,给大家一点思路提供参考,希望在未来的工作、生活中都能有所帮助。

热门文章

最新文章