监控告警成长之路

本文涉及的产品
可观测监控 Prometheus 版,每月50GB免费额度
简介: 监控告警成长之路

背景

在过去的两年里,我们从零开始搭建了整个事业群的监控。目前整套系统接入200+的服务,700+的实例,收集了上万个指标。不停探索,历经曲折,方得自由。本文主要内容是总结两年间走过的路,趟过的坑,学习到的经验。

一无所有

业务刚开始上线时,是没有任何监控的,所有的监控都是依赖接入层的Nginx的监控数据,所有的故障都是从用户获取到反馈才能发现;排查问题依靠日志系统;从上游服务开始,逐层查询日志。每次发布上线内心都在敲锣打鼓。

疲于奔命

在业务第一个大版本上线之后,我们开始着手给业务系统接入监控,此时的选择是兄弟团队搭建的 openfalcon,使用 grafana 作为看板。基于对立体化监控的理解,开始着手建立各种纬度的看板

  • 服务纬度:

提供 Client、Server 端视图,从服务的状态、性能、质量、容量四个维度,分析需要添加到看板的指标

  • 业务纬度:

关注业务的关键路径,建立业务监控树,用于出现问题时,快速定位到具体的服务

  • 产品纬度:

分析产品关键指标,构建公共看板

在这个阶段,我们投入了大量的人力资源到监控中,却收效甚微,主要有以下几点原因:

  1. 从下往上的构建看板,需要不停的耗费人力补齐遗漏的指标
  2. 关注服务质量的指标多于关注产品质量指标,对于产品指标缺少足够的认识
  3. 受限于 openfalcon+grafana的能力,建立和维护 监控和告警,人力成本极高
  4. 所有人都要摸索熟悉监控的基础概念、门槛高
  5. 告警与业务关联度不高,业务一有波动就会误告,真正出现问题又发现没有配置告警

在这个阶段,我们投入了大量的人力,建立和维护各种看板,处理各种告警,疲于奔命,却不尽如人意。

前路始现

在第一个版本稳定之后,很长一段时间没有大需求,促使我们考虑如何解决这些问题。同时在这个阶段,在部门内部开始开发自己的RPC框架,基于在微信的工作经验,促使我们把目光投向 Prometheus 等基于数据的监控平台。

在监控方面,我们使用 SDK(数据上报) + Prometheus(数据收集)+ Grafana(监控看板),构建了更灵活方便的看板

  • 服务纬度

在开发RPC框架的同时,将服务纬度的上报直接嵌入框架中,同时提供SDK给兄弟团队用于现有服务的接入。然后统一维护了两套服务看板:全局看板,详细看板。前者负责日常运营,后者负责排查问题。

  • 业务&产品纬度

SDK设计了统一简单的上报接口,方便构建业务、产品相关的看板

至此,服务纬度的数据变成了可以逐渐迭代优化的统一视图,随着经验的积累,对监控的认识越深刻,看板使用越是应手。

在告警方面,使用 Promtheus(数据计算) + Promgen(规则管理) + AlertManager(告警管理) + Webhook (告警调用)+ 企业微信群,构建了完善的告警链条。

方得自由

在监控告警中,我们会频繁遇到以下问题:

  1. 阈值设定:不同业务场景,不同指标,如何衡量阈值是过于宽松,还是过于严格。
  2. 流量波动:在理想的世界里,流量是有起伏规律的,监控系统能够掌握这种规律,当流量上升时,告警阈值自动上升
  3. 瞬态告警:每个人都会遇到这样的情况,同样的问题隔段时间就出现一次,持续时间不过几分钟,来得快去得也快。说实话,你已经忙得不可开交了,近期内也不大会去排除这种问题。是忽略呢?还是忽略呢?
  4. 信息过载:典型的信息过载场景是,给所有需要的地方都加上了告警,以为这样即可高枕无忧了,结果随着而来的是,各种来源的告警轻松挤满你的收件箱。
  5. 故障定位:在相对复杂的业务场景下,一个“告警事件” 除了包含“时间”(何时发生)、“地点”(哪个服务器/组件)、“内容”(包括错误码、状态值等)外,还包含地区、机房、服务、接口等,故障定位之路道阻且长。

那么目前我们解决的怎么样了呢?

  • 问题 1、2,为了解决该问题,在监控平台里,引入了异常检测算法(anomaly detection) ,得到了很好的解决
  • 问题 3,使用Prometheus的能力,得以解决
  • 问题 4,我们对告警指标进行分级,只在调用链条的最上游配置细化的重要告警指标,告警之后通过链接跳转到对应的详细看板进行问题排查,告警更少更精确可查,维护起来也更简单了。
  • 问题 5,目前仍然没有得到很好的解决,但是已经有了方案,将在后续进一步优化

未来之路

基于 Prometheus 的数据平台能力,可以构建出业务所有服务的调用的树状图,并且当时的错误变化情况,进行自动故障根源分析,这也是我们以后将要做的


附:

(全局看板部分视图)

(详细看板部分视图)

参考链接

https://www.jianshu.com/p/06c7dd803d4a

本文作者 : cyningsun

本文地址https://www.cyningsun.com/03-28-2020/site-reliability-engineering.html

版权声明 :本博客所有文章除特别声明外,均采用 CC BY-NC-ND 3.0 CN 许可协议。转载请注明出处!

# SRE

  1. 深入浅出 Prometheus
  2. 译|How to use Prometheus for anomaly detection in GitLab
  3. Prometheus Client定制
  4. 高可用Prometheus集群
相关实践学习
容器服务Serverless版ACK Serverless 快速入门:在线魔方应用部署和监控
通过本实验,您将了解到容器服务Serverless版ACK Serverless 的基本产品能力,即可以实现快速部署一个在线魔方应用,并借助阿里云容器服务成熟的产品生态,实现在线应用的企业级监控,提升应用稳定性。
目录
相关文章
|
Prometheus 运维 监控
直击运维痛点,大数据计算引擎 EasyMR 的监控告警设计优化之路
监控告警在企业保障系统的稳定性和事故快速恢复的全周期链路中都是至关重要的一环。在新版本的 EasyMR 中袋鼠云开发团队也对监控告警功能进行了全新的优化,通过本文和大家分享监控告警功能的设计思路以及碰到各类问题痛点的解决方法。
400 0
|
存储 JSON 运维
直击痛点,详解 K8s 日志采集最佳实践
在 Kubernetes 中,日志采集和普通虚拟机的方式有很大不同,相对实现难度和部署代价也略大,但若使用恰当则比传统方式自动化程度更高、运维代价更低。
直击痛点,详解 K8s 日志采集最佳实践
|
5月前
|
运维 Prometheus 监控
监控与日志分析:运维的双剑合璧
【6月更文挑战第21天】监控与日志分析在IT运维中至关重要。监控守护系统健康,通过性能指标、服务状态和安全事件预警确保稳定性;日志分析则用于问题追踪,通过错误、访问和安全日志定位故障。监控工具如Prometheus与日志分析工具如ELK堆栈协同工作,统一平台、合理告警、定期分析和团队协作是高效运维的关键。这两者的结合助力运维人员迅速响应和解决问题,维护系统稳定。
|
1月前
|
运维 Prometheus 监控
运维之眼:监控的艺术与实践
在信息技术飞速发展的今天,运维监控已成为保障系统稳定运行的关键。本文将探讨运维监控的重要性,介绍常用的监控工具和方法,并通过实际案例分析,展示如何有效地实施监控策略,以确保系统的高可用性和性能。
|
存储 数据采集 监控
阿里云故障洞察提效 50%,全栈可观测建设有哪些技术要点
本文分享了阿里云可观测平台服务作为全球分布的超大业务系统,同时也作为服务全球企业用户的可观测平台提供方,在故障洞察提效中遇到的业务挑战,以及 6 个关键技术点和 2 个应用案例。
21561 59
阿里云故障洞察提效 50%,全栈可观测建设有哪些技术要点
|
存储 数据采集 运维
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.1 监控告警基本概念
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.1 监控告警基本概念
111 0
|
缓存 Prometheus 监控
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.2 北京冬奥监控告警体系介绍(1)
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.2 北京冬奥监控告警体系介绍(1)
152 0
|
监控 安全 API
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.2 北京冬奥监控告警体系介绍(2)
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.2 北京冬奥监控告警体系介绍(2)
183 0
|
弹性计算 监控 关系型数据库
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.2 北京冬奥监控告警体系介绍(3)
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.2 北京冬奥监控告警体系介绍(3)
|
运维 监控 云计算
企业运维训练营之云上监控运维最佳实践启动!参营送好礼
企业运维训练营之云上监控运维最佳实践,对云上监控运维关键技术cms、arms进行解密,普及云上监控运维最佳实践。
294 0
企业运维训练营之云上监控运维最佳实践启动!参营送好礼