开发者社区> 问答> 正文

如何有效发现监控问题?

如何有效发现监控问题?

展开
收起
zxynnn 2022-05-10 12:19:06 467 0
1 条回答
写回答
取消 提交回答
  • 1、首先当然是要监控治理,做到监控准确,全面,然后按照前面说的,控制报警数量,集中报警群,做到可控、合理;2、然后像刷抖音一样,隔三差五(一般至少1个小时要有一次)刷一下报警群,如果报警群里的新增条数在20条以内,问题一般不大,刷一刷就行;3、如果突然一段时间内报警陡增,就要看一下具体是什么问题了,小问题直接处理,大问题分工组织协调;4、消防群中的问题,要及时同步到团队中;5、值班群中的工单,需要关注,并有一个初步的判断:是否是大面积出现的业务反馈;是否有扩大的隐患; 要做到“有效”两个字,SRE人员,需要有一个精确的判断:当前报警是否需要处理?当前报警是否意味着问题?当前报警的影响范围和涉及人员是谁?当前工单/问题是否可能进一步扩大,不同的判断,采取的行动是不同的。

    2022-05-10 12:26:46
    赞同 展开评论 打赏
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
基于日志trace的智能故障定位系统 立即下载
智能告警:IT系统神经中枢 立即下载
阿里云应用性能管理(APM)产品-应用实时监控服务(ARMS 立即下载