3.3.1故障发现
故障发现是基于监控报警能力,通过多角度、多场景覆盖的监控部署,尽可能地
在故障出现的第一时间通知到相关处理的人员进行应急恢复。故障的监控发现率是衡量风险衡量风险防控能力的关键指标。为保证故障发现率,故障场景监控覆盖率建议维持在95%以上。监控覆盖可以综合参考监控的对象和方式,将监控划分为4层:
基础设施监控:主要关注机房、网络等基础设施的运行情况。
系统应用监控:主要关注实例、中间件等基础服务的运行情况。
业务监控:通过采集应用程序中的业务状态数据,如接口的请求次数、成功率和
响应时长等,产出业务级别的监控指标,以数据反映业务健康状况,从而完成对业务的监控。
用户反馈监控:主要从舆情、客诉等反向收集用户对功能可用性的反馈,作为一
个兜底监控。
监控有效覆盖后,随着业务复杂度的提升,告警会越来越多,如何将海量的监控
进行有效整合和有效通知,就成为了另一个复杂的问题。做法是将监控项和前面的故障等级定义场景进行关联,将各类重要的监控能力都聚合到监控中台,由负责故障处理人员的7*24监控中心来对达到故障等级的告警进行故障通知和升级。最终目标是得到多维度高度收敛的监控信息,以达到故障快速发现的目的。