《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.1故障发现

简介: 《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.1故障发现

3.3.1故障发现


故障发现是基于监控报警能力,通过多角度、多场景覆盖的监控部署,尽可能地

在故障出现的第一时间通知到相关处理的人员进行应急恢复。故障的监控发现率是衡量风险衡量风险防控能力的关键指标。为保证故障发现率,故障场景监控覆盖率建议维持在95%以上。监控覆盖可以综合参考监控的对象和方式,将监控划分为4层:


基础设施监控:主要关注机房、网络等基础设施的运行情况。

系统应用监控:主要关注实例、中间件等基础服务的运行情况。

业务监控:通过采集应用程序中的业务状态数据,如接口的请求次数、成功率和

响应时长等,产出业务级别的监控指标,以数据反映业务健康状况,从而完成对业务的监控。

用户反馈监控:主要从舆情、客诉等反向收集用户对功能可用性的反馈,作为一

个兜底监控。


监控有效覆盖后,随着业务复杂度的提升,告警会越来越多,如何将海量的监控

进行有效整合和有效通知,就成为了另一个复杂的问题。做法是将监控项和前面的故障等级定义场景进行关联,将各类重要的监控能力都聚合到监控中台,由负责故障处理人员的7*24监控中心来对达到故障等级的告警进行故障通知和升级。最终目标是得到多维度高度收敛的监控信息,以达到故障快速发现的目的。

相关文章
|
存储 运维 Prometheus
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.1监控预警体系建设
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.1监控预警体系建设
289 0
|
算法 BI
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.2故障分体系
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.2故障分体系
377 0
|
运维 监控
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.2故障应急
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.2故障应急
358 0
|
运维 NoSQL 容器
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.3 故障快恢
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.3 故障快恢
239 0
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3故障管理全流程
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3故障管理全流程
140 0
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.4 故障复盘
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.4 故障复盘
306 0
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.5 改进追踪
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.5 改进追踪
150 0
|
运维
《云上业务稳定性保障实践白皮书》——二. 理论概念——2.2 故障
《云上业务稳定性保障实践白皮书》——二. 理论概念——2.2 故障
187 0
|
UED
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.1 故障等级定义
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.1 故障等级定义
1410 0
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.4故障演练与紧急预案设计
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.4故障演练与紧急预案设计
194 0