《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.1故障发现

简介: 《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.1故障发现

3.3.1故障发现


故障发现是基于监控报警能力,通过多角度、多场景覆盖的监控部署,尽可能地

在故障出现的第一时间通知到相关处理的人员进行应急恢复。故障的监控发现率是衡量风险衡量风险防控能力的关键指标。为保证故障发现率,故障场景监控覆盖率建议维持在95%以上。监控覆盖可以综合参考监控的对象和方式,将监控划分为4层:


基础设施监控:主要关注机房、网络等基础设施的运行情况。

系统应用监控:主要关注实例、中间件等基础服务的运行情况。

业务监控:通过采集应用程序中的业务状态数据,如接口的请求次数、成功率和

响应时长等,产出业务级别的监控指标,以数据反映业务健康状况,从而完成对业务的监控。

用户反馈监控:主要从舆情、客诉等反向收集用户对功能可用性的反馈,作为一

个兜底监控。


监控有效覆盖后,随着业务复杂度的提升,告警会越来越多,如何将海量的监控

进行有效整合和有效通知,就成为了另一个复杂的问题。做法是将监控项和前面的故障等级定义场景进行关联,将各类重要的监控能力都聚合到监控中台,由负责故障处理人员的7*24监控中心来对达到故障等级的告警进行故障通知和升级。最终目标是得到多维度高度收敛的监控信息,以达到故障快速发现的目的。

相关文章
|
Web App开发 监控 Kubernetes
容器技术入门3:chaos混沌工程
参加冬季实战营第四期:零基础容器技术实战。参加学习一下,教程很好,做笔记记录一下。本文记录冬季实战营第四期:零基础容器技术实战动手实战-Chaos带你快速上手混沌工程。
1950 0
容器技术入门3:chaos混沌工程
|
2月前
|
Web App开发 数据采集 人工智能
做GEO 优化第30天,我被AI认识了吗?真实数据+踩坑复盘
30天实验验证:持续输出+多平台分发,内容被豆包、元宝、文心、千问引用,但仅千问在搜索“二二得四GEO”时准确识别品牌。核心发现:AI知内容,不知“我是谁”。下一步聚焦品牌强绑定(每文3–5次提及)、开放平台同步与月度AI监测。
376 1
|
6月前
|
JSON 监控 API
1688搜索店铺列表API使用指南
1688开放平台提供搜索店铺列表API,支持按关键词、行业、地区等条件检索店铺信息,适用于市场调研、竞品监控等场景。本文详解接口摘要、参数说明及Python调用示例,助力开发者高效接入。
1059 1
|
API iOS开发 智能硬件
在iOS应用中使用实时活动与灵动岛
iOS16系统引入了实时活动与灵动岛相关的API。实时活动API能够让用户在桌面直接浏览到应用程序所提供的实时性较高的信息,例如比赛的比分信息,外卖的配送进度信息,票务信息等。在支持灵动岛的设备上,实时活动配合灵动岛,更是能带给用户沉浸式的信息获取体验,在某些特定应用场景下非常有用。
1524 8
|
缓存 安全 搜索推荐
google hacking字符
google hacking字符
|
安全 搜索推荐 机器人
纳米技术与医疗:纳米机器人的临床应用前景
【9月更文挑战第28天】纳米机器人作为纳米技术在医疗领域的重要应用,正逐步改变着传统医疗的面貌。它们在药物输送、癌症治疗、手术辅助和疾病诊断等方面展现出广阔的应用前景。随着科学技术的不断进步和纳米技术的不断成熟,我们有理由相信,纳米机器人将成为医疗领域的一个重要且不可或缺的组成部分,为人类的健康事业做出更大的贡献。同时,我们也应关注纳米技术的安全性和可靠性问题,确保其在医疗应用中的安全和有效。
1584 1
|
机器学习/深度学习 编解码 人工智能
视频生成新玩家:Sora 原理探索与效果对比
视频生成新玩家:Sora 原理探索与效果对比
786 0
视频生成新玩家:Sora 原理探索与效果对比
|
机器学习/深度学习 监控 机器人
RPA技术在金融行业中的几个关键应用领域
【8月更文挑战第4天】RPA技术在金融行业中的几个关键应用领域
884 2
|
机器学习/深度学习 搜索推荐 算法
推荐系统的矩阵分解和FM模型
推荐系统的矩阵分解和FM模型
448 0

热门文章

最新文章