《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.3 故障快恢

简介: 《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.3 故障快恢

3.3.3 故障快恢


当故障发生时,有时无法第一时间定位根因,此时就需要高优使用通用的恢复方法进行止损恢复,比如找到服务最近的相关变更,进行变更回滚;针对异常服务进行服务重启等。通用的故障恢复方法一般包括重启、回滚、扩容、切流、限流、降级等。快恢的执行效率很大程度取决于是否有完备的预案和定期演练。这里给出一个相对通用的故障快恢SOP供参考:


1)收到故障告警的接口人立即召集团队人员上线,如果是白天就集中办公。

2)参与故障处理的人员分成3类角色,第1类负责快恢,第2类负责排查,第3类

负责信息同步,其中快恢人员要2人以上。这里重点关注快恢人员和信息同步人员的操作。

3)快恢人员上线后分3路执行止血操作,第1路是重启和扩容,第2路是回滚,第3路是检查上下游依赖。


3-1)重启与扩容:如果流量远小于集群容量,那么直接开始分批重启机器,如

在部分机器成功重启后,问题恢复,在保证容量的前提下将剩余的机器做下线处理;如果流量大于集群容量,或是遇到对流量敏感的故障,那么要先执行限流预案,再执行分批重启,同时进行扩容操作。


3-2)回滚:快恢人员通过变更管控系统检查2小时以内是否有应用发布或配置

变更的操作,立即停止正在进行中的发布和变更,并且进行回滚。


3-3)上下游依赖:快恢人员检查上游来源、下游依赖、DB与Tair、网络与磁盘等,一旦发现是应用以外的问题,立即截图并发送给对应的接口人,并加进故障处理群。截图信息要包含3要素,即时间、地点(应用与容器)、错误(堆栈信息、流量统计等)。


4)第3步中的3种措施中任意一种令业务指标恢复就是达到了目标,为其他人员

排查和根治故障争取到了时间。


5)负责信息同步的人员在整个恢复过程中,一方面需要向故障群、业务方、高层通报故障处理的进展,以及需要的支持;另一方面,在其他团队的人员加入排查时,提供信息的同步,帮助大家快速进入状态。

相关文章
|
城市大脑 算法 数据可视化
数字孪生核心技术揭秘(六):传统三维gis与数字孪生的区别
当前对“数字孪生城市”没有一个严格界定的标准,本质上“数字孪生城市”是在传统三维GIS应用的基础上演化而来;随着技术创新和行业需求的发展,两者的差异也越来越大;本文梳理了两者的异同,同时比较了两者的适用场景。
5815 1
数字孪生核心技术揭秘(六):传统三维gis与数字孪生的区别
如何使用命令生成RSA2密钥
说明:   本帖主要说明如何使用命令来生成RSA2密钥。    使用密钥工具生成RSA2密钥(推荐使用):    帖子地址:[url]https://openclub.alipay.com/read.
2448 12
|
7月前
|
监控 测试技术 API
人为漏测防不住?让Dify工作流成为你的“测试策略大脑”,7x24小时在线排查
在软件测试中,人为疏漏难以避免。本文介绍如何用Dify工作流构建“测试策略大脑”,将专家经验固化为自动化分析系统,实现代码变更智能评估、测试重点推荐,7x24小时守护质量,让测试更精准高效。
|
监控 前端开发 数据可视化
深入调查研究
【11月更文挑战第5天】
471 2
|
SQL Java 数据挖掘
一文深度讲解JVM 内存分析工具 MAT及实践(建议收藏)
熟练掌握 MAT 是 Java 高手的必备能力,但实践时大家往往需面对众多功能,眼花缭乱不知如何下手,小编也没有找到一篇完善的教学素材,所以整理本文帮大家系统掌握 MAT 分析工具。
|
测试技术 Android开发 移动开发
SoloPi:支付宝 Android 专项测试工具 | 开源
本文主要介绍支付宝在移动端上实现的一套无线化、非侵入、免 Root 的 Android 专项测试方案 SoloPi。直接操控手机,即可实现自动化的功能、性能、兼容性、以及稳定性测试等工作。
3795 0
|
消息中间件 监控 前端开发
研发人员如何做好日常工作的稳定性保障
本文介绍了一些研发人员如何做好稳定性建设的工作事项
831 0
|
机器学习/深度学习 计算机视觉 数据可视化
YOLOv5改进系列(0)——重要性能指标、训练结果评价及分析、影响mAP指标的因素、优化mAP的方法
YOLOv5改进系列(0)——重要性能指标、训练结果评价及分析、影响mAP指标的因素、优化mAP的方法
10871 0
YOLOv5改进系列(0)——重要性能指标、训练结果评价及分析、影响mAP指标的因素、优化mAP的方法
|
存储 缓存 Java
使用@Cacheable,缓存优化的方式优化数据库的查询
使用@Cacheable,缓存优化的方式优化数据库的查询
1477 0
|
Web App开发 前端开发 测试技术
性能测试分层模型以及前端性能测试工具介绍
性能测试分层模型以及前端性能测试工具介绍
324 0

热门文章

最新文章