《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.4 故障复盘

简介: 《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.4 故障复盘

3.3.4 故障复盘


企业基本每天都会面临新服务或新系统的上线和迭代。线上故障和事件在当前的业务架构规模和发展速度上是不可避免的。当故障发生后,如果不及时、深刻地去对故障的根因和处理过程进行分析改进,很难保证下次类似的问题不会出现甚至扩大化,所以故障复盘对业务稳定性建设非常重要。集团复盘遵循以下标准流程:


image.png


过程回溯:可使用5-why方法提出多个问题对处理过程进行深挖。如本次故障

为什么会发生?为什么没有提前发现?过程中各个团队是如何处理的?处理过程是否有可以优化的空间?


•问题剖析:回溯完成过程之后,需要深层次剖析:是否流程机制层面问题?是否质量检验层面问题?是否产品业务层面问题?是否系统设计层面问题?有没有更好的防御机制?如何避免再次发生?


•经验总结:剖析出来深层次原因之后,需要切实给出可落地的Action:包括给出短期治标Action,长期治本Action,以及沉淀经验和教训。


•定级定责:完成原因和改进方案后,针对本次故障做最终的等级认可和故障责任划分。责任团队分为主要责任团队和次要责任团队,以及测试责任团队。


复盘文档一般包含以下内容:故障简述(故障概述、影响面、处理人等)、故障背景(业务链路)、故障时间线(着重强调【故障引入】【故障发生】【故障发现】【业务响应】【恢复执行】【故障恢复】几个时间点)、故障原因分析(建议先一句话总结,再进行具体原因剖析)、故障过程分析(可从需求评估、代码发布、故障应急等环节进行分析)、后续改进、故障等级/责任。

相关文章
|
1月前
|
人工智能 架构师 测试技术
AI编程王炸组合:顶级三剑客 OpenSpec 定方向,Superpowers定纪律,Harness定协同
AI编程王炸组合:顶级三剑客 OpenSpec 定方向,Superpowers定纪律,Harness定协同
|
8月前
|
前端开发 JavaScript API
JSAR 入门教程:从零开始开发空间天气小摆件
JSAR是Rokid推出的AR开发框架,支持Web技术栈构建空间应用。本文详解环境搭建、项目结构、3D天气小摆件实战及调试发布,助前端开发者快速入门AR开发。
333 0
JSAR 入门教程:从零开始开发空间天气小摆件
|
11月前
|
机器学习/深度学习 人工智能 数据挖掘
基于YOLOv8的狗狗品种(多达60种常见犬类)品种鉴别识别项目|完整源码数据集+PyQt5界面+完整训练流程+开箱即用!
随着宠物经济的不断发展,狗狗已经成为众多家庭的重要成员。不同品种犬类在性格、饲养方式、健康管理上有显著差异,快速准确地识别狗狗品种有着重要应用价值。传统方式依赖人工识别,效率低且易出错。 本项目借助YOLOv8强大的目标检测能力,结合高质量数据集训练,实现60种犬类的高精度自动分类识别,并提供可交互图形界面,极大降低使用门槛。
基于YOLOv8的狗狗品种(多达60种常见犬类)品种鉴别识别项目|完整源码数据集+PyQt5界面+完整训练流程+开箱即用!
|
前端开发 fastjson Java
我的字段被FastJson给干掉了?!
本文记录作者升级到 JDK 11 后遇到的 FastJSON 序列化问题,以及详细的排查过程。
614 12
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
AI专业术语解析
本文围绕AI领域常见专业术语展开解析,涵盖基础概念、模型与算法、数据处理、生成式人工智能、自然语言处理等多个方面。基础概念类包括人工智能、机器学习、深度学习等,详细阐述其定义、原理及应用场景。模型与算法类涉及支持向量机、决策树、生成对抗网络等。数据处理类介绍了数据标注、特征工程、模型评估等。生成式人工智能相关术语有生成式AI、文本生成、图像生成等。自然语言处理方面涵盖分词、词向量、注意力机制等。此外,还解释了大模型、小样本学习、端到端、对齐等其他专业术语,为读者理解AI领域提供了全面且深入的参考。
2314 4
|
人工智能 安全 数据库
MCP:跨越AI模型与现实的桥梁
本文主要围绕AI技术的进步,特别是Anthropic的Claude 3.7 Sonnet模型在逻辑推理、代码生成和复杂任务执行方面的能力提升及其应用场景。
MCP:跨越AI模型与现实的桥梁
|
11月前
|
搜索推荐 数据挖掘 API
淘宝API文档:淘宝商品详情API接口
淘宝商品详情API(taobao.item.get)为开发者提供获取商品信息的途径,涵盖基础信息、价格、图文、评价及物流等。适用于电商数据分析、比价平台与购物助手开发。本文提供Python调用示例,含请求构造与响应处理流程。
|
消息中间件 运维 Kubernetes
后端架构演进:从单体到微服务####
本文将探讨后端架构的演变过程,重点分析从传统的单体架构向现代微服务架构的转变。通过实际案例和理论解析,揭示这一转变背后的技术驱动力、挑战及最佳实践。文章还将讨论在采用微服务架构时需考虑的关键因素,包括服务划分、通信机制、数据管理以及部署策略,旨在为读者提供一个全面的架构转型视角。 ####
335 1
|
存储 Java 编译器
【Java异常】Variable used in lambda expression should be final or effectively final
【Java异常】Variable used in lambda expression should be final or effectively final
787 0
|
机器学习/深度学习 TensorFlow 算法框架/工具
【大作业-02】水果蔬菜识别系统-基于tensorflow2.3开发
2021年6月18日,TensorFlow 2.3物体分类代码已修复并更新。本项目支持自定义数据集训练,包括基于CNN和Mobilenet的模型,后者准确率高达97%。提供了详细的CSDN教程、B站教学视频及数据集下载链接,帮助用户快速上手。项目还包括PyQt5构建的图形界面,方便用户上传图片进行果蔬识别。更多详情与代码可在Gitee获取。
603 0
【大作业-02】水果蔬菜识别系统-基于tensorflow2.3开发

热门文章

最新文章