《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.4 故障复盘

简介: 《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.4 故障复盘

3.3.4 故障复盘


企业基本每天都会面临新服务或新系统的上线和迭代。线上故障和事件在当前的业务架构规模和发展速度上是不可避免的。当故障发生后,如果不及时、深刻地去对故障的根因和处理过程进行分析改进,很难保证下次类似的问题不会出现甚至扩大化,所以故障复盘对业务稳定性建设非常重要。集团复盘遵循以下标准流程:


image.png


过程回溯:可使用5-why方法提出多个问题对处理过程进行深挖。如本次故障

为什么会发生?为什么没有提前发现?过程中各个团队是如何处理的?处理过程是否有可以优化的空间?


•问题剖析:回溯完成过程之后,需要深层次剖析:是否流程机制层面问题?是否质量检验层面问题?是否产品业务层面问题?是否系统设计层面问题?有没有更好的防御机制?如何避免再次发生?


•经验总结:剖析出来深层次原因之后,需要切实给出可落地的Action:包括给出短期治标Action,长期治本Action,以及沉淀经验和教训。


•定级定责:完成原因和改进方案后,针对本次故障做最终的等级认可和故障责任划分。责任团队分为主要责任团队和次要责任团队,以及测试责任团队。


复盘文档一般包含以下内容:故障简述(故障概述、影响面、处理人等)、故障背景(业务链路)、故障时间线(着重强调【故障引入】【故障发生】【故障发现】【业务响应】【恢复执行】【故障恢复】几个时间点)、故障原因分析(建议先一句话总结,再进行具体原因剖析)、故障过程分析(可从需求评估、代码发布、故障应急等环节进行分析)、后续改进、故障等级/责任。

相关文章
|
存储 数据采集 机器学习/深度学习
主数据管理的前世 今生 未来(一文深入了解主数据管理)(下)
根据Gartner的定义,“主数据管理(MDM)是一种技术支持的规程,业务和IT部门共同工作,以确保企业共享主数据资产的唯一性、准确性、语义一致性和可靠性……”
主数据管理的前世 今生 未来(一文深入了解主数据管理)(下)
|
9月前
|
人工智能 供应链 安全
MCP Server的五种主流架构与Nacos的选择
本文深入探讨了Model Context Protocol (MCP) 在企业级环境中的部署与管理挑战,详细解析了五种主流MCP架构模式(直连远程、代理连接远程、直连本地、本地代理连接本地、混合模式)的优缺点及适用场景,并结合Nacos服务治理框架,提供了实用的企业级MCP部署指南。通过Nacos MCP Router,实现MCP服务的统一管理和智能路由,助力金融、互联网、制造等行业根据数据安全、性能需求和扩展性要求选择合适架构。文章还展望了MCP在企业落地的关键方向,包括中心化注册、软件供应链控制和安全访问等完整解决方案。
3690 160
MCP Server的五种主流架构与Nacos的选择
|
1天前
|
人工智能 安全 机器人
OpenClaw 最新保姆级飞书对接指南教程 搭建属于你的 AI 助手
OpenClaw 是一款开源本地AI助手,支持飞书、Telegram等多平台接入,可执行系统命令、浏览网页、管理文件及编写代码。本教程详解Linux下一键部署+飞书机器人对接全流程,强调数据自主可控与隐私安全。(239字)
388 1
|
运维 监控 网络协议
面对全球化的泼天流量,出海企业观测多地域网络质量
网络监控与分析在保证网络可靠性、优化用户体验和提升运营效率方面发挥着不可或缺的作用,对于出海企业应对复杂的网络环境和满足用户需求具有重要意义,为出海企业顺利承接泼天流量保驾护航。
558 217
|
前端开发 fastjson Java
我的字段被FastJson给干掉了?!
本文记录作者升级到 JDK 11 后遇到的 FastJSON 序列化问题,以及详细的排查过程。
472 12
|
数据采集 机器学习/深度学习 算法
数据治理之参考数据与主数据管理
最近凑巧参与了一次某行业的业务共创会议,期间讨论到了主数据系统,还有我们该如何参与主数据系统建设的话题。说实话,我一直以为我不会有机会参与到主数据与参考数据系统的话题中去,所以,又去把DAMA的书籍翻了翻。顺便也重新思考了一下主数据与参考数据这个数据治理的课题。
3307 1
数据治理之参考数据与主数据管理
|
存储 运维 Prometheus
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.1监控预警体系建设
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.1监控预警体系建设
442 0
|
运维 监控 测试技术
故障治理:如何进行故障复盘
故障复盘的重要性无需多说,每一次故障都是宝贵的学习机会,本人接手故障复盘工作已经半年有余,从一开始的手足无措,慢慢变得游刃有余。以下内容为本人从网上查阅学习多个专家经验,并结合工作经历总结而来,仅供参考。
|
Linux Perl
Linux 6种日志查看方法,不会看日志会被鄙视的
Linux 6种日志查看方法,不会看日志会被鄙视的