开发者社区> 问答> 正文

故障集团复盘需要遵循的标准流程是什么?

已解决

故障集团复盘需要遵循的标准流程是什么?

展开
收起
甜甜的嘻嘻嘻 2022-08-25 13:02:08 278 0
1 条回答
写回答
取消 提交回答
  • 推荐回答

    1.过程回溯:可使用5-why方法提出多个问题对处理过程进行深挖。如本次故障为什么会发生?为什么没有提前发现?过程中各个团队是如何处理的?处理过程是否有可以优化的空间?

    2.问题剖析:回溯完成过程之后,需要深层次剖析:是否流程机制层面问题?是否质量检验层面问题?是否产品业务层面问题?是否系统设计层面问题?有没有更好的防御机制?如何避免再次发生?

    3.经验总结:剖析出来深层次原因之后,需要切实给出可落地的Action:包括给出短期治标Action,长期治本Action,以及沉淀经验和教训。

    4.定级定责:完成原因和改进方案后,针对本次故障做最终的等级认可和故障责任划分。责任团队分为主要责任团队和次要责任团队,以及测试责任团队。

    以上内容摘自《云上业务稳定性保障实践白皮书》电子书,点击https://developer.aliyun.com/ebook/download/7712可下载完整版

    2022-08-25 13:16:46
    赞同 展开评论 打赏
来源圈子
更多
收录在圈子:
作为全球云计算的领先者,阿里云为全球230万企业提供着云计算服务,服务范围覆盖200多个国家和地区。我们致力于为企业、政府等组织机构提供安全可靠的云计算服务,给用户带来极速愉悦的服务体验。
问答排行榜
最热
最新

相关电子书

更多
阿里电商故障治理和故障演练实践 立即下载
AIOps智能故障管理在阿里巴巴集团的成功实践 立即下载
趣店集团金融级别系统容灾最佳实践 立即下载