开发者社区> 问答> 正文

故障应急处理中对指挥员的要求有哪些?

故障应急处理中对指挥员的要求有哪些?

展开
收起
Aries- 2022-05-11 09:11:31 335 0
来自:阿里技术
1 条回答
写回答
取消 提交回答
  • 1.启动:确定人员,并通过视频会议、故障群等方式建立起应急小组。 2.前期:紧盯快恢负责人进展,优先落地快恢,而不是分析根本原因。当快恢不生效后,也要继续探索可能的快恢手段,例如回滚近期的变更等操作。过往的故障时长没有满足1-5-10的案例中,大多数情况下都是指挥员在分析问题根本原因,错失了快恢的最佳时机。 3.中期:尝试大量手段都无法恢复服务的话,重心逐渐转移到问题诊断负责人这里,找到根本原因。通常进入到这个阶段故障还没恢复的话,就是大故障了,1-5-10基本上是无法达标的。 4.后期:组织团队继续观察,确认不会问题再复现。组织善后和复盘等工作。

    2022-05-11 20:37:05
    赞同 展开评论 打赏
问答地址:
来源圈子
更多
收录在圈子:
+ 订阅
问答排行榜
最热
最新

相关电子书

更多
阿里电商故障治理和故障演练实践 立即下载
低代码开发师(初级)实战教程 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载