《云上容灾交付服务白皮书》——3交付标准化参考框架——3.5 演练实施(上) https://developer.aliyun.com/article/1229833?groupCode=supportservice
组织保障是否到位,是容灾演练成功与否的最关键因素之一。在大型项目中,涉及的关联团队通常比较复杂。在演练开始前,需要梳理保障团队,并举行演练开工会,保证每个团队的参与人清楚时间和职责范围。下图是阿里云某大型项目容灾演练的保障队形及职责分工的一个例子。
图 3-17 容灾演练人员保障矩阵
容灾演练组织保障的重点关注项如下:
应确保业务验证人员熟悉业务,确保在有限的时间窗口内,高效地完成业务验证。
应确保和远程保障的技术专家沟通到位,确保深夜出现紧急的复杂问题时,能够及时联系产品技术专家。
应明确问题管理负责人和问题修复负责人,确保问题通报和问题修复的过程有序开展。
3.5.2 演练复盘
容灾演练是为了全方位验证灾难场景下的响应能力,包括方案、技术、流程、人员等综合因素。通过演练发现系统短板,通过复盘动作持续修复短板。复盘的基本逻辑是一个PDCA(Plan-Do-Check-Act)的循环过程。
图 3-18 演练复盘的流程
容灾演练复盘的重点关注项如下:
应检查演练的场景,确保能够应对真实世界中的故障场景。
应检查演练的计划,是否按期完成。如未完成,应评估客观因素,是否需要和有条件新增演练窗口。
应评估业务的影响范围,确保影响的用户数、功能和时间是在可接受范围内。
应检查组织保障机制,确保分工明确、职责清晰。
应分析方案改进点,识别在容灾方案和演练方案上可优化改进的地方。
应分析技术改进点,识别在容灾切换演练的过程中,可观察、可灰度、可回滚三个维度上可改进的地方。
应分析管理改进点,识别在变更评审、组织协调上可改进的地方。
应评估人员成长的情况,分别对自有人员和合作方的能力,是否可达到自主开展容灾切换的水平。
应明确改进的落地计划,对于识别出来的改进项,任务分解到跟踪人、负责人和时间计划。