容灾演练是检验系统是否具备容灾能力的最好方式。容灾演练方案设计的核心逻辑是明确达到容灾目标的验证方法,需要重点关注的 3 个步骤:
1. 演练场景设计:梳理灾难场景和演练场景的映射关系,并将演练场景进行抽象和分类,以控制合理的工作量。
2. 应急预案设计:容灾演练和容灾切换过程中,针对有潜在风险的步骤,设计应对措施。
3. DRP 方案设计:为了减少灾难带来的损失和保证信息系统所支持的关键业务功能在灾难发生后能及时恢复和继续运作所做的事前计划和安排。
3.4.1 演练场景设计
1)灾难场景与容灾切换场景的映射关系
容灾演练场景,是模拟真实世界中的灾难场景而设计的验证方式,通过演练的方式来检验灾难恢复预案的有效性。下图是真实世界的灾难场景和演练场景的通用映射关系。集群内单机故障的切换,由集群本身的 HA 能力自动完成,因此容灾演练的重心是关注集群故障、机房故障和城市灾害。
图 3-9 灾难场景与容灾切换场景的映射关系
2)演练场景的分类
容灾演练作为一种变更操作,本身是带有风险的,尤其是在生产环境中开展。因此需要对演练场景进行分类,用于分批次规划合理的演练窗口。同时,演练难度应该由低到高逐步开展。演练难易度的评估因素中,最关键的是技术复杂度和业务影响范围。下图为演练场景分类的常用方法,按照风险等级划分为低中高。
图 3-10 容灾演练场景分类
《云上容灾交付服务白皮书》——3交付标准化参考框架——3.4演练方案设计(2) https://developer.aliyun.com/article/1229853?groupCode=supportservice