3.5 演练实施
演练实施的核心逻辑是验证容灾效果,并找到改进方向。在这个过程中,需要重点关注的两个步骤:
1. 容灾演练:根据上一节的演练场景设计,将容灾演练分批次开展,便于有效地分散和控制容灾演练的风险。
2. 演练复盘:通过对演练完成的情况以及存在的问题进行评估,并找到改进方向,为下一次容灾演练做准备。
3.5.1 容灾演练
分批次容灾演练,是将演练的场景分批次进行,以控制每次演练的风险范围。容灾演练窗口的设计,主要的评估因素是影响业务的范围和时间。因此,对生产系统的任何容灾演练,必然是在业务流量最小的时间段内开展。
任何形式的容灾演练,本质上是对生产系统的一种变化,而变化是产生风险的基本因素。因此容灾演练的窗口,必须包含切换时间和应急时间。从变更三板斧的角度看,回滚是重要的应急措施。切换和回滚是一个相反的操作,因此应保证用于回滚的应急时间,大于等于切换时间。规划容灾演练窗口时间,常见的方式是:容灾演练窗口 (t)= 切换时间(t1)+ 应急时间 (t2),且 t2 ≥ t1。
下面分别举例子说明,常见业务场景的容灾演练窗口是如何设计的。
场景 1:7x24 小时的在线业务,用户对系统响应的实时性要求最高,且用户数量比较大,业务高峰期主要集中在非睡眠时间,如银行机构的手机银行系统。这类业务的特点包括:① 7x24 小时有业务访问流量;② 凌晨 2 点至 6 点,是业务访问流量最小的时间段。因此常见的演练窗口为凌晨 2 点至 6 点,其中 2 点至 4 点是容灾切换时间 (t1),4 点至6 点是应急时间 (t2)。
图 3-14 高度敏感业务的演练窗口
场景 2:7x24 小时的在线业务,用户实时性要求较高,且用户数量较大,业务高峰期主要集中在白天,如医保结算系统。业务特点包括:① 7x24 小时有业务;② 夜间 21点至上午 8 点,是业务流量最小的时间。因此常见的演练窗口为夜间 21 点至上午 8 点,其中 21 点至 0 点是容灾切换时间 (t1),0 点至 8 点是应急时间 (t2)。
图 3-15 一般敏感业务的演练窗口
场景 3:离线任务,每日定时运行的大数据加工任务,如许多行业的大数据分析系统。业务特点包括:①凌晨 23 点开始至上午 9 点期间,是大数据系统进行数据汇集和加工的时间;②其他时间只有少量的流量访问大数据系统。因此常见的演练窗口为夜间 19点至 23 点,其中 19 点至 21 点是容灾切换时间 (t1),21 点至 23 点是应急时间 (t2)。
图 3-16 大数据场景的演练窗口
《云上容灾交付服务白皮书》——3交付标准化参考框架——3.5 演练实施(下):
https://developer.aliyun.com/article/1229830?groupCode=supportservice