容灾项目的交付成果,指目标应用系统的容灾能力。当发生数据中心级别的重大风险或 灾难时 ,快速完成容灾切换来保障业务连续性, 是检验容灾能力的终极手段。重大风险 和灾难, 是一种不确定性的概率事件。如何让容灾演练已经验证过的能力, 持久化生效, 是交付成果保鲜化的重要话题。变化就像一只看不见的手,容易被忽略,并影响着应用 系统的容灾能力。本文用“容灾能力保鲜度”来描述,从演练切换到灾难切换的过程, 保鲜度是如何随着时间逐步变化的。特别需要注意的事项包括:
复盘 & 改进完成的时候,是保鲜度最高的时候,要求对演练发现的问题进行修复后才能达到。
系统日常运行过程中,随着各种软硬件设备的变化,会造成保鲜度降低,而且容易被忽略。
图 5-4 容灾能力低保鲜曲线
容灾能力保鲜的关键是用计划性的容灾演练和日常运维规范来应对不确定的重大风险或 灾难。容灾能力保鲜的过程, 存在四种状态, 分别是:容灾演练、复盘 & 改进、变化、 巡检,四种状态循环演进。针对每种状态,在该项目中,开发、运维和管理部门,严格 执行如下标准动作。
1. 演练状态:指生产环境的容灾切换和回切的演练,要求如下:
检查业务的连续性,确保在计划的窗口期内恢复业务正常。
检查数据的完整性,对历史业务数据和增量业务数据进行校验,确保生产中心和灾备 中心的数据一致性。
检查方案的可行性,确保容灾切换演练的步骤清晰并易操作。
2. 复盘 & 改进状态:指每次演练结束后,对演练过程进行总结,要求如下:
收集业务部门的反馈,确认演练过程的业务影响范围和程度,处于可接受范围之内。
检查组织协同的效率,确认通告范围是否完整和响应机制是否健全。
检查演练结果是否符合预期,并开展回归验收。
分析演练中暴露的问题,找到对应的解决方案,并推进改进方案落地。
3. 变化状态:变化是持续存在的,发生变化后,需及时确认是否遵循容灾规范并完成适配,要求如下:
记录并检查硬件设备的变化情况,包括网络设备、安全设备、服务器、专用硬件等,对其高可用配置和容灾配置进行确认。
记录并检查应用系统的变化情况,包括新的应用系统、新的运行版本、新的云产品、新的渠道系统等,并对其高可用配置和容灾配置进行确认,对容灾规范满足度进行确认或改造。
定期检查硬件维保期和软件 Lincense 的有效期, 及时更新即将过保的硬件和软件License。
对关键人员的变化,及时安排好能力交接。
4. 巡检状态:指日常巡检和演练巡检,要求如下:
全面监控生产中心和灾备中心的工作状态,及时响应和处理告警信息。
定期进行容灾切换的深度巡检。
演练规划时,对应用系统、云平台和基础设施,进行全链路的分析。
演练开始前,多次执行深度巡检,及时清理潜在风险。
在完成医保系统的多次演练和运维交接后,项目达到验收条件,业务专家和技术专家从 现场支持转为远程支持,现场只保留了少数的运维同学。在运维过程中,业务系统的设计、 开发、部署、运维,始终按照容灾切换演练积累下来的方法论,保障了医保系统的容灾 能力处于“高保鲜”的状态。
在容灾系统建设完成后的正常运行期,该地区医保系统曾面临一次生产数据中心即将停 电的风险。在医保局决策和指导下,运维人员顺利将业务系统从生产中心切换到灾备中 心,成功避免了系统性风险,保障了医保系统的业务连续性。这充分证明了日常开发和 运维规范的执行到位,对于维持容灾能力的“高保鲜”的状态是非常重要的。该项目中 容灾能力的保鲜曲线如下图所示。
图 5-6 容灾能力高保鲜曲线