容灾方案设计的核心逻辑是确定达到容灾目标的实现路径。这阶段主要包括四个步骤,分别是:总体方案设计、云平台容灾部署、应用容灾设计、应用容灾部署。通过这四个步骤,完成对目标应用系统的不同场景的容灾能力设计,以及如何通过技术手段实现这个容灾能力。容灾方案设计阶段的关键步骤如下:
图 3-4 容灾方案设计的关键步骤
3.3.1 总体方案设计
总体方案设计,是基于项目需求和调研结果,设计出适合本项目的技术实现方案。该步骤将重点对目标应用系统进行分析,并为不同的业务场景提供合理的容灾实现方案。
对应用系统进行分类的重点关注点如下:
根据业务场景,划分对应应用系统的等级。例如银行的应用系统,通常会根据优先级由高到低,划分为 S、A、B、C、D 几个等级。例如医保的应用系统,可以划分为公共服务、经办管理类、智能监控类、宏观决策类。
选择优先在本次项目中,开展容灾能力建设的应用系统。
系统性梳理目标应用系统的核心功能和非核心功能。
确定核心功能和非核心功能,预期要达到的容灾等级,对应关注的指标是 RTO 和RPO。在技术和资源有限的情况下,区分核心功能和非核心功能的容灾等级,是非常必要的。
根据应用系统的等级划分和使用场景的分类,一种通用的容灾等级分类映射关系如下:
S 级和 A 级的应用系统,通常代表用户最核心的系统。除了本系统独立运行外,同时还是 B 级、C 级和 D 级应用系统所依赖的基础系统。依此类推,B 级的应用系统,也可能是 C 级和 D 级应用系统所依赖的基础系统。
S 级和 A 级的应用系统,对容灾等级要求最高,通常会规划同城和异地两种容灾方式。其他等级,则会根据经济成本和技术复杂度,选择性采纳同城的容灾方式。
图 3-5 应用等级及其容灾等级的映射关系
容灾架构的演进,涉及时间、财务和技术的成本,并非一蹴而就。选择什么样的架构演进路线,核心在于以合适的成本满足本期项目的建设目标,同时兼顾未来的扩展性。下图介绍了的两种常见的演进路线:
路线①:单中心 -> 同城双中心 -> 两地三中心 -> 异地多活
路线②:单中心 -> 异地双中心 -> 两地三中心 -> 异地多活
从统计学角度分析,单个中心故障的概率,大于城市遭遇灾害的概率。因此在许多项目中,综合考虑到时间、经济和技术的成本,通常会优先选择路线①,即首次开展容灾建设优先选择同城容灾的架构。
需要说明的是,“两地三中心”和“异地多活”,均为可选项,可根据用户的业务发展、灾难恢复需求、财务预算等综合因素评估后按需演进。
图 3-6 两种不同的容灾架构演进路线
3.3.2 云平台容灾部署
容灾建设的重要基础性工作之一是在灾备数据中心搭建完整的应用系统。在搭建应用系统前,需要先完成云平台的搭建。云平台搭建过程涉及到硬件和软件部分,通常是耗时较长的环节,需要在开始实施前,设计详细的实施方案。云平台容灾部署前的交付方案,如下:
图 3-7 云平台容灾部署的交付流程