现状调研的核心逻辑是梳理目标应用系统的依赖关系。这个阶段分为三个关键步骤:应用调研、云平台调研、基础设施调研。
图 3-2 应用容灾调研范围
3.2.1 应用调研
应用调研,主要目的是梳理清楚影响业务连续性的风险点。调研的方法主要是确认应用系统的上下游及其内部的依赖关系。
应用调研的重点关注事项如下:
梳理应用系统清单,重点关注已经上云或即将上云的应用系统清单。
调研应用系统分类及其容灾等级要求。如商业银行的 IT 系统,通常分为四大类:业务系统、管理信息系统、渠道系统、其他系统。每种类型对应的容灾等级要求通常是4 级或 5 级,部分系统要求是 6 级或接近 6 级。而医保行业的 IT 系统,通常分为四大类:公共服务、经办管理类、智能监控类、宏观决策类。综合来看,与民生关系越紧密的系统,容灾等级越高。
明确本期容灾项目试点或重点建设的应用系统,简称为目标容灾系统。考虑到资金、人力、时间的综合成本,采取分批次的建设思路符合大多数项目的现状。
分析目标应用系统的完整上下游依赖关系。分析场景从用户登录系统开始,到用户退出系统结束,在整个过程中,所必须经过的路径,并将路径映射到具体的应用系统、云产品和基础设施。
梳理应用系统之间进行业务数据交换的关系,区分实时业务和离线业务,以便制定合理的数据备份策略。
梳理应用系统之间的资源共用的情况,以便设计合理的资源拆分方案,控制故障扩散范围,并成为细粒度容灾切换演练的支撑依据。
梳理目标容灾系统的关键业务窗口,以便设计业务低峰期的演练方案。
作为最常见的典型场景,手机银行系统是银行机构最核心的系统之一,本文列举其容灾调研范围,如下:
图 3-3 手机银行系统容灾调研范围
3.2.2 云平台调研
云平台调研,主要目的是确认目标应用系统涉及的云产品清单及其容灾能力。云产品清单,包括了云产品名字和版本号信息。容灾能力,包括产品的容灾能力及限制条件。
云平台调研的重点关注项如下:
确认版本路标:版本信息,包括:销售的版本、部署的版本、未来的版本。根据这三者的信息,可以从粗粒度的角度,了解云平台支持的容灾架构,比如同城双活、异地主备、两地三中心、异地多活。该信息支撑容灾方案和演练方案的设计。
确认云产品的清单:当前部署版本中,包含的云产品清单。
确认云产品的容灾能力:识别每个产品在当前环境中,产品本身能否支持目标的容灾等级要求。该信息支撑云产品功能升级和应用改造适配的设计。
确认云产品的限制条件:云平台 / 云产品本身支持容灾,是否需要满足什么特定的条件。该信息支撑容灾演练场景的选型。
3.2.3 基础设施调研
基础设施调研,主要目的是确认目标应用系统涉及的网络流量路径。重点分析的角度可以从互联网流量和内网流量这两个角度开展。
基础设施调研的重点关注项如下:
梳理互联网流量路径:调查互联网终端和数据中心云平台之间的网络链路,包括:用户的终端类型、内容分发网络(CDN,content delivery network)、运营商的域名服务 DNS、数据中心的专线线路、接入层的网络隔离区(DMZ,demilitarized zone)、接入层的负载均衡 GSLB、接入层的安全设备、接入层的网关和代理、防火墙策略等。
梳理内网流量路径:调查云平台和其他核心系统的网络的网络链路,包括:云平台DNS、自建 DNS、防火墙策略、路由策略、数据中心间的专线网络、安全加密设备。