在满足业务连续性需求的基础上,灾备数据中心的建设能够给用户带来更好的使用体验,为信息系统带来高可靠的系统环境,为数据安全带来更加有效的保障措施。对于网络工程师来说,更加复杂的网络架构无疑也会带来更多设计和管理维护方面的挑战。但更优的多数据中心网络架构带来的将是更好的业务连续性保障、更好的系统可靠性保障和更高的数据安全性防护能力。
1、数据中心之间的互联需求
对于数据中心网络架构,除了数据中心内部架构设计,还有多数据中心间的网络架构设计。数据中心间的网络设计直接关系到数据层、应用层、业务层之间的逻辑调用关系,所以在考虑网络架构之初,须考虑双数据中心甚至多数据之间的网络架构。针对多数据中心之间的互联,常见需求如下。
- 业务连续性需求
网络高可用、低延时,网络通道包括互联网入口、专线通道、跨中心通道,可灵活切换,切换须平滑,上层应用无感知。
- 容灾备份需求
多机房实现网络大二层或IP三层路由可达,实现跨机房业务调用及数据互备;部署独立密集型光波复用设备DWDM(Dense Wavelength Division Multiplexing,以下简称波分通道),实现数据库数据实时同步。
- 服务器集群需求
跨数据中心的集群部署,实现IP网络及SAN互通;灾备数据中心服务器部署可通过存储级VM镜像复制,实现与主中心基础设施环境一致。
- 存储需求
存储SAN网络可达,实现底层存储跨机房复制、恢复,存储使用的IP网络及SAN网络须高可用、高带宽、低延时。
- 运维管理需求
全网IP路由可达,可实现远程管理及自动化、可视化管理,运维管理网络需要与业务网络逻辑隔离。
- 安全性需求
跨数据中心的互联架构须保持数据中心的整体安全体系不变,安全域的划分不被破坏。
2、多数据中心网络流量原则
多数据中心势必涉及跨中心业务流量,如果不制定多数据中心网络流量原则,在多数据中心运营一段时间之后,业务调用将会是一张“蜘蛛网”,对于后期的维护将是一场噩梦。所以在进行多数据中心网络规划时,我们必须制定业务流量原则。以应用双活为例,具体应制定以下原则。
- 流量入口
基于GSLB的流量百分比或运营商Local DNS对外部流量进行分流,在用户不切换网络环境的情况下会路由到同一个机房;根据业务场景设置适合的会话保持时间;故障情况下可以将全部流量切换到其他数据中心。
- 跨中心流量
跨中心线路分为前置跨中心线路、核心跨中心线路、外联跨中心线路和数据库跨中心线路。前置DMZ区跨中心流量,用于全局流量管理设备集群同步,以及在故障情况下的数据中心流量切换;核心交换区跨中心流量,只用于冷备应用、中间件访问;外联区跨中心流量,正常情况下均通过本数据中心外联前置访问外联单位,针对外联单位只有单条专线的情况,通过外联前置转发到主中心外联区访问外联单位;数据库区跨中心流量,仅用于多数据中心数据库同步。
- 内部业务流量
一般情况下,双活应用系统间的调用在单数据中心内部完成,仅某些单中心部署的应用系统存在跨中心调用的情况。
- 中间件业务流量
注册中心在多数据中心单独部署,应用系统访问本中心注册中心即可,不会产生注册中心跨中心流量,避免网络质量导致的中间件超时问题。
消息队列可以参照注册中心单独部署或者考虑消费信息的同步部署跨数据中心消息队列大集群的方式。大集群方式下涉及应用系统访问跨机房消息队列Broker,所以此方式对跨中心网络质量要求较高。
应用访问本中心数据库,避免跨中心访问。
- 数据库流量
主备模式下只有主中心数据库可进行读写操作,其他数据中心数据库处于只读、不可用状态,所有应用系统均访问主中心数据库。多活模式下应用系统访问本机房数据库,不涉及跨中心应用访问数据库流量。跨中心数据库流量还有数据库数据复制流量,如MySQL Replication、Oracle Data Guard等。
3、网络策略优化
在确定网络基础架构及多数据中心网络流量原则后,接下来要重点关注网络环境的优化环节,特别是安全互访及网络性能优化。
- 网络隔离
根据信息科技风险监管指引,生产环境与开发测试环境应有效隔离,那么最有效的隔离手段就是物理隔离,避免线路直接连接,确保任何情况下都不会出现生产、测试网络互访及测试数据上生产的情况;不同环境之间全部单独部署,独立互联网出口;构建准生产环境,使其尽可能成为与生产环境结构完全相同的环境。
- 动态DNS解析
公网DNS解析通过双机房DNS设备判断本机房运营商网关及对端机房GSLB设备公网IP地址健康检查状态,判断是否进行域名DNS切换。
内网环境动态DNS在解析冷备应用、中间件、数据库域名时,可结合适当的探测脚本检查故障情况,根据特有的健康检查规则和条件,动态切换域名解析地址。
- 虚拟防火墙
配合类似于VMware NSX软件定义网络技术,对单台虚拟机配置精准的虚拟防火墙,确保即使同一网段内主机也不能随意互访。
- 流量回溯、监控网络
作为IT基础架构的骨架,需要实时了解它的状态,并能回溯之前的数据流、数据包情况。通常,要做到完整的流量回溯、监控,需要对网络设备做端口镜像以获取完整数据流。通过对完整数据流的分析获取现网路由走向,掌握带宽占用率,统计异常访问及业务超时数据流回溯定位超时原因。
- 网络层自动化运维
实现网络层的自动化维护,包括物理网络设备的加电自动配置,虚拟网络设备的自动配置、部署、管理、测试等,可以减少网络工程师的重复工作,并降低人为操作失误导致的网络故障的发生概率。更进一步,在实现网络智能化后,通过声明式配置,网络工程师只需要显式声明从哪里到哪里、配置什么业务,而无须单独登录中间每一台网络设备进行配置。