《云上容灾交付服务白皮书》——2.容灾技术架构——21容灾技术架构简介(上) https://developer.aliyun.com/article/1229948?groupCode=supportservice
两地三中心容灾架构简介
两地三中心架构,是业界比较通用的叫法,是同城容灾架构 + 异地容灾架构的组合。通常同城的两个数据中心采取同步 / 异步的数据同步方式,同城和异地之间采取异步的数据同步方式。该架构既可以应对城市内单中心的灾难,又可以应对城市级的灾难。
该架构的主要特点包括:
三个中心属于两朵云架构,同城的两个中心属于一朵云,异地的一个中心属于另外一朵云。默认两朵云之间的网络隔离,资源隔离,涉及跨云访问的网络,按需开通网络权限。
同城两个中心应提供信息系统的完整功能,异地一个中心应至少提供信息系统的关键功能。
可通过域名服务 DNS 提供业务流量的管理
从网络层看,同城的两个数据中心可采取流量双活模式,同城和异地之间则采用流量主备模式。
图 2-3 两地三中心的架构图
不难看出,容灾系统建立在数据灾备的基础之上,常用的实现方式是在灾备中心构建一套相同(似)的数据处理系统。灾难发生后,应在约定的时间范围 (RTO) 内恢复业务系统的运行,尽可能减少灾难带来的损失。在实际实施时,存在以下几个问题:
灾备中心平时不提供服务,在切换到灾备中心前,无法确定是否可以成功恢复业务系统的运行。
灾备中心平时不提供服务,灾备资源会处于闲置状态,资源闲置率较高。
平时提供服务的生产中心在单地域,当业务体量的规模接近生产中心资源上限时,无法解决单地域资源瓶颈的问题。
针对上述这些问题,阿里云结合阿里巴巴集团最佳实践,形成了“异地多活”的技术架构。
异地多活架构简介
“异地多活”,又称“应用多活”,是以应用为中心的云原生容灾架构。多活是容灾技术的一种高级形态,指在同城或异地数据中心,建设一套与本地生产系统部分或全部对应的生产系统,所有数据中心内的信息系统同时对外提供服务。当灾难发生后,多活管理系统可以在分钟级内实现业务流量切换,用户可能都不会感受到灾难发生和容灾切换的过程。阿里云的“同城多活”和“异地多活”,都是典型的应用多活的实现技术。该架构定位是一套支持跨地域、跨平台的通用多活方案,该架构的主要特点包括:
业务流量多活(BFA,business flow active):应用多活的视角是业务,多活容灾系统具备按业务特征进行生产流量的精细化调配。
同城多活(LRA,local region active):应用是分布式系统的最小服务集合,当主中心出现问题进入容灾态时,要具备全局或局部应用的多活切换能力。
异地多活(UDA,ultra distance active):在超远距离(建议数据中心距离
≥ 100km)时,业务系统仍具备较好的访问性能。进入容灾态时,RTO 和 RPO 在分钟级。
图 2-4 应用多活架构设计标准
混合云多活(HCA,hybrid cloud active):向上对业务屏蔽容灾细节,提供统一的多活编程范式;向下对云平台技术保持兼容,支持公共云、私有云、托管私有云、边缘计算节点等不同部署模式的多活场景。
结合上述架构特点,一个典型的异地多活架构图如下:
图 2-5 应用多活的架构图