阿里云ECS跨地域整站容灾操作指南

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
日志服务 SLS,月写入数据量 50GB 1个月
简介: 混合云容灾服务(HDR)可以让用户在阿里云上通过非常简单的操作实现ECS应用的异地容灾。HDR有秒级RPO,分钟级RTO,操作简单,演练方便,一键切换能等特性。本文描述了使用HDR实现阿里云上整站跨地域容灾的完整步骤。

一、 概述

混合云容灾服务(HDR)是阿里云提供的低成本高性能业务连续性保障的服务,可以为企业内部关键应用,互联网应用,乃至Hadoop大数据集群提供容灾服务。

其中的连续复制型(CDR)基于磁盘数据连续复制技术,可以为企业关键业务提供低至秒级RPO,分钟级RTO的容灾服务,极大缩短业务宕机时间,减少数据丢失损失。其一键演练,全链路监控,自动化运维等功能更是解决了传统容灾服务操作难,验证难,维护难的问题,极大提高了容灾系统的可用性,释放了容灾系统的价值。

CDR近期推出了针对阿里云上环境的跨地域和跨可用区容灾方案,可以为云上应用的业务连续性,等保合规要求等提供保障。本操作指南介绍的是一个典型的阿里云上应用跨地域整站异地容灾场景的操作方法。

二、 场景介绍

某客户已经在阿里云上杭州地域通过双AZ部署应用,做到了多可用区双活,因为业务连续指标以及合规要求,需要在异地做应用容灾。核心要求是

  1. 生产在杭州地域,要求容灾地域物理距离大,选择北京地域
  2. 5分钟以内RPO,15分钟以内RTO。
  3. 整站容灾,所有服务器在异地拉起后IP不变,避免应用配置过多修改,影响RTO
  4. 一键演练,运维人员需要每3个月在不影响生产环境的情况下,做一次操作演练

容灾架构概略图如下
f87aa527c8cd4ee25ef0062a8ff6b6ff5561c10a.jpeg

  1. 全站的ECS服务器通过HDR-CDR实现秒级RPO的容灾复制
  2. RDS数据库基于RDS跨地域复制实现数据库异地容灾
  3. 北京地域VPC网络配置保持与杭州地域一致 (仅多加一个vSwitch用于接收复制数据),北京地域容灾站点所有ECS仅运行复影最小规格复影ECS,只有在容灾演练和故障切换时按需拉起全规格ECS,接管业务
  4. 整体容灾演练,切换,回切操作都有HDR容灾控制台来操作

本文将介绍整个容灾操作的全流程,主要包括以下内容。整体环境做了较大简化(简化应用,未包含RDS),便于关注操作流程

  1. 环境准备
  2. 启动容灾复制
  3. 容灾演练
  4. 故障切换
  5. 故障恢复

三、 环境准备

生产站点(杭州地域)

  1. 我们创建VPC(官网服务VPC),以及网段为192.168.1.0/24的虚拟交换机(生产vSwitch)
    f39a14dccbb01927301224ef3ea4d3336eb0676c.jpeg
  2. 在它的虚拟交换机(生产vSwitch)下面部署了3台ECS。1台windows ECS-IISSvr,2台Centos 分别为:oraclesvr,midwaresvr。(ECS的数量,规格,数据盘,操作系统等配置等都可以按照实际情况自行决定,注意操作系统仅可选择支持列表中的类型。)
    8a58ba6efc4b860b5e251a737a1d3ef42951a5d1.jpeg


容灾站点 (北京地域)

为了实现跨地域整站容灾,需要在另一个地域创建一个一致的VPC,我们选择在北京地域。

  1. 创建好VPC,以及2个虚拟交换机,容灾切换虚拟机(容灾切换vSwitch)和容灾复制虚拟机(容灾复制VSwitch)
    注意,这里的容灾切换虚拟机(容灾切换vSwitch)需要与杭州地域的虚拟交换机(生产vSwitch)一样网段的虚拟交换机192.168.1.0。这个虚拟交换机用于在容灾演练和容灾切换时,用原始IP拉起ECS。容灾复制虚拟机(容灾复制VSwitch)用于在平时容灾复制是从源端接收数据,创建为192.168.2.0网段。

另外,因为做容灾复制和容灾切换时,都需要确保有ECS库存,我们建议在靠后的可用区,如G区等。
90dd7ffefcd766e5a9a03cb65fe693c2093f51ee.jpeg

四、 启动容灾复制

1. 登录混合云容灾控制台,创建容灾站点对

进入混合云容灾控制台,创建连续复制型容灾站点对,选择区域容灾到区域场景。在这里我们选取杭州的官网服务VPC作为主站,北京的容灾VPC作为从站(如下图)。
_
_sitepair

2.注册ECS

进入容灾站点对,点击受保护服务器页签,点击添加按钮,选择要保护的ECS。
reg_ECS_1
reg_ecs_2


添加ECS后,连续复制Agent就会被自动安装到指定的ECS中。CentOS服务器会变成以初始化的状态,而Windows服务器比较特殊,控制台会提示您请重启的信息,您手动重启后,Windows服务器会变成以初始化的状态。
reg_ecs3
reg_ecs4

3. 启动复制

注册完成后,点击启动复制,从更多-故障切换-启动复制入口进。
_

在启动复制设置页面,在恢复点策略这里选择打快照的频率,我们会对这些恢复点保留一个月的历史数据,便于快速恢复到历史时间点。在复制网络选择容灾复制VSwitch,在恢复网络选择容灾切换vSwitch。
_

启动复制后可以通过任务列表页签查看进度。复制分为两阶段,全量复制和实时复制两阶段,全量复制即初始整机全量复制,实时复制是指全量复制已经完成,所有实时IO正在被立即复制到容灾端。
_
_

当服务器处于实时复制中阶段,可以通过右侧的查看复制信息,RPO等。
点击复制信息,可以查看复制网络等信息。RPO则表示该时间段内的数据延迟。

4. 容灾演练

等服务器处于实时复制状态时,您就可以进行容灾演练。容灾演练是指在不影响容灾复制的情况下,验证应用是否可以在容灾站点拉起起并正常工作,是一个按预定计划进行的操作(可能几个月一次)的操作。初次容灾演练因需要在目标端打出初始快照,可能耗时较长。点击容灾演练即可开始演练。您可以更改实例名称,实例规格(CPU,内存),选择从站下不同虚拟机网络,3种IP设置(我们这里选择保留当前IP,对于整站容灾,保留原IP将使得某些配置大大简化),是否使用SSD,选择历史恢复点或当前时间点,是否绑定弹性公网IP,以及添加切换后执行脚本(比如用户的环境对RDS有依赖。做容灾时,RDS复制由RDS系统解决,那么在目标站需要修改配置时,可以用脚本自动解决)。
_

容灾演练成功,可以通过链接点击进去查看拉起的ECS配置,通过远程连接查看ECS内容。结束后,需要清空演练环境。
_

5. 故障切换

当生产端发生宕机故障,您就需要做故障切换操作,来将业务切换到容灾站点。
注意,点击故障切换后,容灾复制将停止。在非故障情况下,请使用容灾演练在验证容灾系统可用性
故障切换入口:更多-故障切换-故障切换。
_

故障切换的设置同容灾演练设置一样,不过因窗口大小的原因,切换后执行脚本这一项设置为现出。
_

故障切换完成,可以通过链接进入查看拉起的ECS配置以及内容,如果不是你需要的,可以通过切换恢复点,重新更改配置。切换恢复点入口:更多-故障切换-切换恢复点。
_

注意,故障切换也允许您切换恢复点,以便恢复到历史时间点
故障切换完成,通过链接确认是你需要的ECS,需要确认故障切换。入口:更多-故障切换-确认故障切换。

七、 反向复制与故障恢复

在故障切换后,容灾站点会承载生产业务。一般情况下,您需要在一定时间内,将业务切回生产站点。但此时容灾端已经产生了心的业务数据,您就需要将容灾站点的ECS反向复制回到生产站点

1、 ECS反向注册

在北京地域拉起的ECS需要反向注册,入口:更多-故障恢复-反向注册。
反向注册后,服务器的状态会变成已反向初始化。
_
_

2、启动反向复制

注册完成后点击启动反向复制(可以选择原机恢复恢复至初始ECS)。入口:更多-故障恢复-启动反向复制。启动反向复制设置,可以选择主站杭州地域的虚拟交换机作为复制网络和恢复网络。注意,这里的复制网络和恢复网络必须选用同一可用区。
同时还可以选择原机恢复,如下图所示。点击原机恢复,要注意,启动反向复制后,原机ECS内容会被清除,变成shadow vm。
_

反向复制也包括两阶段,全量复制,增量复制即反向实时复制中阶段。
_

3、故障恢复

当服务器处于实时复制中阶段,就可以进行故障恢复。故障恢复入口:更多-故障恢复-故障恢复。点击故障恢复后,可以更改实例名称,查看相关信息,添加恢复后执行脚本。
_

故障恢复完成,可以通过链接进入查看相关配置,内容等,到此一个循环结束。之后可以进行注销该服务器,或者注册故障恢复的ECS。注销入口:更多-服务器操作-注销 ,注册入口:更多-故障切换-注册。

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
倾随
+关注
目录
打赏
0
0
0
2
2969
分享
相关文章
阿里云轻量应用服务器68元与云服务器99元和199元区别及选择参考
目前阿里云有三款特惠云服务器,第一款轻量云服务器2核2G68元一年,第二款经济型云服务器2核2G3M带宽99元1年,第三款通用算力型2核4G5M带宽199元一年。有的新手用户并不是很清楚他们之间的区别,因此不知道如何选择。本文来介绍一下它们之间的区别以及选择参考。
130 84
阿里云GPU云服务器怎么样?产品优势、应用场景介绍与最新活动价格参考
阿里云GPU云服务器怎么样?阿里云GPU结合了GPU计算力与CPU计算力,主要应用于于深度学习、科学计算、图形可视化、视频处理多种应用场景,本文为您详细介绍阿里云GPU云服务器产品优势、应用场景以及最新活动价格。
阿里云GPU云服务器怎么样?产品优势、应用场景介绍与最新活动价格参考
阿里云弹性裸金属服务器是什么?产品规格及适用场景介绍
阿里云服务器ECS包括众多产品,其中弹性裸金属服务器(ECS Bare Metal Server)是一种可弹性伸缩的高性能计算服务,计算性能与传统物理机无差别,具有安全物理隔离的特点。分钟级的交付周期将提供给您实时的业务响应能力,助力您的核心业务飞速成长。本文为大家详细介绍弹性裸金属服务器的特点、优势以及与云服务器的对比等内容。
利用阿里云GPU加速服务器实现pdf转换为markdown格式
随着AI模型的发展,GPU需求日益增长,尤其是个人学习和研究。直接购置硬件成本高且更新快,建议选择阿里云等提供的GPU加速型服务器。
利用阿里云GPU加速服务器实现pdf转换为markdown格式
浅聊阿里云倚天云服务器:c8y、g8y、r8y实例性能详解与活动价格参考
选择一款高性能、高性价比的云服务器对于企业而言至关重要,阿里云推出的倚天云服务器——c8y、g8y、r8y三款实例,它们基于ARM架构,采用阿里自研的倚天710处理器,并基于新一代CIPU架构,通过芯片快速路径加速手段,实现了计算、存储、网络性能的大幅提升。2025年,计算型c8y云服务器活动价格860.65元一年起,通用型g8y云服务器活动价格1187.40元一年起,内存型r8y云服务器活动价格1454.32元一年起。本文将为大家详细解析这三款实例的性能特点、应用场景以及最新的活动价格情况,帮助大家更好地了解阿里云倚天云服务器。
简单聊聊,阿里云2核2G3M带宽云服务器与轻量应用服务器区别及选择参考
2核2G3M带宽云服务器与轻量应用服务器是目前阿里云的活动中,入门级走量型云服务器,轻量云服务器2核2G3M带宽68元一年,经济型e实例云服务器2核2G3M带宽99元1年。同样的配置,对于有的新手用户来说,有必要了解一下他们之间的区别,以及各自的购买和续费相关政策,从而选择更适合自己需求的云服务器。本文为大家简单分析一下我们应该选择哪一款。
阿里云国际站:如何使用阿里云国际站服务器
阿里云国际站服务器是一种强大的云计算服务,可以帮助用户轻松搭建和管理自己的网站、应用程序和数据库。本文将介绍如何使用阿里云国际站服务器,包括注册账户、选择服务器配置、安装操作系统、配置网络和安全设置等方面。
阿里云国际站注册教程:阿里云服务器安全设置
阿里云国际站注册教程:阿里云服务器安全设置 在云计算领域,阿里云是一个备受推崇的品牌,因其强大的技术支持和优质的服务而受到众多用户的青睐。本文将为您介绍阿里云国际站的注册过程,并重点讲解如何进行阿里云服务器的安全设置。
阿里云磐久服务器稳定性实践之路
阿里云服务器质量智能管理体系聚焦自研服务器硬件层面的极致优化,应对高并发交付、短稳定性周期、早问题发现和快修复四大挑战。通过“三个重构”(质量标准、开发流程、交付模式)、“六个归一”(架构、硬件、软件、测试、部件、制造)策略,实现芯片、整机和云同步发布,确保快速稳定上量。此外,全场景测试体系与智能预警、分析、修复系统协同工作,保障服务器在萌芽阶段发现问题并及时解决,提升整体质量水平。未来,阿里云将继续深化大数据驱动的质量管理,推动服务器行业硬件质量的持续进步。
阿里云轻量应用服务器、经济型e、通用算力型u1实例怎么选?区别及选择参考
在阿里云目前的活动中,价格比较优惠的云服务器有轻量应用服务器2核2G3M带宽68元1年,经济型e实例2核2G3M带宽99元1年,通用算力型u1实例2核4G5M带宽199元1年,这几个云服务器是用户关注度最高的。有的新手用户由于是初次使用阿里云服务器,对于轻量应用服务器、经济型e、通用算力型u1实例的相关性能并不是很清楚,本文为大家做个简单的介绍和对比,以供参考。

云存储

+关注
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等