阿里云ECS跨地域整站容灾操作指南

本文涉及的产品
对象存储 OSS,20GB 3个月
阿里云盘企业版 CDE,企业版用户数5人 500GB空间
日志服务 SLS,月写入数据量 50GB 1个月
简介: 混合云容灾服务(HDR)可以让用户在阿里云上通过非常简单的操作实现ECS应用的异地容灾。HDR有秒级RPO,分钟级RTO,操作简单,演练方便,一键切换能等特性。本文描述了使用HDR实现阿里云上整站跨地域容灾的完整步骤。

一、 概述

混合云容灾服务(HDR)是阿里云提供的低成本高性能业务连续性保障的服务,可以为企业内部关键应用,互联网应用,乃至Hadoop大数据集群提供容灾服务。

其中的连续复制型(CDR)基于磁盘数据连续复制技术,可以为企业关键业务提供低至秒级RPO,分钟级RTO的容灾服务,极大缩短业务宕机时间,减少数据丢失损失。其一键演练,全链路监控,自动化运维等功能更是解决了传统容灾服务操作难,验证难,维护难的问题,极大提高了容灾系统的可用性,释放了容灾系统的价值。

CDR近期推出了针对阿里云上环境的跨地域和跨可用区容灾方案,可以为云上应用的业务连续性,等保合规要求等提供保障。本操作指南介绍的是一个典型的阿里云上应用跨地域整站异地容灾场景的操作方法。

二、 场景介绍

某客户已经在阿里云上杭州地域通过双AZ部署应用,做到了多可用区双活,因为业务连续指标以及合规要求,需要在异地做应用容灾。核心要求是

  1. 生产在杭州地域,要求容灾地域物理距离大,选择北京地域
  2. 5分钟以内RPO,15分钟以内RTO。
  3. 整站容灾,所有服务器在异地拉起后IP不变,避免应用配置过多修改,影响RTO
  4. 一键演练,运维人员需要每3个月在不影响生产环境的情况下,做一次操作演练

容灾架构概略图如下
f87aa527c8cd4ee25ef0062a8ff6b6ff5561c10a.jpeg

  1. 全站的ECS服务器通过HDR-CDR实现秒级RPO的容灾复制
  2. RDS数据库基于RDS跨地域复制实现数据库异地容灾
  3. 北京地域VPC网络配置保持与杭州地域一致 (仅多加一个vSwitch用于接收复制数据),北京地域容灾站点所有ECS仅运行复影最小规格复影ECS,只有在容灾演练和故障切换时按需拉起全规格ECS,接管业务
  4. 整体容灾演练,切换,回切操作都有HDR容灾控制台来操作

本文将介绍整个容灾操作的全流程,主要包括以下内容。整体环境做了较大简化(简化应用,未包含RDS),便于关注操作流程

  1. 环境准备
  2. 启动容灾复制
  3. 容灾演练
  4. 故障切换
  5. 故障恢复

三、 环境准备

生产站点(杭州地域)

  1. 我们创建VPC(官网服务VPC),以及网段为192.168.1.0/24的虚拟交换机(生产vSwitch)
    f39a14dccbb01927301224ef3ea4d3336eb0676c.jpeg
  2. 在它的虚拟交换机(生产vSwitch)下面部署了3台ECS。1台windows ECS-IISSvr,2台Centos 分别为:oraclesvr,midwaresvr。(ECS的数量,规格,数据盘,操作系统等配置等都可以按照实际情况自行决定,注意操作系统仅可选择支持列表中的类型。)
    8a58ba6efc4b860b5e251a737a1d3ef42951a5d1.jpeg


容灾站点 (北京地域)

为了实现跨地域整站容灾,需要在另一个地域创建一个一致的VPC,我们选择在北京地域。

  1. 创建好VPC,以及2个虚拟交换机,容灾切换虚拟机(容灾切换vSwitch)和容灾复制虚拟机(容灾复制VSwitch)
    注意,这里的容灾切换虚拟机(容灾切换vSwitch)需要与杭州地域的虚拟交换机(生产vSwitch)一样网段的虚拟交换机192.168.1.0。这个虚拟交换机用于在容灾演练和容灾切换时,用原始IP拉起ECS。容灾复制虚拟机(容灾复制VSwitch)用于在平时容灾复制是从源端接收数据,创建为192.168.2.0网段。

另外,因为做容灾复制和容灾切换时,都需要确保有ECS库存,我们建议在靠后的可用区,如G区等。
90dd7ffefcd766e5a9a03cb65fe693c2093f51ee.jpeg

四、 启动容灾复制

1. 登录混合云容灾控制台,创建容灾站点对

进入混合云容灾控制台,创建连续复制型容灾站点对,选择区域容灾到区域场景。在这里我们选取杭州的官网服务VPC作为主站,北京的容灾VPC作为从站(如下图)。
_
_sitepair

2.注册ECS

进入容灾站点对,点击受保护服务器页签,点击添加按钮,选择要保护的ECS。
reg_ECS_1
reg_ecs_2


添加ECS后,连续复制Agent就会被自动安装到指定的ECS中。CentOS服务器会变成以初始化的状态,而Windows服务器比较特殊,控制台会提示您请重启的信息,您手动重启后,Windows服务器会变成以初始化的状态。
reg_ecs3
reg_ecs4

3. 启动复制

注册完成后,点击启动复制,从更多-故障切换-启动复制入口进。
_

在启动复制设置页面,在恢复点策略这里选择打快照的频率,我们会对这些恢复点保留一个月的历史数据,便于快速恢复到历史时间点。在复制网络选择容灾复制VSwitch,在恢复网络选择容灾切换vSwitch。
_

启动复制后可以通过任务列表页签查看进度。复制分为两阶段,全量复制和实时复制两阶段,全量复制即初始整机全量复制,实时复制是指全量复制已经完成,所有实时IO正在被立即复制到容灾端。
_
_

当服务器处于实时复制中阶段,可以通过右侧的查看复制信息,RPO等。
点击复制信息,可以查看复制网络等信息。RPO则表示该时间段内的数据延迟。

4. 容灾演练

等服务器处于实时复制状态时,您就可以进行容灾演练。容灾演练是指在不影响容灾复制的情况下,验证应用是否可以在容灾站点拉起起并正常工作,是一个按预定计划进行的操作(可能几个月一次)的操作。初次容灾演练因需要在目标端打出初始快照,可能耗时较长。点击容灾演练即可开始演练。您可以更改实例名称,实例规格(CPU,内存),选择从站下不同虚拟机网络,3种IP设置(我们这里选择保留当前IP,对于整站容灾,保留原IP将使得某些配置大大简化),是否使用SSD,选择历史恢复点或当前时间点,是否绑定弹性公网IP,以及添加切换后执行脚本(比如用户的环境对RDS有依赖。做容灾时,RDS复制由RDS系统解决,那么在目标站需要修改配置时,可以用脚本自动解决)。
_

容灾演练成功,可以通过链接点击进去查看拉起的ECS配置,通过远程连接查看ECS内容。结束后,需要清空演练环境。
_

5. 故障切换

当生产端发生宕机故障,您就需要做故障切换操作,来将业务切换到容灾站点。
注意,点击故障切换后,容灾复制将停止。在非故障情况下,请使用容灾演练在验证容灾系统可用性
故障切换入口:更多-故障切换-故障切换。
_

故障切换的设置同容灾演练设置一样,不过因窗口大小的原因,切换后执行脚本这一项设置为现出。
_

故障切换完成,可以通过链接进入查看拉起的ECS配置以及内容,如果不是你需要的,可以通过切换恢复点,重新更改配置。切换恢复点入口:更多-故障切换-切换恢复点。
_

注意,故障切换也允许您切换恢复点,以便恢复到历史时间点
故障切换完成,通过链接确认是你需要的ECS,需要确认故障切换。入口:更多-故障切换-确认故障切换。

七、 反向复制与故障恢复

在故障切换后,容灾站点会承载生产业务。一般情况下,您需要在一定时间内,将业务切回生产站点。但此时容灾端已经产生了心的业务数据,您就需要将容灾站点的ECS反向复制回到生产站点

1、 ECS反向注册

在北京地域拉起的ECS需要反向注册,入口:更多-故障恢复-反向注册。
反向注册后,服务器的状态会变成已反向初始化。
_
_

2、启动反向复制

注册完成后点击启动反向复制(可以选择原机恢复恢复至初始ECS)。入口:更多-故障恢复-启动反向复制。启动反向复制设置,可以选择主站杭州地域的虚拟交换机作为复制网络和恢复网络。注意,这里的复制网络和恢复网络必须选用同一可用区。
同时还可以选择原机恢复,如下图所示。点击原机恢复,要注意,启动反向复制后,原机ECS内容会被清除,变成shadow vm。
_

反向复制也包括两阶段,全量复制,增量复制即反向实时复制中阶段。
_

3、故障恢复

当服务器处于实时复制中阶段,就可以进行故障恢复。故障恢复入口:更多-故障恢复-故障恢复。点击故障恢复后,可以更改实例名称,查看相关信息,添加恢复后执行脚本。
_

故障恢复完成,可以通过链接进入查看相关配置,内容等,到此一个循环结束。之后可以进行注销该服务器,或者注册故障恢复的ECS。注销入口:更多-服务器操作-注销 ,注册入口:更多-故障切换-注册。

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
1月前
|
弹性计算 网络安全
阿里云国际OpenAPI多接口快速管理ECS服务器教程
阿里云国际OpenAPI多接口快速管理ECS服务器教程
|
10天前
|
机器学习/深度学习 人工智能 弹性计算
什么是阿里云GPU云服务器?GPU服务器优势、使用和租赁费用整理
阿里云GPU云服务器提供强大的GPU算力,适用于深度学习、科学计算、图形可视化和视频处理等多种场景。作为亚太领先的云服务提供商,阿里云的GPU云服务器具备灵活的资源配置、高安全性和易用性,支持多种计费模式,帮助企业高效应对计算密集型任务。
|
12天前
|
存储 分布式计算 固态存储
阿里云2核16G、4核32G、8核64G配置云服务器租用收费标准与活动价格参考
2核16G、8核64G、4核32G配置的云服务器处理器与内存比为1:8,这种配比的云服务器一般适用于数据分析与挖掘,Hadoop、Spark集群和数据库,缓存等内存密集型场景,因此,多为企业级用户选择。目前2核16G配置按量收费最低收费标准为0.54元/小时,按月租用标准收费标准为260.44元/1个月。4核32G配置的阿里云服务器按量收费标准最低为1.08元/小时,按月租用标准收费标准为520.88元/1个月。8核64G配置的阿里云服务器按量收费标准最低为2.17元/小时,按月租用标准收费标准为1041.77元/1个月。本文介绍这些配置的最新租用收费标准与活动价格情况,以供参考。
|
10天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云GPU服务器全解析_GPU价格收费标准_GPU优势和使用说明
阿里云GPU云服务器提供强大的GPU算力,适用于深度学习、科学计算、图形可视化和视频处理等场景。作为亚太领先的云服务商,阿里云GPU云服务器具备高灵活性、易用性、容灾备份、安全性和成本效益,支持多种实例规格,满足不同业务需求。
|
18天前
|
弹性计算
阿里云2核16G服务器多少钱一年?亲测价格查询1个月和1小时收费标准
阿里云2核16G服务器提供多种ECS实例规格,内存型r8i实例1年6折优惠价为1901元,按月收费334.19元,按小时收费0.696221元。更多规格及详细报价请访问阿里云ECS页面。
55 9
|
14天前
|
监控 Ubuntu Linux
使用VSCode通过SSH远程登录阿里云Linux服务器异常崩溃
通过 VSCode 的 Remote - SSH 插件远程连接阿里云 Ubuntu 22 服务器时,会因高 CPU 使用率导致连接断开。经排查发现,VSCode 连接根目录 ".." 时会频繁调用"rg"(ripgrep)进行文件搜索,导致 CPU 负载过高。解决方法是将连接目录改为"root"(或其他具体的路径),避免不必要的文件检索,从而恢复正常连接。
|
18天前
|
弹性计算 异构计算
2024年阿里云GPU服务器多少钱1小时?亲测价格查询方法
2024年阿里云GPU服务器每小时收费因实例规格不同而异。可通过阿里云GPU服务器页面选择“按量付费”查看具体价格。例如,NVIDIA A100的gn7e实例为34.742元/小时,NVIDIA A10的gn7i实例为12.710156元/小时。更多详情请访问阿里云官网。
61 2
|
23天前
|
存储 弹性计算 NoSQL
"从入门到实践,全方位解析云服务器ECS的秘密——手把手教你轻松驾驭阿里云的强大计算力!"
【10月更文挑战第23天】云服务器ECS(Elastic Compute Service)是阿里云提供的基础云计算服务,允许用户在云端租用和管理虚拟服务器。ECS具有弹性伸缩、按需付费、简单易用等特点,适用于网站托管、数据库部署、大数据分析等多种场景。本文介绍ECS的基本概念、使用场景及快速上手指南。
67 3
|
29天前
|
存储 弹性计算 编解码
通过阿里云的活动租赁云服务器时如何选择实例规格?选择指南参考
新手用户通过阿里云的活动租赁云服务器的时候实例规格应该怎么选?目前在阿里云的活动中,可选的云服务器类型除了轻量应用服务器之外,云服务器的主要实例规格有经济型e、通用算力型u1和计算型c7与c8y、通用型g7与g8y、内存型r7与r8y等实例,但是对于新手来说,由于是初次购买,实例规格往往不知道怎么选择了。本文为大家展示阿里云目前活动中各云服务器实例规格性能、适用场景以及选择指南参考。
|
1月前
|
弹性计算 开发框架 .NET
阿里云服务器购买教程及云服务器地域、实例、操作系统、带宽等参数选择指南
对于初次购买阿里云服务器的用户来说,想使用阿里云服务器搭建网站或者运行APP、小程序等项目,第一步就是要先购买阿里云服务器,下面小编以图文形式给大家介绍一下阿里云服务器的购买流程,以及购买过程中如何云服务器地域、实例、带宽等关键配置和选择这些参数的一些注意事项,以供参考。
下一篇
无影云桌面