一、灾备演练的现状
业务系统容灾到其他灾备中心后,怎么才能知道容灾系统的RPO、RTO是否达标?由于硬件设施迭代,业务系统也必须跟着升级,怎么才能确保系统升级后高可用?为了验证这些问题,企业会定期进行个性化的灾备演练。
灾备演练是通过模拟一套与真实灾备系统类似的模拟环境,进行灾备业务的恢复、接管等操作,以此来检验灾备系统的有效性。所以,灾难场景不同、灾备业务复杂度不同,那么演练的技术过程与周期也不相同。
常见的容灾演练方式有以下三种方式:
1、桌面演练
最基础的容灾演练方式。桌面演练也叫“沙盘推演”,通过对初始灾难恢复预案的一个理论验证,进而测试应急响应预案和灾难恢复体系的完整性和有效性,使相关人员了解应急响应及业务恢复流程,全面验证技术及业务管理指挥、流程操作、协调配合等方面的综合能力。
2、模拟演练
模拟演练的过程高度接近真实灾难发生时的处理过程。演练以桌面演练结果为基础,由IT部门协调其他相关业务部门参加模拟演练,采用模拟数据和模拟业务系统进行演练。通过演练可以检验容灾系统的可用性、灾难恢复预案的可行性以及增加参演人员对灾难处理过程的感知度与配合的默契度。
3、实战演练
实战演练是容灾演练的最高的阶段。其场景最为真实,更易于发现潜在问题并进一步优化容灾系统,但随之而来的就是演练成本的提高。因此,在实战演练中,也会存在很多挑战,这时,关键是使其理解并支持演练能够周期性地进行,同时发现问题及时改进才是成功的演练,应避免流于形式的表演。
无论是哪种方式的灾备演练,都要考虑到技术人员调度、容灾资源消耗、业务停机时间等问题。可以看出,等级越高的灾备演练方式,成本也越高,效果和成本似乎是不可兼得。实际未必,随着云计算的普及,相对于传统的物理环境,云容灾的成本优势更为明显,云容灾演练的成本也随着下降。
二、云容灾降低容灾整体成本
现在,在云计算市场逐步扩大的背景下,云上容灾成为新的选择。
传统运维业务系统复杂,需要大量的专业运维人员。而云上资源的可编排性以及自助化的容灾使用体验,降低了对人员技术能力要求,直接降低了灾备演练的复杂度。
云容灾不仅降低了初期的成本投入,而且在容灾过程中,合理的使用云原生特性,能够大幅度降低用于容灾的云资源成本。在日常容灾过程中,用户只需要为存储资源买单,在演练时则按量付费,大幅度降低了演练消耗的资源成本。
但是,在云容灾演练时,是否还是需要在云侧和源端一样1:1配备云计算资源,如果是,那显然这还不是最经济的手段。
三、用HyperBDR云容灾提高容灾演练效率,优化演练成本
推荐用万博智云的HyperBDR云容灾工具,低成本任意次数实现灾备演练。
HyperBDR提高了容灾演练的效率和容错率。通过创建少量云存储网关来进行数据同步,再生成任意数量时间点快照实现全量、增量备份;容灾演练时,即使恢复主机失败,也不需要全量数据重新恢复,只需要根据验证情况完善系统信息,再选择恢复增量数据即可。
为了降低云资源消耗,以便降低容灾接管和演练的成本,HyperBDR在容灾思路上有一个革新。使用HyperBDR云容灾工具构建灾备方案,平时只需要为数据备份消耗的云硬盘付费,不需要在云端1:1预启动实例,只有在恢复业务时才需要启动ECS。因此,每一次灾备演练,都可以节省下可观的成本。
3.1HyperBDR云容灾的核心优势
目前,HyperBDR云容灾已完成20+朵云的自动化API对接。这就意味着,HyperBDR打通了异构平台的壁垒,实现了数据在云之间的流转。对于企业来说,可以根据自身情况,自由地选择容灾到哪个云平台,不再受IT资源架构差异的限制。
而HyperBDR采用的Boot in cloud技术,可以在发生灾难时一键拉起业务,保障核心业务连续性;并且无需在云端1:1预启动实例,只需要在恢复时启动ECS,减少了云资源的消耗,大幅度降低了成本。
3.2HyperBDR云容灾整体架构
万博智云HyperBDR容灾软件通过调用云平台自身提供的原生API接口,以及通过调度源端Agent、或Agentless无代理方式(视不同源端环境)来捕获全量、差异数据,通过点到点加密网络传输至目标云侧「云存储网关」,本地没有数据留存,安全高效。
3.3阿里云上灾备演练具体实现
这里以10台VMware虚拟机,两套业务系统,容灾至阿里云为例。
基础条件:
(1)需要容灾的主机:10台。
(2)根据主机数量1:1购买license:10个。
(3)有阿里云资源,有阿里云平台的管理权限。
3.3.1 配置生产平台 (VMware)
第一步:点击菜单栏 生产平台设置,点击 VMware 选择框。
第二步:点击 +添加 按钮,安装源端hamal无代理组件的安装部署;
首次添加VMware需要安装hamal组件。
第三步:按照界面指引安装hamal。
第四步:弹框中填写相关信息
完成配置vCenter/ESXI 被成功加入到容灾生产平台中,重复以上步骤可以添加多个vCenter(按需)。
完成生产平台VMware配置,可进行添加容灾主机。
左侧菜单选择 资源容灾 -> 主机容灾 之后,右侧点击 +添加主机 ,点击 VMware 选项。
选择其中一个VMware源端连接,并点击 下一步 按钮。
在VCenter/ESXi的所有VMware主机列表中 勾选要容灾的主机,并点击 确定 按钮
如果主机较多,可以右上角搜索,并执行批量勾选添加。
在容灾界面可以看到 待容灾的VMware主机清单,勾选要操作的主机,点击 下一步 按钮,进入 容灾配置 操作。
3.3.2配置容灾平台
(1)左侧菜单栏点击 容灾平台设置,在左侧点击选择阿里云选项。
(2)按步骤填写信息,创建<云同步网关>组件。
云同步网关是万博智云自主开发的云平台适配模块,此处主要作为同步数据过程中,接收生产平台的数据使用。
确认名称和状态可用后,等待“启动代理实例”完成后,点击 完成 按钮。
3.3.3同步数据
进入容灾工具 HyperBDR 界面。
容灾配置步骤一:指定容灾平台,选择容灾主机所在容灾平台的配置信息,并点击 下一步 按钮。
容灾平台信息为空,则表示暂未添加容灾平台,需要 配置容灾平台 ,再进行后续操作。
容灾配置步骤二:指定云同步网关,选择容灾主机并加入到云同步网关,并点击 下一步 按钮。
容灾配置步骤三:指定卷类型,选择容灾主机在目标容灾平台所使用的卷类型,如果有多个卷,可以按照系统卷和数据卷进行分别设置,设置完成后,并点击 下一步 按钮。
容灾配置步骤四:计算资源配置,选择容灾主机在目标容灾平台使用的规格、系统类型、是否重置密码及是否使用密钥对,设置完成后,并点击 下一步 按钮。
容灾配置步骤五:网络配置,选择容灾主机在目标容灾平台所使用的网络、子网以及启动时是否指定IP、配置公网IP和安全组,设置完成后,并点击 下一步 按钮。
容灾配置步骤六:启动配置,选择容灾主机在目标容灾平台所使用的启动设置,设置完成后,并点击 确定 按钮。
容灾配置步骤设置完成后,可以勾选容灾配置完成的单个或多个容灾主机,并点击 下一步 按钮。
在 开始容灾 步骤,可以勾选单个或多个容灾主机,并点击 立即同步 按钮直接进行数据同步,也可以将已经完成 容灾配置 的容灾主机加入到资源组,对 资源组容灾 进行同步数据操作。
确认需要同步的容灾机器,并点击 确定 按钮。
首次点击,将同步全量数据,后续点击将同步增量数据,这里也可以勾选全量数据同步,则表示本次数据同步会全量。
3.3.4容灾接管/演练
等待数据同步完成(同步快照完成),勾选需要容灾演练/容灾接管主机,并选择 容灾演练/容灾接管 按钮。
容灾演练/容灾接管功能保持一致,此功能则表示将容灾主机在容灾平台进行启动,启动后即可进行相关验证和接管工作。
选择容灾主机启动时数据同步时间点(快照),并点击 确定 按钮,开始主机实例启动。
大多数情况下,企业的使用场景是持续备份关键系统数据,而仅在灾难发生时,做云端业务拉起的动作,我们在实践过程中会发现,除了备份会需要消耗一定的云存储外,演练或容灾阶段的费用是极低的。不再需要1:1准备计算资源也能云上恢复,这让企业可以以备份的成本享受到容灾体验。
平时企业更多用到的是容灾演练。容灾演练通过假设灾难场景,进行应急演练,可以验证灾备方案是否合理,是否能够达到预期;同时演练环境也可以作为系统升级测试验证的环境,尤其是研发型企业,在系统升级、iT环境变化时,容灾演练环境其实就是一个临时测试环境。
四、总结
云容灾天然的云原生优势,按需采购,弹性扩容,让容灾行业有了新的可能性。HyperBDR云容灾工具,在常见的云容灾工具基础上,进一步提高效率降低成本。让以前无法负担容灾成本,却有容灾需求的中小企业,可以实现真正的低成本容灾。
HyperBDR高度自动化的设计,减少了演练所需技术人员,统一界面配置,普通工程师可以快速掌握;可以在源端业务不停机的情况下,实现任意次数容灾演练。实现真正的低成本高效容灾演练。