如何利用工具低成本构建阿里云灾备方案?

简介: 如何利用工具低成本构建阿里云灾备方案?

1.传统灾备中心建设成本高

灾备,可以在灾难发生时,为生产系统数据的安全和业务连续性提供保障。

通常金融、医疗等行业的大型企业,可以建设传统灾备中心来保障核心业务的安全,但是每年在灾备上的花费都是一笔不小的数目。

而大部分中小型企业也有灾备需求,例如一家电商公司,在病毒勒索、设备老化等不确定因素的威胁下,需要确保自己的订单系统可以24h运行。碍于传统灾备中心建设成本高的问题,很大一部分中小型企业无法建立自己的灾备中心,未能实现有效的灾备方案。

建设传统灾备中心的成本,涉及到以下几个方面:

1、iT基础设施费用

2、机房场地费用

3、运维人员费用

4、网络传输费用

截屏2022-05-23 18.07.45.png

显然,在云计算作为未来数字经济发展底座的今天,建设传统灾备中心对很多企业来说,并不是灾备方案的最优解了。

2.云容灾的成本优势

云容灾是以云计算的服务模式,为企业提供业务容灾的灾备方案,相比传统容灾具备了多方面的优势。

云容灾允许用户将传统的采购模式转化为按服务交付使用的方式,云数据中心的各种资源即开即用,能够快速部署,大幅缩短了灾备中心建设的进程,节约了建设传统灾备中心的时间和金钱成本。让云容灾成为一种普惠型的灾备服务,中小型企业也可以享受到灾备服务,让大型企业可以摆脱传统灾备的高成本负担。

3.用HyperBDR云容灾低成本构建阿里云灾备方案

为了满足中小型企业的灾备需求、节省大型企业的灾备成本,我们可以选择在国内的主流云商阿里云上构建灾备方案。

利用HyperBDR业务级云原生容灾工具,可以低成本构建阿里云灾备方案。

3.1HyperBDR云容灾的核心优势

目前,HyperBDR云容灾已完成20+朵云的自动化API对接。这就意味着,HyperBDR打通了异构平台的壁垒,实现了数据在云之间的流转。对于企业来说,可以根据自身情况,自由地选择容灾到哪个云平台,不再受iT资源架构差异的限制。

而HyperBDR采用的Boot in cloud技术,可以在发生灾难时一键拉起业务,保障核心业务连续性;并且无需在云端1:1预启动实例,只需要在恢复时启动ECS,减少了云资源的消耗,大幅度降低了成本。

3.2HyperBDR云容灾整体架构

万博智云HyperBDR容灾软件通过调用云平台自身提供的原生API接口,以及通过调度源端Agent、Agentless程序来捕获全量、差异数据,通过点到点加密网络传输至目标云侧「云存储网关」,本地没有数据留存,安全高效。

架构如下:

截屏2022-05-26 12.33.11.png

3.3容灾上阿里云具体实现

这里以10台VMware虚拟机,两套业务系统,容灾至阿里云为例。

基础条件:

(1)需要容灾的主机:10台。

(2)根据主机数量1:1购买license:10个。

(3)有阿里云资源,有阿里云平台的管理权限。

3.3.1 配置生产平台 (VMware)

第一步:点击菜单栏 生产平台设置,点击 VMware 选择框。

第二步:点击 +添加 按钮,安装源端hamal无代理组件的安装部署;

首次添加VMware需要安装hamal组件。

第三步:按照界面指引安装hamal。

图片1.png

第四步:弹框中填写相关信息

图片2.png

完成配置vCenter/ESXI 被成功加入到容灾生产平台中,重复以上步骤可以添加多个vCenter(按需)。

完成生产平台VMware配置,可进行添加容灾主机。

左侧菜单选择 资源容灾 -> 主机容灾 之后,右侧点击 +添加主机 ,点击 VMware 选项。

图片3.png

选择其中一个VMware源端连接,并点击 下一步 按钮。

在VCenter/ESXi的所有VMware主机列表中 勾选要容灾的主机,并点击 确定 按钮。

如果主机较多,可以右上角搜索,并执行批量勾选添加。

图片4.png

在容灾界面可以看到 待容灾的VMware主机清单,勾选要操作的主机,点击 下一步 按钮,进入 容灾配置 操作。

3.3.2配置容灾平台

(1)左侧菜单栏点击 容灾平台设置,在左侧点击选择阿里云选项。

(2)按步骤填写信息,创建<云同步网关>组件。

云同步网关是万博智云自主开发的云平台适配模块,此处主要作为同步数据过程中,接收生产平台的数据使用。

图片5.png

确认名称和状态可用后,等待“启动代理实例”完成后,点击 完成 按钮。

3.3.3同步数据

进入容灾工具 HyperBDR 界面。

容灾配置步骤一:指定容灾平台,选择容灾主机所在容灾平台的配置信息,并点击 下一步 按钮。

容灾平台信息为空,则表示暂未添加容灾平台,需要 配置容灾平台 ,再进行后续操作。

图片6.png

容灾配置步骤二:指定云同步网关,选择容灾主机并加入到云同步网关,并点击 下一步 按钮。

图片7.png

容灾配置步骤三:指定卷类型,选择容灾主机在目标容灾平台所使用的卷类型,如果有多个卷,可以按照系统卷和数据卷进行分别设置,设置完成后,并点击 下一步 按钮。

图片8.png

容灾配置步骤四:计算资源配置,选择容灾主机在目标容灾平台使用的规格、系统类型、是否重置密码及是否使用密钥对,设置完成后,并点击 下一步 按钮。

图片9.png

容灾配置步骤五:网络配置,选择容灾主机在目标容灾平台所使用的网络、子网以及启动时是否指定IP、配置公网IP和安全组,设置完成后,并点击 下一步 按钮。

图片10.png

容灾配置步骤六:启动配置,选择容灾主机在目标容灾平台所使用的启动设置,设置完成后,并点击 确定 按钮。

图片11.png

容灾配置步骤设置完成后,可以勾选容灾配置完成的单个或多个容灾主机,并点击 下一步 按钮。

在 开始容灾 步骤,可以勾选单个或多个容灾主机,并点击 立即同步 按钮直接进行数据同步,也可以将已经完成 容灾配置 的容灾主机加入到资源组,对 资源组容灾 进行同步数据操作。

图片12.png

确认需要同步的容灾机器,并点击 确定 按钮。

首次点击,将同步全量数据,后续点击将同步增量数据,这里也可以勾选全量数据同步,则表示本次数据同步会全量。

3.3.4容灾接管/演练

等待数据同步完成(同步快照完成),勾选需要容灾演练/容灾接管主机,并选择 容灾演练/容灾接管 按钮。

容灾演练/容灾接管功能保持一致,此功能则表示将容灾主机在容灾平台进行启动,启动后即可进行相关验证和接管工作。

图片13.png

选择容灾主机启动时数据同步时间点(快照),并点击 确定 按钮,开始主机实例启动。

大多数情况下,企业的使用场景是持续备份关键系统数据,而仅在灾难发生时,做云端业务拉起的动作,我们在实践过程中会发现,除了备份会需要消耗一定的云存储外,演练或容灾阶段的费用是极低的。不再需要1:1准备计算资源也能云商恢复,这让企业可以以备份的成本享受到容灾体验。

平时更多用到的是容灾演练。容灾演练通过假设灾难场景,进行应急演练,可以验证灾备方案是否合理,是否能够达到预期;同时演练环境也可以作为系统升级测试验证的环境,尤其是研发型企业,在系统升级、iT环境变化时,容灾演练环境其实就是一个临时测试环境。

4.总结

整个容灾流程走下来,给我最直观的感受是:简单、丝滑。所有容灾流程都在HyperBDR一个工具上操作,不需要频繁切换工具组合使用,包括可以在阿里云上直接创建实例这一点,也是我一开始没有预想到的方便。

对于大多数使用公有云并希望能够快速低成本的搭建容灾业务的,这个产品真的可以一试,我相信一些和我一样的行业内的服务商,对这样的工具也能快速上手,提供公有云容灾解决方案给到企业客户。

相关文章
|
6月前
|
机器学习/深度学习 运维 监控
构建高效可靠的云基础设施:自动化运维策略解析
【4月更文挑战第12天】 随着云计算的普及和企业信息化水平的不断提升,构建一个高效、稳定且可扩展的云基础设施已成为众多组织的技术挑战。本文将深入探讨自动化运维在云环境中的实践与应用,分析其对提升系统可靠性、效率及敏捷性的重要性,并提出一系列切实可行的自动化策略。我们将从持续集成与持续部署(CI/CD)、配置管理、监控告警和灾难恢复等方面展开讨论,并结合案例分析来揭示这些策略如何帮助组织实现云基础设施的优化管理。
120 6
|
20天前
|
人工智能 运维 监控
运维技术深度解析:构建高效、稳定的IT基础设施
【10月更文挑战第22天】运维技术深度解析:构建高效、稳定的IT基础设施
43 0
|
6月前
|
消息中间件 弹性计算 运维
带你读《云上自动化运维宝典》——提升云上资源稳定性的两大利器:事件驱动体系构建&自诊断工具(1)
带你读《云上自动化运维宝典》——提升云上资源稳定性的两大利器:事件驱动体系构建&自诊断工具(1)
149 1
|
3月前
|
存储 运维 安全
多云网络部署存在挑战,F5分布式云应用简化方案解读
多云网络部署存在挑战,F5分布式云应用简化方案解读
50 0
|
4月前
|
运维 资源调度 监控
云上故障排查:高效定位与解决云端挑战的实战指南
加强监控与告警:建立完善的监控体系,确保能够及时发现并处理潜在问题。 定期演练与培训:定期组织故障排查演练和技能培训,提高团队的应对能力和专业水平。 注重数据保护与隐私:在故障排查过程中,严格遵守数据保护和隐私保护的相关规定,确保用户数据的安全。 结语 云上故障排查是一项复杂而艰巨的任务,需要企业和IT团队具备高度的专业素养和应对能力。通过遵循基本原则、运用有效工具与方法、遵循实战步骤并采纳最佳实践,我们可以
375 0
|
6月前
|
存储 运维 监控
构建高效稳定的云基础设施:自动化运维策略与实践
【5月更文挑战第28天】 在当今快速演进的云计算环境中,自动化运维成为确保服务连续性和效率的关键。本文深入探讨了自动化运维的核心原则、工具选择以及实施策略,旨在为读者提供一个清晰的视角来理解和应对现代IT基础设施的挑战。通过分析案例研究和最佳实践,文章揭示了如何有效地整合自动化工具以优化资源管理、故障响应和系统升级过程。
|
6月前
|
运维 监控 安全
构建高效稳定的云基础设施:自动化运维策略与最佳实践
【5月更文挑战第22天】 随着云计算的日益普及,企业对云基础设施的依赖程度不断提高。有效的自动化运维策略成为确保系统稳定性、提升响应速度和降低人为错误的关键。本文将探讨一系列高效的自动化工具和流程,以及它们在云环境中的最佳实践,旨在为读者提供一套可行的方法论,用于构建和维护一个可靠且灵活的云基础设施。我们将重点讨论自动化部署、监控、故障恢复及安全性管理,并提出相应的建议和解决方案。
|
6月前
|
存储 监控 Kubernetes
构建高效稳定的云原生日志监控系统
【5月更文挑战第26天】 随着微服务架构和容器化技术的普及,传统的日志监控方法面临重大挑战。本文将探讨如何构建一个既高效又稳定的云原生日志监控系统,该系统旨在提供实时的日志分析能力,同时保证系统的高可用性和可扩展性。我们将讨论利用现代技术栈如Fluentd、Elasticsearch和Kibana(EFK栈)来搭建日志收集、存储和可视化的解决方案,并深入探讨如何通过容器编排工具如Kubernetes来实现日志服务的自动伸缩和故障恢复。此外,我们还将介绍一些最佳实践,帮助运维团队在保持系统性能的同时,降低资源消耗和运营成本。
|
6月前
|
运维 监控 持续交付
构建高效稳定的云基础设施:最佳实践与案例分析
【5月更文挑战第31天】本文旨在探讨如何通过采纳现代云基础设施的最佳实践,构建一个高效且稳定的运维环境。文章将详细讨论云计算资源管理、自动化工具的应用、持续集成/持续部署(CI/CD)流程的优化以及监控和日志分析的重要性。通过对具体案例的分析,我们展示了这些策略如何在实际环境中提升系统的可靠性和性能,同时减少潜在的风险和成本。
|
6月前
|
运维 Prometheus 监控
构建高效稳定的云原生监控系统
【5月更文挑战第27天】在云原生环境中,服务和应用的动态性、分布式特性以及复杂多变的网络条件对监控提出了更高的要求。本文将介绍一种构建高效稳定云原生监控系统的方法,包括选择合适的监控工具、设计灵活的监控架构、实现实时数据处理与智能告警等方面的内容。通过实践案例分析,展示了如何优化现有监控体系,提高系统的稳定性和可靠性,确保云原生应用的高性能运行。