云上技术 | 混合云多活容灾

简介: 近年来随着中国科技水平进步和数字化程度加深,企业开展工作高度依赖业务信息的传递和管理,数据中心所承载的业务复杂度大幅提高,与之对应面临的风险和威胁也越来越大,一旦数据中心因为突发故障中断了服务,造成的关键业务数据(客户信息、知识资产等)丢失将会严重影响企业正常运营。

画板 10 副本@2x-100.jpg

业务容灾现今发展趋势

近年来随着中国科技水平进步和数字化程度加深,企业开展工作高度依赖业务信息的传递和管理,数据中心所承载的业务复杂度大幅提高,与之对应面临的风险和威胁也越来越大,一旦数据中心因为突发故障中断了服务,造成的关键业务数据(客户信息、知识资产等)丢失将会严重影响企业正常运营。比较典型的例子有2014年,美国空军国防企业记账管理系统由于人为误操作,删除了数据库中的重要文件,因无异地容灾系统,导致直接损失22亿美元。2010年玉树地震中,某档案馆13万卷数字档案被毁,因缺少异地容灾手段,导致数据无法恢复。据Gartner Group统计,三分之一的企业在业务中断后的 4 个月之内倒闭。
特别是金融证券、国家安全等领域,关系到国家经济建设、社会发展和国防的战略性核心信息资源,保障其数据安全可靠,避免计算机网络系统灾难导致的数据损失是非常必要的。

然而包含有大量电子设备的数据中心出现突发故障又是不可避免的,日常随时可能出现像硬件自然老化、人工操作不当、软件功能缺陷或黑客对系统蓄意攻击等,都会导致系统运行的非正常中断,影响系统中数据的正确性或破坏系统数据库,致使部分甚至全部数据丢失。更不必说遭遇影响面广泛的火灾、地震、洪水等灾难,将对数据中心产生毁灭性打击,业务恢复会难上加难。

传统业务容灾面临的问题

既然故障的出现是必然事件,有没有一个完善的灾备方案来保证业务运转,将企业损失降到最低呢?
传统灾备给出了“主备双数据中心”方案。主数据中心提供日常数据读写服务,灾难备份中心并不提供线上服务,但会实时同步主数据中心的数据。一旦主数据中心出现故障,通过人工的方式,手动的将主数据中心切换为灾难备份中心来继续提供服务。
随着企业接入使用,就会发现其明显的缺点:一方面因为故障后人工切换,需要24小时值守的运维人力,而人的反应速度有限仍会处理不及时。另一方面备数据中心不对外本身就是资源浪费,且备数据中心长时间不对外服务,关键时刻切换,是否可以保证仍然可用也要画一个问号。

此外,对业务量庞大的中大型企业来说,提供服务的主数据中心停留在单地域,备数据中心完全不服务这种模式,会遇到单地域资源瓶颈问题。

多活容灾解决方案的架构与特性

针对传统方案的种种问题,阿里云经由阿里巴巴电商业务环境逐步演进,在混合云场景可提供多活容灾架构解决方案(Multi-Site High Availability),阿里云混合云能够帮助业务系统快速实现异地双活。其主要原理是两个数据中心同时对外服务,运行相同的应用,具备同样的数据,出现故障时数据中心自动切换,用户无感知,实现持续的应用可用性和灾难备份能力。并且通过资源整合还可以使“双活”数据中心的服务能力翻倍,最大化利用IT资源。
阿里云混合云多活容灾架构解决方案由架构加管控组合而成,架构上将业务分为接入层、应用层、数据层三层,应用层又可以细分为微服务调用、消息等多个功能域,每一层都会有相应的多活组件,管控在各层组件的基础上具备全栈的多活管控能力,将业务恢复和故障恢复解耦,并基于灵活的规则调度、跨域跨云管控、数据保护等能力,保障故障场景下的业务快速恢复。

1.png

异地双活架构主要有如下4个核心特性:

1、自上而下的流量管理:应用层和接入层进行流量路由,错误流量纠错和阻断,流量在单元封闭,当故障发生时将爆炸半径控制在单元内
2、低门槛接入:提供无代码侵入的MSHA-Agent,自动识别流量路由标并进行流量染色,支持众多开源RPC、MQ框架
3、数据双向同步:数据增量异步实时双向复制(如服务、消息、数据库等),同时解决了环形复制问题
4、数据防脏写:错误流量禁写保护避免脏写,切流期间禁写、禁更新保护避免脏写

2.jpg

业务的典型应用场景

落地到具体应用可以按业务数据维度分成三种类型,分别为读多写少型业务、流水单据型业务、状态依赖型业务。其中读多写少型业务、流水单据型业务在混合云场景较为常用。
典型的读多写少型业务有资讯、导购类的服务,例如商品浏览、新闻资讯等。其数据特点是读多写少,用户关注的是导购页中的商品信息,通常不关注商品的上架过程,因此读链路是核心,而写链路是可以被接受短暂的不可用,这种业务特性非常适合采用异地多读架构。读链路异地多活而写链路保持单点(单地域写),建设成本低、改造内容少、投入产出比高。
而流水单据型业务较读多写少型业务是更复杂的读写业务,主要电商交易、账单流水类服务,例如订单下单、通话记录等。更适用于异地双活架构来进行建设。

目前,阿里混合云多活容灾解决方案已服务多家客户。中国联通总部智慧客服联合阿里云,打造了智能化、集约化的云化双活客服系统,实现联通客服从接入、外呼到智能IVR、知识中心等7大业务域的双活容灾。历次大规模双活容灾演练,业务系统秒级切换,为联通智慧客服提供了有力的容量及容灾保障。

结语

云平台承载的在线业务系统直接关系到国计民生,影响重大,一旦出现数据篡改丢失和系统长期无法访问,后果难以承受。阿里云混合云多活容灾持续为客户的核心业务保驾护航,为了切实确保数据安全做到万无一失。


多活容灾混合云解决方案演示


阿里云混合云为政企提供量身打造的混合云解决方案
从建好云、管好云、用好云三大维度提供客户视角的一体化云平台服务
更多混合云资讯,前往混合云官网

相关文章
|
12天前
|
存储 负载均衡 Kubernetes
混合云和多云策略:混合云架构设计详解
混合云和多云策略:混合云架构设计详解
44 1
|
4月前
|
存储 容灾 数据挖掘
云环境中的容灾指南
【7月更文挑战第4天】数据分析、业务分析、技术分析。
|
负载均衡 容灾 网络协议
《云上容灾交付服务白皮书》——2.容灾技术架构——21容灾技术架构简介(上)
《云上容灾交付服务白皮书》——2.容灾技术架构——21容灾技术架构简介(上)
563 0
|
容灾
《云上容灾交付服务白皮书》——2.容灾技术架构——2.2 容灾技术架构选型
《云上容灾交付服务白皮书》——2.容灾技术架构——2.2 容灾技术架构选型
211 0
|
边缘计算 容灾 Cloud Native
《云上容灾交付服务白皮书》——2.容灾技术架构——21容灾技术架构简介(下)
《云上容灾交付服务白皮书》——2.容灾技术架构——21容灾技术架构简介(下)
645 0
|
容灾
《云迁移与云容灾-基于混合云架构的迁移和灾备》电子版地址
云迁移与云容灾-基于混合云架构的迁移和灾备
166 0
《云迁移与云容灾-基于混合云架构的迁移和灾备》电子版地址
|
容灾
云上容灾交付服务白皮书
云上容灾交付服务白皮书
199 0
|
运维 容灾 网络协议
阿里云技术专家邓青琳:云上跨可用区容灾和异地多活最佳实践
结合实际业务发展趋势、业务系统的特征以及资源成本等方面综合评估,选出最适合的容灾方案
阿里云技术专家邓青琳:云上跨可用区容灾和异地多活最佳实践
|
6月前
|
容灾 NoSQL 关系型数据库
混合云应用双活容灾最佳实践
越来越多的企业在数字化转型和上云进程中选择混合云的形态(云+自建IDC或云+其他厂商云)来进行容灾建设,一方面不会过度依赖单一云厂商,另一方面还能充分利用已有的线下IDC资源。MSHA云原生多活容灾解决方案,支持混合云多活容灾产品能力。本文会通过一个业务Demo案例,介绍混合云容灾建设的难点,以及如何基于MSHA来快速搭建应用双活架构并具备分钟级业务恢复能力。
138 0
混合云应用双活容灾最佳实践
|
存储 运维 Cloud Native
混合云的多活架构指南
在之前的《如何正确选择多云架构?》一文中介绍了混合云(广义的多云)的诸多架构以及各自的优势,本篇会重点来介绍下混合云下的多活架构。
540 0
混合云的多活架构指南