数据中心四大灾备技术解析

本文涉及的产品
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
简介:

灾备技术是指在一个数据中心发生故障或灾难的情况下,其他数据中心可以正常运行并对关键业务或全部业务实现接管,达到互为备份的效果,好的灾备技术可以实现用户的“故障无感知”。灾备是一项综合系统工程,涉及到备份、复制、镜像等多种不同技术,系统建设复杂程度高。因此,一般只有在大型企业和金融行业应用较多。我国在2007年时颁布了首个关于灾备的国家标准《信息系统灾难恢复规范》(GB/T 20988-2007),是我们在灾备建设时重要的参考性文件。现在的数据中心承载的业务越来越重要,引入有效的灾备技术,能减少数据中心发生故障时带来的损失。数据中心整体灾备技术可以分为四种:冷备、暖备、热备和双活。

数据中心四大灾备技术解析

冷备

冷备技术是中小型数据中心或者承载业务不重要的局点经常使用的灾备技术。冷备技术的用站点通常是空站点,一般用于紧急情况;或者仅仅是布线、通电后的设备。在整个数据中心故障时无法提供服务时,数据中心会临时找到空闲设备或者租用外界企业的数据中心临时恢复,当自己数据中心恢复时,再将业务切回。这种方式数据中心业务恢复的时间难以保证,有时临时搭建的平台也可能因为不稳定而再次出现中断。当然这种方式不必准备大量的空闲设备,维护成本可以忽略不计。冷备技术从启用到真正可以开始工作需要较高的成本和时间,通常需要几天甚至一周或者更长的时间。冷备技术算不上是一种真正意义上的灾备技术,因为冷备基本上就是数据中心从未考虑数据中心出现故障的情况,一旦出现故障,则是“姑娘上轿才扎耳朵眼”的做法,对于故障毫无预知和提前投入。当然冷备技术的缺点是显而易见的,其已经越来越无法适应数据中心高要求的发展,逐渐成为一种淘汰的技术方式。

暖备

暖备技术是在主备数据中心的基础上实现的,前提是拥有两个一主一备的数据中心。备用数据中心为暖备部署,应用业务由主用数据中心响应,当主用数据中心出现故障造成该业务不可用时,需要在规定的RTO(Recover Time Objective,即灾难发生后,信息系统从停顿到恢复正常的时间要求)时间以内,实现数据中心的整体切换。在具体实现上,主备数据中心的两套业务系统网络配置完全一样,备用数据中心路由平时不对外发布。当实现主备数据中心切换时,需要断开主用数据中心路由链路,并连接备用数据中心路由链路,保证同一时间只有一个数据中心在线。暖备技术还是手工方式,从知道主用数据中心故障到备用数据中心工作需要有人24小时值守才能完成,工作效果较低。

热备

相比暖备,热备最重要的特点是实现了整体自动切换,其它和暖备实现基本一致,实现热备的数据中心仅比暖备的数据中心要多部署一项软件,软件可以自动感知数据中心故障并且保证应用业务实现自动切换。业务由主用数据中心响应,当出现数据中心故障造成该业务不可用时,需要在规定的RTO时间内,自动将该业务切换至备用数据中心。在具体实现上,在主备数据中心均部署GTM(广域流量管理器),GTM之间同步信息,GTM各自探测本中心的应用业务,根据GTM的服务器状态判断应用业务的可用性。当GTM或数据中心链路出现DOWN时,将该业务自动切换至灾备数据中心。热备数据中心通过GTM技术实现自动主备数据中心切换。

双活

通过双活技术可以实现主备数据中心均对外提供服务,正常工作时两个数据中心的业务可根据权重做负载分担,没有主备之分,分别响应一部分用户,权重可以是按地域划分,或数据中心服务能力或对外带宽。当其中一个数据中心出现故障时,另一数据中心将承担所有业务。具体实现上,多活技术部署了很多种检测故障的方式,比如:ICMP Monitor、TCP Monitor、HTTP Monitor,FTP Monitor。还可以实时检测服务器的运行状态、服务器负载均衡的情况,即使在没有故障的时候也可以根据应用业务量在多活数据中心之间调整。多活的最大特点是不会造成数据中心的资源存在浪费,数据中心都承载应用业务运行。不至于出现像热备、暖备主用数据中心几乎满载运行,而备用数据中心却很空闲的情况。除了双活技术还有多活技术,多活就是业务在多个数据中心上同时运行,当有一个或多个数据中心故障时,其它数据中心将自动接管所有应用业务。显然多活比双活可靠性更高,但投入成本也会高,实现技术也更为复杂。现在在金融行业、互联网行业的数据中心都乐于采用多活技术,虽然投入大,但稳定性是这些数据中心优先考虑的事。

下面的表1列出了四种灾备技术的特点比对。

冷备

暖备

热备

双活/多活

RTO

恢复时间长,不可预知

恢复时间较短

恢复时间较短

恢复时间短

硬件成本

几乎可以忽略

一般

一般

一般

软件成本

几乎可以忽略

几乎可以忽略

较低

较高

实现复杂度

简单

简单

较易

复杂

运行稳定性

较低

较高

自动化

人工

人工

软件自动

软件自动

运维成本

较高

较高

表1:四种灾备技术特点比对表

无论采用哪种灾备技术,应该根据自身数据中心应用业务的重要性、建设经费、人员技能水平等综合考虑采用哪种灾备技术。不见得一定要采用双活/多活灾备技术,虽然这种技术可靠性最高,但实现复杂,进行扩容、业务变更等都需要大量专业的技术知识,所以除了建设成本高,后期投入的维护成本也很高,这将给数据中心带来沉重的运营包袱。应该深入研究这四种灾备技术,结合自身的实际情况,综合选择。灾备技术在数据中心中越来越重要,已经逐渐成为数据中心必备的重要技术之一。


作者:何妍 

来源:51CTO

相关文章
穿戴科技新风尚:智能服装设计与技术全解析
穿戴科技新风尚:智能服装设计与技术全解析
201 85
HarmonyOS Next~鸿蒙AI功能开发:Core Speech Kit与Core Vision Kit的技术解析与实践
本文深入解析鸿蒙操作系统(HarmonyOS)中的Core Speech Kit与Core Vision Kit,探讨其在AI功能开发中的核心能力与实践方法。Core Speech Kit聚焦语音交互,提供语音识别、合成等功能,支持多场景应用;Core Vision Kit专注视觉处理,涵盖人脸检测、OCR等技术。文章还分析了两者的协同应用及生态发展趋势,展望未来AI技术与鸿蒙系统结合带来的智能交互新阶段。
109 31
深入解析Tiktokenizer:大语言模型中核心分词技术的原理与架构
Tiktokenizer 是一款现代分词工具,旨在高效、智能地将文本转换为机器可处理的离散单元(token)。它不仅超越了传统的空格分割和正则表达式匹配方法,还结合了上下文感知能力,适应复杂语言结构。Tiktokenizer 的核心特性包括自适应 token 分割、高效编码能力和出色的可扩展性,使其适用于从聊天机器人到大规模文本分析等多种应用场景。通过模块化设计,Tiktokenizer 确保了代码的可重用性和维护性,并在分词精度、处理效率和灵活性方面表现出色。此外,它支持多语言处理、表情符号识别和领域特定文本处理,能够应对各种复杂的文本输入需求。
151 6
深入解析Tiktokenizer:大语言模型中核心分词技术的原理与架构
RTSP协议规范与SmartMediaKit播放器技术解析
RTSP协议是实时流媒体传输的重要规范,大牛直播SDK的rtsp播放器基于此构建,具备跨平台支持、超低延迟(100-300ms)、多实例播放、高效资源利用、音视频同步等优势。它广泛应用于安防监控、远程教学等领域,提供实时录像、快照等功能,优化网络传输与解码效率,并通过事件回调机制保障稳定性。作为高性能解决方案,它推动了实时流媒体技术的发展。
可穿戴设备如何重塑医疗健康:技术解析与应用实战
可穿戴设备如何重塑医疗健康:技术解析与应用实战
71 4
AI技术如何重塑客服系统?解析合力亿捷AI智能客服系统实践案例
本文探讨了人工智能技术在客服系统中的应用,涵盖技术架构、关键技术和优化策略。通过感知层、认知层、决策层和执行层的协同工作,结合自然语言处理、知识库构建和多模态交互技术,合力亿捷客服系统实现了智能化服务。文章还提出了用户体验优化、服务质量提升和系统性能改进的方法,并展望了未来发展方向,强调其在客户服务领域的核心价值与潜力。
105 6
静态IP代理与动态IP代理:提升速度与保障隐私的技术解析
本文探讨了静态IP代理和动态IP代理的特性和应用场景。静态IP代理通过高质量服务提供商、网络设置优化、定期更换IP与负载均衡及性能监控提升网络访问速度;动态IP代理则通过隐藏真实IP、增强安全性、绕过封锁和提供独立IP保障用户隐私。结合实际案例与代码示例,展示了两者在不同场景下的优势,帮助用户根据需求选择合适的代理服务以实现高效、安全的网络访问。
69 1
基于 Megatron 的多模态大模型训练加速技术解析
Pai-Megatron-Patch 是一款由阿里云人工智能平台PAI 研发的围绕英伟达 Megatron 的大模型训练配套工具,旨在帮助开发者快速上手大模型,打通大模型相关的高效分布式训练、有监督指令微调、下游任务评估等大模型开发链路。本文以 Qwen2-VL 为例,从易用性和训练性能优化两个方面介绍基于 Megatron 构建的 Pai-Megatron-Patch 多模态大模型训练的关键技术
从入门到精通:H5游戏源码开发技术全解析与未来趋势洞察
H5游戏凭借其跨平台、易传播和开发成本低的优势,近年来发展迅猛。接下来,让我们深入了解 H5 游戏源码开发的技术教程以及未来的发展趋势。

推荐镜像

更多