一次“实景”容灾演练 —— 以某新闻客户端为例

简介: 保障头部新闻客户端的业务连续性,阿里云帮助客户在真实场景下完成容灾演练

云计算和新闻APP,能有什么关系?
2021年,传媒行业某头部媒体的新闻客户端进行了全新改版并升级上线,以 “内容+技术”的融合驱动效率提升,加速其新媒体业务的数字化转型进程。

该客户端作为这一媒体在移动互联网端发布新闻的重要渠道,客户对发稿的时效性、直播的流畅性等方面有着极高的要求。具体到云平台侧,客户要求除了要保障云平台整体的稳定性外,还需要云平台能在极端情况下具备容灾逃逸能力,同时针对可用区级别的容灾提出了更高的RTO和RPO要求。

客户的命题看起来似乎很简单:“一个机房挂了,另一个机房要能用,这样不会影响到稿件的正常及时发布,保证新闻的时效性”。

这个命题对于阿里云团队来说,意味着要基于同城双AZ容灾架构,保证平台的可用性,进而提升客户业务的连续性。

更有挑战性的是,对于这个命题的解答,客户要求不能仅仅提留在“理论”层面,还需要阿里云接受“实实在在的实景考验”,即在预期时间范围内,在设定的故障场景下,我们要验证:当第一个AZ 故障后,云平台具备切换至第二个AZ的能力,证明阿里云的云平台具备在AZ之间30分钟内完成切换的能力,同时在修复主机房的故障之后完成回切。

看似简单,实则不然
从拿到命题,到交卷,这用了近五个月时间,其中规划期就用了近2个月。同城双AZ架构本身并不算是很复杂的架构形式,但这道题的难点在于客户业务作为新闻客户端的特殊性。新闻具有突发性和时效性,业务难以被预测,所以每一次给到阿里云进行变更的窗口期都很珍贵,且不能失败,这对于技术和评估就提出了很高要求。

其次,客户对于这次容灾演练也是既谨慎又大胆,愿意创新突破,但同时也因为担心影响到真实的业务而非常忐忑。虽然该传媒客户没有金融级客户对于数据的强一致性要求,但是因为容灾演练要基于真正的生产环境,对于可用性的要求极高,云产品的所有组件在演练完成后都要尽快回到切换前的终态。此外,容灾演练需要联动云平台和上层应用,不仅涉及云平台,还要考虑到云外的网络和公共云等因素,要求对业务的影响时段和影响面可控。

最终,阿里云TAM团队现场调研、摸底,并结合产研团队的技术评审,针对平台业务、产品、所有组件进行了多轮摸底调研,制定了数百个CHK项,对客户应用负载、调用链路、应用配置、部署形态等多方面进行了全面的诊断和治理。全程阿里云团队通过了20多次灰度切换验证,熬过6个通宵,涉及十几个演练场景,对原有产品、演练方案进行了30个改进项的完善和落地,还做了一个模拟客户业务访问的模型demo监控,来确保演练在最终实施时的可行性。

一次充满“反差感”的演练
就这样,来到了真实演练的那一天,整个过程并没有想象中的惊心动魄,反而是平稳顺利。在主机房注入故障后的10分钟内,整个云平台就完成了应急切换;历时7个小时,顺利完成带生产业务的机房级容灾演练,整个过程对业务影响不超过1小时,并进行了全场景、全流程的业务测试,通过率100%。演练过程中,阿里云进行了多次预案执行的有效性和应急处置,拟定好的组织、角色按演练SOP有效执行,确保了整个演练流程的规范和有序。

在孤岛演练之后的三天内,阿里云和该客户进行了无业务影响的长尾问题修复,使平台恢复到演练前状态。这次演练不仅验证了云平台、业务的容灾能力,还帮助客户完善了网络容灾能力的建设,进一步增强了客户对于云平台灾备能力的信心。

容灾,何以成为阿里云的竞争力?
阿里云飞天企业版同城容灾解决方案,让云平台的容灾能力全面覆盖网络产品、云计算产品、数据库产品、存储产品、中间件产品等核心云产品,采用网络互备、数据主备模式构建了整个云平台同城双AZ容灾能力。

除了覆盖产品广,阿里云飞天企业版还配备全栈式灾备管理平台,针对不同机房级故障提供一键式容灾切换能力(如下图);一旦发生灾难(如主机房掉电/网络孤岛故障/单产品故障等),可通过灾备管理平台进行一键式切换,提高云平台抵御自然灾害、设备故障、系统故障等突发事件的能力,提升云平台及云上客户业务连续性。

相较于传统的容灾方案,阿里云专有云同城容灾架构提供了一致性的容灾切换体验,对客户业务透明,使用户能更加聚焦于业务开发,降低应用开发难度,提供更加便捷的体验。

灾备图片.png

(阿里云飞天企业版灾备管理平台界面)

在此基础上,TAM团队针对客户业务的使用场景,结合项目现场运维和各类容灾架构平台的演练实施经验,不仅安全高效地完成方案实施落地,更在实施过程中不断发现方案与现场环境的缺陷并予以纠正迭代,使得解决方案更加完善;贴合客户平台真实环境,真正做到了最贴近真实故障、最小化业务影响、最快速应急恢复的技术目标。

通过产品技术能力和现场运维能力的双剑合璧,阿里云飞天企业版同城灾备方案得以无缝平滑落地,顺利完成本次容灾演练。

风雨后再回首,是更广阔的天空
回看这次容灾演练,带着真实业务做测试,就好像在飞机飞行中换引擎。阿里云TAM运维团队与产研团队携手,不仅建成了阿里云在传媒行业首个同城双AZ容灾云平台,更基于双方的紧密配合和对于平台的精细化管理,熟悉现场环境和故障应急处理的全流程,完成了平台上的不中断业务演练任务,让客户真正看到并相信了阿里云同城双AZ的容灾能力。

这说明了阿里云飞天企业版的容灾能力,并没有停留在文档或是方案里。这个能力是可被演练、可被验证的。而这份底气,是我们前进的意义,也是客户信任的根基。

相关文章
|
存储 城市大脑 运维
中国信通院&沙利文最新报告:阿里云混合云全面领先
中国信息通信研究院与国际权威分析机构沙利文(Frost & Sullivan)联合发布《2023 混合云价值影响力矩阵》,报告显示,阿里云是唯一一家全域领导者,在技术表现域、战略布局域以及市场表现域三个维度均排名领先于97%的企业。
852 1
|
弹性计算 运维 网络协议
揭秘云网络大会“网红”:阿里云自研高性能网关XGW
XGW是洛神云网络平台的硬件转发层核心,提供了高性能的网络转发能力,负责公网,专线和跨Region流量的汇聚和分发,满足用户大带宽、大单流、稳定性、低延时/低抖动等需求。
7357 0
揭秘云网络大会“网红”:阿里云自研高性能网关XGW
|
存储 监控 NoSQL
快速认识OTS
## 什么是OTS   OTS 是Open Table Service的简称,现在已更名为表格存储Table Store,官网对它的解释为:OTS是构建在阿里云飞天分布式系统之上的 NoSQL 数据库服务,提供海量结构化数据的存储和实时访问。OTS 以实例和表的形式组织数据,通过数据分片和负载均衡技术,达到规模的无缝扩展。OTS 向应用程序屏蔽底层硬件平台的故障和错误,能自动从各类错误中快速
46613 2
|
5月前
|
存储 人工智能 监控
一键部署 Dify + MCP Server,高效开发 AI 智能体应用
本文将着重介绍如何通过 SAE 快速搭建 Dify AI 研发平台,依托 Serverless 架构提供全托管、免运维的解决方案,高效开发 AI 智能体应用。
5785 65
|
安全 自动驾驶 算法
飞天企业版入选数字中国建设峰会十大硬核科技
第七届数字中国建设峰会在福州举办,峰会是我国信息化发展政策发布平台和数字中国建设最新成果展示平台。本届峰会组委会特邀相关领域专家,经过三轮严格遴选,从180家单位选送的594个成果中最终评选出“十大硬核科技”“十佳解决方案”两大奖项。其中“十大硬核科技”奖项重点遴选技术领先、创新性强,能够推动“卡脖子”核心技术、关键基础技术创新应用的产品或项目。飞天企业版“新一代多芯多算力”政企云平台荣获“十大硬核科技”奖,在10个获奖产品中位列第一。
311 1
|
专有云
一张图看懂专有云灾备
政企为什么要做专有云灾备?灾备的目标是什么?如何基于业务需求,选择合适的灾备方案?
1015 0
一张图看懂专有云灾备
|
弹性计算 固态存储 大数据
阿里云服务器租用费用:一年、1个月和1小时价格表(2024真优惠)
2024年最新阿里云服务器租用费用优惠价格表,轻量2核2G3M带宽轻量服务器一年82元,折合6.8元1个月,新老用户同享99元一年服务器,2核4G5M服务器ECS优惠价199元一年,2核4G4M轻量服务器298元一年,2核4G服务器30元3个月,4核16G10M服务器70元1个月、210元3个月,8核32G服务器160元1个月、480元3个月,阿小云整理阿里云服务器租用费用价格表,包括一年优惠价格、一个月和1小时收费明细表
6991 0
|
云计算
一张图看懂如何自运营一朵行业云
随着云计算走向成熟化和规模化,许多企业开始探索如何自运营一朵行业云。什么是可自运营的行业云?如何运营好一朵行业云?阿里云分享基于飞天企业版进行行业云运营的实践经验。
614 0
|
存储 容灾 Cloud Native
什么是更适合政企的云|从传统 IT 容灾转向全栈云容灾
在云计算时代,面对黑天鹅事件,IT 人员如何利用容灾方案来保证业务连续性?云平台的容灾和传统 IT 容灾究竟有哪些不同?哪些因素影响着政企云平台的容灾设计?阿里云又有怎样的解决方案?这篇文章,将一一给出答案。
10554 0
什么是更适合政企的云|从传统 IT 容灾转向全栈云容灾
|
存储 运维 监控
阿里云斩获中国电子学会科技进步一等奖
中国电子学会正式公布“2023中国电子学会科学技术奖”名单,清华大学、阿里云、南开大学、北京必示科技完成的“大规模在线服务智能运维核心技术及产业化”获得科技进步一等奖。
760 1

热门文章

最新文章