《云上大型赛事保障白皮书》——第三章 压测调优与技术演练——3.2 云上大型赛事技术演练——3.2.2 容灾演练及冬奥实践(上)

简介: 《云上大型赛事保障白皮书》——第三章 压测调优与技术演练——3.2 云上大型赛事技术演练——3.2.2 容灾演练及冬奥实践(上)

3.2.2 容灾演练及冬奥实践


容灾是一个系统化、体系化工程,通常会覆盖分析、规划、设计、实施及管理5大部分。这里只讨论实施阶段中的容灾演练部分。容灾建设是否成功、是否达到设计目标,需要多种手段进行衡量,而通过演练来验证容灾建设方案是最直接最有效的手段。全面、有序、高效的容灾演练可以提升信息系统服务在突发中断后应急响应和灾难恢复的效率,以最大限度减少业务中断时间并降低风险,对提升赛时信息系统整体可用性非常重要。

在容灾领域,有两个最重要的概念,即所谓RTP和RPO。

所谓 RTO,Recovery Time Objective,它是指灾难发生后,从 系统宕机导致业务停顿之时开始,到IT系统恢复至可以支持各部门运作、恢复运营之时,此两点之间的时间段称为 RTO。

所谓 RPO,Recovery Point Objective,是指从系统和应用数据而言,要实现能够恢复至可以支持各部门业务运作,系统及生产数据应恢复到怎样的更新程度。这种更新程度可以是上一周的备份数据,也可以是上一次交易的实时数据。

在系统设计时就需要明确RTO和RPO,通常来讲,我们的目标是追求更短的RTO和RPO。当然,这和成本有关:设计两地三中心类型的容灾系统,可以保证RTO为0,但成本要double或者trible;设计极高的数据备份频率,可以保证RPO非常小,但成本也会比较高。成本、RTO、RPO总是一个不可能三角的模型。

1684916333151.png


容灾演练规划大体可分成三个环节:

规划演练方案:规划好要验证系统的哪些功能、设计演练的具体场景、落实操作具体流程为演练脚本。

实施演练过程:按照顺序逐步实施演练脚本,并观察业务运转是否符合预期,观察系统稳定性指标。

解决演练问题:针对演练过程中出现的问题进行定位并逐一解决。

在北京冬奥,我们一共做了两次系统容灾演练(DDR,Discovery Disaster Rehearsal)。

考虑到云数据中心承载着公共服务,无法模拟真实的灾难场景,且与赛时保障密切相关的信息系统均采用了双活架构,因而演练主要从云产品实例层面进行触发,通过手工切换的方式,来考察上层应用的容灾能力,识别潜在风险。整个容灾演练涉及SLB、ECS、RDS、Redis和OSS的灾难切换和恢复操作,涵盖了应用、存储和数据层面的灾难模拟和恢复。两次容灾演练共计15个关键信息系统参与。项目团队针对各产品的特性,制定了详细的演练计划和执行脚本,在云基础设施和应用层面均识别出了不同类型的问题和风险,为赛时重保打下了坚实的基础。

下面介绍下第二次容灾演练DDR2,在DDR2,我们针对8个核心信息系统(交通、火炬手、餐饮、数据、抵离、Info1AV,健康监测,收费卡)进行演练,涉及SLB/ECS/RDS/Redis/OSS等核心云资源在政务云AC可用区之间切换,覆盖资源数量占整体资源的15%以上。在此期间,我们和各系统的开发商密切配合,按照演练脚本逐一测试了核心功能。



《云上大型赛事保障白皮书》——第三章 压测调优与技术演练——3.2 云上大型赛事技术演练——3.2.2 容灾演练及冬奥实践(下): https://developer.aliyun.com/article/1226501?groupCode=supportservice


相关文章
|
11月前
|
数据采集 监控 机器人
浅谈网页端IM技术及相关测试方法实践(包括WebSocket性能测试)
最开始转转的客服系统体系如IM、工单以及机器人等都是使用第三方的产品。但第三方产品对于转转的业务,以及客服的效率等都产生了诸多限制,所以我们决定自研替换第三方系统。下面主要分享一下网页端IM技术及相关测试方法,我们先从了解IM系统和WebSocket开始。
266 4
|
SQL 搜索推荐 测试技术
【Havenask实践篇】完整的性能测试
Havenask是阿里巴巴智能引擎事业部自研的开源高性能搜索引擎,深度支持了包括淘宝、天猫、菜鸟、高德、饿了么在内几乎整个阿里的搜索业务。性能测试的目的在于评估搜索引擎在各种负载和条件下的响应速度、稳定性。通过模拟不同的用户行为和查询模式,我们可以揭示潜在的瓶颈、优化索引策略、调整系统配置,并确保Havenask在用户数量激增或数据量剧增时仍能保持稳定运行。本文举例对Havenask进行召回性能测试的一个简单场景,在搭建好Havenask服务并写入数据后,使用wrk对Havenask进行压测,查看QPS和查询耗时等性能指标。
66251 6
|
JavaScript 前端开发 算法
性能测试与调优
性能测试与调优
160 0
|
负载均衡 测试技术 应用服务中间件
性能测试常见瓶颈分析及调优方法总结
性能测试常见瓶颈分析及调优方法总结
656 0
|
2月前
|
测试技术 UED 开发者
性能测试报告-用于项目的性能验证、性能调优、发现性能缺陷等应用场景
性能测试报告用于评估系统性能、稳定性和安全性,涵盖测试环境、方法、指标分析及缺陷优化建议,是保障软件质量与用户体验的关键文档。
|
7月前
|
监控 测试技术 数据库连接
利用 RunnerGo 深度探索 API 性能测试:从理论到实践
API性能测试是保障应用稳定性和用户体验的关键环节。本文详细探讨了如何使用RunnerGo全栈测试平台进行高效API性能测试,涵盖测试计划创建、场景设计、参数配置到执行与分析全过程。通过电商平台促销活动案例,展示了高并发下的测试策略与优化措施,如代码与数据库查询优化、数据库连接池扩容、服务器资源配置调整及缓存策略实施等。最终显著提升系统性能,满足高并发需求。API性能测试需持续关注与优化,以适应业务发展和用户需求变化。
261 33
|
消息中间件 Java 测试技术
性能工具之Jmeter扩展函数及压测ActiveMQ实践
【5月更文挑战第18天】性能工具之Jmeter扩展函数及压测ActiveMQ实践
293 5
|
缓存 Java 测试技术
谷粒商城笔记+踩坑(11)——性能压测和调优,JMeter压力测试+jvisualvm监控性能+资源动静分离+修改堆内存
使用JMeter对项目各个接口进行压力测试,并对前端进行动静分离优化,优化三级分类查询接口的性能
571 10
谷粒商城笔记+踩坑(11)——性能压测和调优,JMeter压力测试+jvisualvm监控性能+资源动静分离+修改堆内存
|
监控 Java 测试技术
实战派必看!Python性能测试中,JMeter与Locust如何助力性能调优
【8月更文挑战第6天】性能优化是软件开发的关键。本文介绍JMeter与Locust两款流行性能测试工具,演示如何用于Python应用的性能调优。JMeter可模拟大量用户并发访问,支持多种协议;Locust用Python编写,易于定制用户行为并模拟高并发。根据场景选择合适工具,确保应用在高负载下的稳定运行。
323 4
|
存储 监控 安全
深聊性能测试,从入门到放弃之:如何对IO进行性能调优
深聊性能测试,从入门到放弃之:如何对IO进行性能调优
468 0