《云上大型赛事保障白皮书》——第三章 压测调优与技术演练——3.2 云上大型赛事技术演练——3.2.4 故障演练及冬奥实践

本文涉及的产品
性能测试 PTS,5000VUM额度
简介: 《云上大型赛事保障白皮书》——第三章 压测调优与技术演练——3.2 云上大型赛事技术演练——3.2.4 故障演练及冬奥实践

3.2.4 故障演练及冬奥实践


线上问题发生的概率很小,但我们不能等真实问题发生后来验证监控和应急能力,日常就应该完成验证。在故障演练中,我们模拟线上真实发生问题的场景,以检测我们的系统快恢能力和故障应急流程。对于任何一个大型赛事活动,故障演练都是必要的。

故障演练一般可以分为如下三个部分:

设计故障:这是最重要的部分,设计的故障要能贴合真实的场景,才能产生演练价值。通常情况下可以从实际发生过的历史故障库出发去设计。故障可以根据严重性划分为轻型、中型、重大等级别。典型的轻型故障举例:高可用SLB单可用区服务宕机、单台ECS宕机、CDN单节点异常等;典型的中型故障举例:单宿主机上批量ECS宕机、IDC机房单路掉电、特定产品控制台不可用、物理专线设备宕机等;典型的重大故障举例:IDC机房多路掉电机器全宕、可用区核心网络设备主备光缆全断、大规模DDoS攻击导致可用区级出口带宽打挂等。那么在设计故障时,也应区分不同的级别等级,以检查系统在不同级别下的恢复能力。

故障注入:我们不可能在生产环境下实际触发故障,那么就需要对应的手段真实模拟线上故障。为此可以有两种方法,其一是在安全生产环境直接触发故障,安全生产环境可以是99%的模拟流量和1%的线上流量,这样影响范围可控,而且可以根据需要调整线上流量比例,比如模拟重大故障时把线上流量关闭;其二是故障模拟系统,一般是和产品监控告警系统一同开发,可以注入并不存在的故障触发产品侧监控告警,以模拟真实场景。

故障处理与复盘:在注入故障后需要观察系统快恢自愈能力,以及演练故障处理流程,针对产品或者流程暴露的问题做针对性的复盘。产品问题一般性为不触发流量切换、流量切换延迟、主备切换不合预期、宕机未自动迁移拉起等。故障处理流程我们将在"保障阵型与流程管理"这个章节详细描述。在北京冬奥,我们一共做了若干次故障演练,得益于阿里云完善的故障管理体系,我们有可以直接注入模拟故障的故障模拟系统,和一整套故障处理流程规范。其中典型的几次如下:

1684915692482.png


通过故障演练,我们检查了系统快恢能力,及整套故障处理流程规范的应急动作熟练度,为赛时的快速故障处理打下了良好的基础。

相关实践学习
通过性能测试PTS对云服务器ECS进行规格选择与性能压测
本文为您介绍如何利用性能测试PTS对云服务器ECS进行规格选择与性能压测。
相关文章
|
1月前
|
SQL 搜索推荐 测试技术
【Havenask实践篇】完整的性能测试
Havenask是阿里巴巴智能引擎事业部自研的开源高性能搜索引擎,深度支持了包括淘宝、天猫、菜鸟、高德、饿了么在内几乎整个阿里的搜索业务。性能测试的目的在于评估搜索引擎在各种负载和条件下的响应速度、稳定性。通过模拟不同的用户行为和查询模式,我们可以揭示潜在的瓶颈、优化索引策略、调整系统配置,并确保Havenask在用户数量激增或数据量剧增时仍能保持稳定运行。本文举例对Havenask进行召回性能测试的一个简单场景,在搭建好Havenask服务并写入数据后,使用wrk对Havenask进行压测,查看QPS和查询耗时等性能指标。
65690 6
|
1月前
|
JavaScript 前端开发 算法
性能测试与调优
性能测试与调优
62 0
|
9月前
|
负载均衡 测试技术 应用服务中间件
性能测试常见瓶颈分析及调优方法总结
性能测试常见瓶颈分析及调优方法总结
285 0
|
1月前
|
消息中间件 Java 测试技术
性能工具之Jmeter扩展函数及压测ActiveMQ实践
【5月更文挑战第18天】性能工具之Jmeter扩展函数及压测ActiveMQ实践
55 5
|
1天前
|
存储 测试技术
【工作实践(多线程)】十个线程任务生成720w测试数据对系统进行性能测试
【工作实践(多线程)】十个线程任务生成720w测试数据对系统进行性能测试
9 0
【工作实践(多线程)】十个线程任务生成720w测试数据对系统进行性能测试
|
1月前
|
消息中间件 监控 测试技术
Flink实时计算大促压测实践
Flink实时计算大促压测实践
59 0
|
监控 测试技术 UED
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.2 全链路压测与容量评估(1)
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.2 全链路压测与容量评估(1)
226 0
|
域名解析 网络协议 数据可视化
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.2 全链路压测与容量评估(2)
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.2 全链路压测与容量评估(2)
165 0
|
SQL 监控 关系型数据库
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.2 全链路压测与容量评估(3)
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.2 全链路压测与容量评估(3)
154 0
|
存储 测试技术
《云上大型赛事保障白皮书》——第三章 压测调优与技术演练——3.1 云上大型赛事压测调优——3.1.1 压力测试基本概念
《云上大型赛事保障白皮书》——第三章 压测调优与技术演练——3.1 云上大型赛事压测调优——3.1.1 压力测试基本概念
114 0

热门文章

最新文章