《云上大型赛事保障白皮书》——第三章 压测调优与技术演练——3.2 云上大型赛事技术演练——3.2.4 故障演练及冬奥实践

本文涉及的产品
性能测试 PTS,5000VUM额度
简介: 《云上大型赛事保障白皮书》——第三章 压测调优与技术演练——3.2 云上大型赛事技术演练——3.2.4 故障演练及冬奥实践

3.2.4 故障演练及冬奥实践


线上问题发生的概率很小,但我们不能等真实问题发生后来验证监控和应急能力,日常就应该完成验证。在故障演练中,我们模拟线上真实发生问题的场景,以检测我们的系统快恢能力和故障应急流程。对于任何一个大型赛事活动,故障演练都是必要的。

故障演练一般可以分为如下三个部分:

设计故障:这是最重要的部分,设计的故障要能贴合真实的场景,才能产生演练价值。通常情况下可以从实际发生过的历史故障库出发去设计。故障可以根据严重性划分为轻型、中型、重大等级别。典型的轻型故障举例:高可用SLB单可用区服务宕机、单台ECS宕机、CDN单节点异常等;典型的中型故障举例:单宿主机上批量ECS宕机、IDC机房单路掉电、特定产品控制台不可用、物理专线设备宕机等;典型的重大故障举例:IDC机房多路掉电机器全宕、可用区核心网络设备主备光缆全断、大规模DDoS攻击导致可用区级出口带宽打挂等。那么在设计故障时,也应区分不同的级别等级,以检查系统在不同级别下的恢复能力。

故障注入:我们不可能在生产环境下实际触发故障,那么就需要对应的手段真实模拟线上故障。为此可以有两种方法,其一是在安全生产环境直接触发故障,安全生产环境可以是99%的模拟流量和1%的线上流量,这样影响范围可控,而且可以根据需要调整线上流量比例,比如模拟重大故障时把线上流量关闭;其二是故障模拟系统,一般是和产品监控告警系统一同开发,可以注入并不存在的故障触发产品侧监控告警,以模拟真实场景。

故障处理与复盘:在注入故障后需要观察系统快恢自愈能力,以及演练故障处理流程,针对产品或者流程暴露的问题做针对性的复盘。产品问题一般性为不触发流量切换、流量切换延迟、主备切换不合预期、宕机未自动迁移拉起等。故障处理流程我们将在"保障阵型与流程管理"这个章节详细描述。在北京冬奥,我们一共做了若干次故障演练,得益于阿里云完善的故障管理体系,我们有可以直接注入模拟故障的故障模拟系统,和一整套故障处理流程规范。其中典型的几次如下:

1684915692482.png


通过故障演练,我们检查了系统快恢能力,及整套故障处理流程规范的应急动作熟练度,为赛时的快速故障处理打下了良好的基础。

相关实践学习
通过性能测试PTS对云服务器ECS进行规格选择与性能压测
本文为您介绍如何利用性能测试PTS对云服务器ECS进行规格选择与性能压测。
相关文章
|
21天前
|
数据采集 监控 机器人
浅谈网页端IM技术及相关测试方法实践(包括WebSocket性能测试)
最开始转转的客服系统体系如IM、工单以及机器人等都是使用第三方的产品。但第三方产品对于转转的业务,以及客服的效率等都产生了诸多限制,所以我们决定自研替换第三方系统。下面主要分享一下网页端IM技术及相关测试方法,我们先从了解IM系统和WebSocket开始。
37 4
|
7月前
|
SQL 搜索推荐 测试技术
【Havenask实践篇】完整的性能测试
Havenask是阿里巴巴智能引擎事业部自研的开源高性能搜索引擎,深度支持了包括淘宝、天猫、菜鸟、高德、饿了么在内几乎整个阿里的搜索业务。性能测试的目的在于评估搜索引擎在各种负载和条件下的响应速度、稳定性。通过模拟不同的用户行为和查询模式,我们可以揭示潜在的瓶颈、优化索引策略、调整系统配置,并确保Havenask在用户数量激增或数据量剧增时仍能保持稳定运行。本文举例对Havenask进行召回性能测试的一个简单场景,在搭建好Havenask服务并写入数据后,使用wrk对Havenask进行压测,查看QPS和查询耗时等性能指标。
65899 6
|
7月前
|
JavaScript 前端开发 算法
性能测试与调优
性能测试与调优
90 0
|
负载均衡 测试技术 应用服务中间件
性能测试常见瓶颈分析及调优方法总结
性能测试常见瓶颈分析及调优方法总结
364 0
|
7月前
|
消息中间件 Java 测试技术
性能工具之Jmeter扩展函数及压测ActiveMQ实践
【5月更文挑战第18天】性能工具之Jmeter扩展函数及压测ActiveMQ实践
119 5
|
3月前
|
缓存 Java 测试技术
谷粒商城笔记+踩坑(11)——性能压测和调优,JMeter压力测试+jvisualvm监控性能+资源动静分离+修改堆内存
使用JMeter对项目各个接口进行压力测试,并对前端进行动静分离优化,优化三级分类查询接口的性能
120 10
谷粒商城笔记+踩坑(11)——性能压测和调优,JMeter压力测试+jvisualvm监控性能+资源动静分离+修改堆内存
|
4月前
|
监控 Java 测试技术
实战派必看!Python性能测试中,JMeter与Locust如何助力性能调优
【8月更文挑战第6天】性能优化是软件开发的关键。本文介绍JMeter与Locust两款流行性能测试工具,演示如何用于Python应用的性能调优。JMeter可模拟大量用户并发访问,支持多种协议;Locust用Python编写,易于定制用户行为并模拟高并发。根据场景选择合适工具,确保应用在高负载下的稳定运行。
144 4
|
6月前
|
监控 Java 测试技术
Java性能测试与调优工具使用指南
Java性能测试与调优工具使用指南
|
6月前
|
存储 测试技术
【工作实践(多线程)】十个线程任务生成720w测试数据对系统进行性能测试
【工作实践(多线程)】十个线程任务生成720w测试数据对系统进行性能测试
72 0
【工作实践(多线程)】十个线程任务生成720w测试数据对系统进行性能测试
|
6月前
|
缓存 Java 测试技术
Spring Boot中的性能测试与调优
Spring Boot中的性能测试与调优