性能场景之异常场景设计及分析

简介: 【2月更文挑战第20天】性能场景之异常场景设计及分析

一、前言

今天来说下异常场景设计,和什么情况下异常场景执行算是通过。

从性能实施的角度来说,异常场景基本上几个古老的手段:

  • 宕主机( reboot 和断电(一般人不这么干,是怕断了电,再也起不来));

  • 宕应用( Kill 和正常 shutdown)

  • 宕网络(ifconfig down 和拨网线);

其实不止这些手段来做异常,像:

  • 模拟网络抖动
  • 模拟 IO、CPU 满负荷(有人问为啥不模拟内存满负荷,说实话,个人除了因为不喜欢之外,还觉得没这个必要)
  • 模拟各业务层超时(这个和宕应用不一样,这是处理不过来)
  • 模拟全链路流控
  • ........................

其实我还能写出一堆做异常的 case 来。

二、一个实例

那异常应该怎么着才算是 case 通过呢?今天聊一个实际的case。

先来看一个结果。
image.png

这个结果,我刚看的时候,直接认为的是:没毛病

但是在我写分析部分的时候,仔细看了下这个图,觉得不对,还是有毛病的。

为啥呢?

先说下拓扑图:
image.png

就是说,4台应用服务器,主机1、2做 LB,主机3、4做 LB;DB那边是一主两从。

Jmeter 有两种类型的脚本:http 协议连主机1、2和 Java socket 直连主机3、4。

这个异常的场景步骤是啥呢?

  1. kill 主机 1 上的应用
  2. kill 主机 3 上的应用
  3. reboot DB master 主机
  4. 启动主机 1 上的应用
  5. 启动主机 3 上的应用

上面那个结果中共有五个红色的数字,一一对应上面的五个步骤

看到这里,基本上有经验的人对着拓扑和结果图就能看出来问题了

先说第一个问题

为什么下面黄色和深绿色的两条线在 kill 主机 3 上的应用之后 TPS 不上去,直到第5步启动了主机3上的应用之后,才上去了呢?

与此同时,走 http 协议的三个脚本,在步骤 1、2 上和预期差不多,在正常的时间里恢复了

是呀,那是不是就可以说明主机3、4 其实切换不了呢?为了验证这一段,我让同事做了个实验,就是只验证下面两个脚本。步骤也只有一个就是 kill 主机 3 上的应用。看能不能恢复。结果如下:

image.png

自从 kill 了主机 3 上的应用,就没恢复过,直到启动主机 3 上的应用。

再一次证明了确实没有恢复得过来。证据确凿确凿的,我就让执行这个场景的姑娘跟开发沟通一下结果,让他们查查原因。

是不是真的这样呢?后面开发过来找我说,一台主机能支持的最大 TPS 就是低谷的这么多,所以宕了一个主机后,看似流量没有被主机 4 接管。但实际上是接管了,只是 TPS 看不出来

一听,好像很有道理呀。我让这个开发和测试人员回去再做一个场景,要是能证明开发所说,这个异常切换就算成功。

怎么验证呢?就是把 TPS 降到 20,并且只用一个脚本。再来一遍:

image.png

果然,真的恢复了。他们发这个结果给我看,我看确实是恢复了

这个结果告诉我们什么呢?异常场景是为了验证异常,那就要先知道异常可能的预期结果。如果和预期不符,那就是有问题

所以异常的结果一定要可解释。不管是几分钟恢复,只要是明确知道为什么,就可以想办法让它更快

就像这个结果,为什么是一分钟多才恢复呢?我让他们查了每个环节的超时。因为这里主要是 jmeter 和主机3、4之间的超时,这个超时是在 Jmeter 的脚本中设定的

之前是设置了 60 秒,所以这个恢复时间是一分钟多一点(还要加上采样频繁嘛)

我让同事回去把时间改为 30s,再来一遍验证下结果。如下所示:

image.png

看,真的变短了是不是?

到这里,基本上可以解释了最开始图中的最下面两条线为什么没恢复的问题

那么这时候,我跟开发说:来、来,我们聊聊为什么这个TPS这么低呢?(这两个业务 TPS 低的问题,因为资源也没用上去,所以提了一个 defect 跟踪了)

三、小结

其实最开始的图里面还有个问题。不过我今天写累了,有经验的人自己分析吧。

一个图中真能看出那么多东西来呀?是的,真的可以。

目录
相关文章
|
存储 编译器
深入解析i++和++i的区别及性能影响
在我们编写代码时,经常需要对变量进行自增操作。这种情况下,我们通常会用到两种常见的操作符:i++和++i。最近在阅读博客时,我偶然看到了有关i++和++i性能的讨论。之前我一直在使用它们,但从未从性能的角度考虑过,这让我突然产生了兴趣。尽管它们看起来相似,但它们之间存在微妙而重要的区别。在本文中,我们将详细解释i++和++i之间的区别,以及它们对代码性能的影响。
404 1
深入解析i++和++i的区别及性能影响
|
2月前
|
缓存 监控 算法
软件测试中的性能瓶颈分析与优化策略
【10月更文挑战第6天】 性能测试是确保软件系统在高负载条件下稳定运行的重要手段。本文将深入探讨性能测试的常见瓶颈,包括硬件资源、网络延迟和代码效率等问题。通过具体案例分析,我们将展示如何识别并解决这些问题,从而提升软件的整体性能。最后,文章还将分享一些实用的性能优化技巧,帮助读者在日常开发和测试中更好地应对性能挑战。
120 3
|
1月前
|
数据可视化
数据可视化工具处理数据异常的优势和劣势分别是什么?
数据可视化工具处理数据异常的优势和劣势分别是什么?
64 29
|
2月前
|
编解码 监控 固态存储
提升系统的整体性能
提升系统的整体性能
48 2
|
3月前
|
缓存 监控 算法
软件测试中的性能瓶颈定位与优化策略
性能瓶颈,如同隐藏在系统深处的“拦路虎”,悄无声息地制约着软件的表现。本文将揭示如何通过一系列科学方法,识别并消除这些障碍,从而显著提升软件性能,确保用户享受到流畅无阻的数字体验。
|
5月前
|
存储 Java
浅析JAVA日志中的性能实践与原理解释问题之测试日志内容大小对系统性能的影响问题如何解决
浅析JAVA日志中的性能实践与原理解释问题之测试日志内容大小对系统性能的影响问题如何解决
122 0
|
5月前
|
Java
性能优化思路及常用工具及手段问题之stack工具分析异常数据问题如何解决
性能优化思路及常用工具及手段问题之stack工具分析异常数据问题如何解决
|
5月前
|
运维 中间件 数据库
浅析JAVA日志中的性能实践与原理解释问题之元信息打印会导致性能急剧下降问题如何解决
浅析JAVA日志中的性能实践与原理解释问题之元信息打印会导致性能急剧下降问题如何解决
|
5月前
|
缓存 自然语言处理 Java
浅析JAVA日志中的性能实践与原理解释问题之减少看得见的业务开销问题如何解决
浅析JAVA日志中的性能实践与原理解释问题之减少看得见的业务开销问题如何解决
|
Web App开发 Java Linux
【性能优化】使用Perfetto定位应用启动性能的瓶颈
本篇文章将会结合我个人对Perfetto的实际使用经历,讲解车载应用的启动时间是如何测量得到的,测量出启动时间后,我们又该如何找出其中的性能瓶颈。
1727 1
【性能优化】使用Perfetto定位应用启动性能的瓶颈