性能测试必备知识(4)- 使用 stress 和 sysstat 分析平均负载过高的场景

简介: 性能测试必备知识(4)- 使用 stress 和 sysstat 分析平均负载过高的场景

做性能测试的必备知识系列,可以看下面链接的文章哦

https://www.cnblogs.com/poloyy/category/1806772.html

 

stress 介绍


Linux 系统压力测试工具,这里通过异常进程模拟平均负载升高的场景

 

来看看 stress 命令行参数的讲解

image.png


字段 含义
-?、--help 帮助文档
--version、-v 版本号
-q 退出
-n 显示已完成指令的情况
-t N、--timeout N 运行 N 秒后停止
--backoff N 等待 N 微秒后开始运行
-c N、--cpu N
  • 产生 N 个进程
  • 每个进程反复的计算随机数的平方根
  • 模拟 CPU 计算密集型场景
-i N、--io N
  • 产生 N 个进程
  • 每个进程反复调用 sync()
  • 模拟 I/O 密集型场景
-m N、--vm N
  • 产生 N 个进程
  • 每个进程不断调用内存分配 malloc()内存释放 free() 函数

--vm-bytes B

指定 malloc() 时内存的字节数,默认256MB
--vm-hang N 指定执行 free() 前等待的秒数
-d N、 --hdd N
  • 产生 N 个进程
  • 每个进程执行 write()  unlink() 的进程
--hdd-bytes B 

每个 hdd worker 写入 B 字节(默认为1GB)

 

Numbers may be suffixed with s,m,h,d,y (time) or B,K,M,G (size)

时间单位可以为秒 s,分m,小时h,天d,年y,文件大小单位可以为 K,M,G

 

sysstat 介绍


  • 包含了常用的 Linux 性能工具,用来监控和分析系统的性能
  • 接下来会用到 mpstat 和 pidstat 两个命令
  • 后面用单独一篇详细讲解里面包含的所有命令

 

mpstat

  • 常用的多核 CPU 性能分析工具
  • 实时查看每个 CPU 的性能指标以及所有 CPU 的平均指标

 

pidstat

  • 常用的进程性能分析工具
  • 实时查看进程的 CPU、内存、I/O 以及上下文切换等性能指标

 

安装两个工具


提供百度云盘链接

链接:https://pan.baidu.com/s/1YENSYaGw7Ar1Z8hf8CXGqA

提取码:2tpc

放到 Linux 下的某个目录

 

解压

tar -zxvf sysstat-12.1.5.tar.gz


tar -zxvf stress-1.0.4.tar.gz

 

分别进入解压后的两个文件夹执行以下命令

./configure


make&&make install

 

平均负载和 CPU 使用率的实际栗子


前言

  • 前面一篇文章也讲到了平均负载和 CPU 使用率的三个场景,接下来我们分别对这三个场景举例子
  • 需要打开三个终端访问同一个 Linux 机器哦
  • 我的 Linux 是虚拟机,2个cpu,2核

 

CPU 密集型进程

第一个终端

在第一个终端运行 stress 命令,模拟一个 CPU 使用率 100% 的场景

stress -c 1 -t 600

image.png

第二个终端

运行 uptime 查看系统平均负载情况,-d 参数表示高亮显示变化的区域

watch -d uptime

image.png

可以看到,1 分钟的平均负载会慢慢增加到 1.00

 

第三个终端

运行 mpstat 查看 CPU 使用率的变化情况

mpstat -P ALL 5

image.png

可以看出

  • 仅有一个 CPU 的使用率接近 100%,但它的 iowait 只有 0
  • 这说明,平均负载的升高正是由于 CPU 使用率为 100%

 

接下来,就要排查是哪个进程导致 CPU 的使用率这么高的

 

使用 pidstat 命令

间隔 5 秒后输出一组数据

pidstat -u 5 1

image.png

从这里可以明显看到,stress 进程的 CPU 使用接近 100%

 

I/O 密集型进程


第一个终端

运行 stress 命令,但这次模拟 I/O 压力,即不停地执行 sync()

image.png

第二个终端

运行 uptime 查看系统平均负载情况,-d 参数表示高亮显示变化的区域

watch -d uptime

image.png

可以看到,1 分钟的平均负载也会慢慢增加到 1.00

 

第三个终端

运行 mpstat 查看 CPU 使用率的变化情况

mpstat -P ALL 5 1

image.png

灵魂拷问

其实 iowait 并没有上去,反而还是系统态(%sys)升高了,这是怎么回事?难道是工具的问题?

 

回答

  • iowait 无法升高是因为案例中 stress -i 使用的是 sync() 系统调用,它的作用是刷新缓冲区内存到磁盘中
  • 对于新安装的虚拟机,缓冲区可能比较小,无法产生大的io压力
  • 这样大部分都是系统调用的消耗
  • 所以,只看到系统 CPU 使用率升高

 

解决办法

使用 stress 的另一个参数 -d ,含义上面已经说了哦

stress --hdd 1 -t 600 --hdd-bytes 4G

 

再通过 mpstat 看看指标

mpstat -P ALL 5

image.png

可以看到

  • iowait 是明显升高了,虽然我们的 CPU 使用率也较高
  • 当做了几次尝试之后,包括启动了 2个、4个进程,发现 CPU 使用率仍然保持在 30%+,而 iowait 则不断升高,最高可达到40%+,而且平均负载也在不断升高
  • 所以可以看出平均负载的升高,很大原因是因为 iowait 的不断升高

 

接下来,就要排查是哪个进程导致 iowait 这么高了

 

使用 pidstat 命令

间隔 5 秒后输出一组数据,收集 10 次,查看最后的平均值

pidstat -u 5 10

image.png

可以看到

kworker 内核进程 和 stress 进程的 CPU 使用率都是偏高的

 

大量进程的场景


目的

当系统中运行进程超出 CPU 运行能力时,就会出现等待 CPU 的进程

 

第一个终端

这次模拟 8 个进程

stress -c 8 -t 600

image.png

第二个终端

运行 uptime 查看系统平均负载情况,-d 参数表示高亮显示变化的区域

watch -d uptime

image.png

我的系统只有 4 个 CPU,比 8 个进程少得多,CPU 处于严重的过载状态,平均负载已经超过 8 了

 

第三个终端

可以直接通过 pidstat 来查看进程的情况了,每隔 5s 收集一次,收集 5 次,看平均值

pidstat -u 5 5

image.png

可以看到

  • 8 个进程在竞争 4 个 CPU
  • 每隔进程等待 CPU 的时间(%wait)高达 50%
  • 这些超出 CPU 计算能力的进程,导致 CPU 过载 

 

对于平均负载的一个理解和总结


  • 平均负载提供了一个快速查看系统整体性能的手段,反映了整的负载情况
  • 但只看平均负载本身,我们并不能直接发现到底是哪里出现了瓶颈

 

平均负载过高的分析排查思路

  • 有可能是 CPU 即密集型进程导致的
  • 平均负载过高不代表 CPU 使用率高,也有可能是 I/O 更密集了
  • 当发现平均负载过高时,可以通过 mpstat、pidstat 等工具,辅助分析负载的来源

 

通俗总结

平均负载过高是出现性能瓶颈的表现,分析瓶颈产生的源头和原因,需要通过各类工具

相关文章
|
12月前
|
边缘计算 安全 5G
高精度时钟同步测试仪:构建全场景时间同步生态
在数字化转型中,时间同步至关重要。西安同步电子科技的 SYN5106 高精度时钟测试仪,具备±20ns 时差测量精度与 GPS/北斗双模授时能力,广泛应用于电力、通信、金融和科研领域。它解决变电站时间偏差、5G 基站同步误差及高频交易延迟等问题,助力智能电网、5G 网络和科研实验。产品便携可靠,支持多协议,满足国家安全要求,为各行业提供精准时间同步解决方案。未来将探索量子通信与深空探测等领域,持续推动技术创新。
|
8月前
|
人工智能 边缘计算 搜索推荐
AI产品测试学习路径全解析:从业务场景到代码实践
本文深入解析AI测试的核心技能与学习路径,涵盖业务理解、模型指标计算与性能测试三大阶段,助力掌握分类、推荐系统、计算机视觉等多场景测试方法,提升AI产品质量保障能力。
|
缓存 监控 算法
软件测试中的性能瓶颈分析与优化策略
【10月更文挑战第6天】 性能测试是确保软件系统在高负载条件下稳定运行的重要手段。本文将深入探讨性能测试的常见瓶颈,包括硬件资源、网络延迟和代码效率等问题。通过具体案例分析,我们将展示如何识别并解决这些问题,从而提升软件的整体性能。最后,文章还将分享一些实用的性能优化技巧,帮助读者在日常开发和测试中更好地应对性能挑战。
786 3
|
监控 测试技术 持续交付
软件测试中的性能瓶颈分析与优化策略
性能瓶颈,如同潜伏于软件深处的隐形障碍,悄然阻碍着系统的流畅运行。本文旨在揭示这些瓶颈的形成机理,剖析其背后的复杂成因,并汇聚一系列针对性的优化策略,为软件开发者提供一套系统性的解决方案。
362 6
|
12月前
|
编解码 5G 定位技术
时间频率综合测试仪优势所在及场景使用介绍
时间频率综合测试仪是保障系统精准运行的关键设备。以西安同步电子科技有限公司的SYN5104型为例,它集时间标准源、时差测量和频率测试于一体,功能涵盖时间准确度、频率分析、PPS/B码/E1/PTP/NTP测试等,精度达30ns。其便携设计适用于研发、标定、现场检测,支持电力系统校准、通信同步测试及科研校准等场景,助力高精度时频同步与产品质量提升。文章版权归西安同步电子科技有限公司所有,严禁侵权。
|
机器学习/深度学习 人工智能 自然语言处理
MarS:微软开源金融市场模拟预测引擎,支持策略测试、风险管理和市场分析
MarS 是微软亚洲研究院推出的金融市场模拟预测引擎,基于生成型基础模型 LMM,支持无风险环境下的交易策略测试、风险管理和市场分析。
678 8
MarS:微软开源金融市场模拟预测引擎,支持策略测试、风险管理和市场分析
|
开发框架 .NET Java
C#集合数据去重的5种方式及其性能对比测试分析
C#集合数据去重的5种方式及其性能对比测试分析
275 11
|
开发框架 .NET Java
C#集合数据去重的5种方式及其性能对比测试分析
C#集合数据去重的5种方式及其性能对比测试分析
281 10
|
监控 算法 Java
jvm-48-java 变更导致压测应用性能下降,如何分析定位原因?
【11月更文挑战第17天】当JVM相关变更导致压测应用性能下降时,可通过检查变更内容(如JVM参数、Java版本、代码变更)、收集性能监控数据(使用JVM监控工具、应用性能监控工具、系统资源监控)、分析垃圾回收情况(GC日志分析、内存泄漏检查)、分析线程和锁(线程状态分析、锁竞争分析)及分析代码执行路径(使用代码性能分析工具、代码审查)等步骤来定位和解决问题。
355 6
|
JavaScript 安全 编译器
TypeScript 与 Jest 测试框架的结合使用,从 TypeScript 的测试需求出发,介绍了 Jest 的特点及其与 TypeScript 结合的优势,详细讲解了基本测试步骤、常见测试场景及异步操作测试方法
本文深入探讨了 TypeScript 与 Jest 测试框架的结合使用,从 TypeScript 的测试需求出发,介绍了 Jest 的特点及其与 TypeScript 结合的优势,详细讲解了基本测试步骤、常见测试场景及异步操作测试方法,并通过实际案例展示了其在项目中的应用效果,旨在提升代码质量和开发效率。
387 6