Linux系统篇—CPU平均负载介绍与案例假设

简介: Linux系统篇—CPU平均负载介绍与案例假设

平均负载

通过执行top或者uptime命令,可以了解系统的负载情况,如图所示:

67250fe35421687ecfe3a534217954d.png

每列输出的含义:

第一行包括:当前时间、系统运行时间、正在登陆的用户数

top - 15:57:46 up 6l days, 21:26, sl user

load average:三个数字分别表示 过去1分钟、5分钟、15分钟的平均负载

cpu使用率

CPU 使用率,是单位时间内 CPU 繁忙情况的统计,跟平均负载并不一定完全对应。 比如:

  • CPU 密集型进程,使用大量 CPU 会导致平均负载升高,此时这两者是一致的
  • I/O 密集型进程,等待 I/O 也会导致平均负载升高,但 CPU 使用率不一定很高;
  • 大量等待 CPU 的进程调度也会导致平均负载升高,此时的 CPU 使用率也会比较高。

平均负载的含义

平均负载是指单位时间内,系统处于可运行状态不可中断状态的平均进程数,它不仅包括了正在使用 CPU 的进程,还包括等待 CPU 和等待I/O 的进程。也就是平均活跃进程数,它和 CPU 使用率并没有直接关系。

  • 可运行状态的进程
    正在使用 CPU 或者正在等待 CPU 的进程,也就是我们常用ps 命令看到的,处于 R 状态(Running 或 Runnable) 的进程
  • 不可中断状态的进程
    正处于内核态关键流程中的进程,并且这些流程是不可打断的, 比如最常见的是等待硬件设备的 I/O 响应,也就是我们在 ps 命令中看到的 D 状态(Uninterruptible Sleep,也称为 Disk Sleep)的进程。不可中断状态实际上是系统对进程和硬件设备的一种保护机制。

平均负载多少合适

最理想的负载就是每个cpu上都刚好运行一个进程,这样每个cpu都得到了充分利用。所以在评判平均负载时,首先你要知道系统有几个 CPU,可通过以下命令查询

# 关于 grep 和 wc 的用法请查询它们的手册或者网络搜索
grep 'model name' /proc/cpuinfo | wc -l
复制代码

当平均负载为2时,意味着什么呢?

  • 在只有 2 个 CPU 的系统上,意味着所有的 CPU 都刚好被完全占用。
  • 在 4 个 CPU 的系统上,意味着 CPU 有 50% 的空闲。
  • 而在只有 1 个 CPU 的系统中,则意味着有一半的进程竞争不到 CPU。

当平均负载比 CPU 个数还大的时候,系统就已经出现了过载。

load average变化举例说明

如果 1 分钟的值远小于 15 分钟的值,就说明系统最近 1 分钟的负载在减少,而过去15 分钟内却有很大的负载。

如果 1 分钟的值远大于 15 分钟的值,就说明最近 1 分钟的负载在增加,这种增加有可能只是临时性的,也有可能还会持续增加下去,所以就需要持续观察。一旦 1分钟的平均负载接近或超过了 CPU 的个数,就意味着系统正在发生过载的问题,这时就得分析调查是哪里导致的问题,并要想办法优化了。

一般情况下,当 平均负载高于 CPU 数量 70% 的时候,就应该分析排查负载高的问题了

但 70% 这个数字并不是绝对的,最推荐的方法,还是把系统的平均负载监控起来,然后根据更多的历史数据,判断负载的变化趋势。当发现负载有明显升高趋势时,比如说负载翻倍了,再去做分析和调查。

平均负载问题排查与案例假设

通过使用iostatmpstatpidstat工具,找出平均负载升高的根源

准备

预先安装 stresssysstat 包,如 apt install stress sysstat

  • stress: 一个 Linux 系统压力测试工具,可以用作异常进程模拟平均负载升高的场景。
  • sysstat: 包含了常用的 Linux 性能工具,用来监控和分析系统的性能。案例会用到这个包的两个命令 mpstatpidstat
  • mpstat 一个常用的多核 CPU 性能分析工具,用来实时查看每个 CPU 的性能指标,以及所有 CPU 的平均指标
  • pidstat 一个常用的进程性能分析工具,用来实时查看进程的 CPU、内存、I/O 以及上下文切换等性能指标。

场景一:CPU 密集型进程

  1. 在第一个终端运行 stress --cpu 1 --timeout 600 命令,模拟一个 CPU 使用率 100% 的场景 (不想模拟的可以忽略):
  2. 在第二个终端运行 watch -d uptime 查看平均负载的变化情况 (-d 参数表示高亮显示变化的区域)
  3. 在第三个终端运行 mpstat -P ALL 5 查看 CPU 使用率的变化情况 (-P ALL 表示监控所有 CPU,后面数字 5 表示间隔 5 秒后输出一组数据)

从 [2] 可以看到,1 分钟的平均负载会慢慢增加到 1.00,而从 [3] 中还可以看到,正好有一个 CPU 的使用率为 100%,但它的 iowait 只有 0。这说明,平均负载的升高正是由于 CPU 使用率为 100% 。

  1. 使用 pidstat -u 5 1 来查找哪个进程导致了 CPU 使用率为 100% (间隔 5 秒后输出一组数据)
  2. d4357f4a87c2feb955cadf53001f75a.png
    从这里可以明显看到,stress 进程的 CPU 使用率为 100%。

场景二:I/O 密集型进程

  1. 运行 stress -i 1 --timeout 600 命令,但这次模拟 I/O 压力,即不停地执行 sync
  2. 在第二个终端运行 watch -d uptime 查看平均负载的变化情况 (-d 参数表示高亮显示变化的区域)
  3. 在第三个终端运行 mpstat -P ALL 5 1 查看 CPU 使用率的变化情况 (-P ALL 表示监控所有 CPU,后面数字 5 表示间隔 5 秒后输出一组数据)
  4. 757610fdc08a6109756fd0802b4f9f1.png

从 [3] 可以看到,1 分钟的平均负载会慢慢增加到 1.06,其中一个CPU的系统的CPU使用率升高到了 23.87,而 iowait 高达 67.53%。这说明,平均负载的升高是由于 iowait 的升高。

  1. 使用 pidstat -u 5 1 来查找哪个进程导致 iowait 这么高 (间隔 5 秒后输出一组数据)
  2. 0a95cc8a8abfe269403a743eaaee0ee.png
    可以发现,还是 stress 进程导致的。

场景三:大量进程的场景

  1. 使用stress -c 8 --timeout 600,这次模拟的是 8 个进程(于系统只有 2 个 CPU,系统的 CPU 处于严重过载状态)
top -17:45:28 up 203 days, 6:28, 2 users, load average: 6.44, 1.93,日.72 
Tasks: 112 total, 10 running, 102 sleeping, 0 stopped,  0 zombie  
8Cpu0 :99.3 us, 0.7 sy. 0.0 ni, 0.0 id. 0.0 wa, 0.0 hi, 0.0 si, 0.0 st  
sCpul :99.3 us, 0.7 sy, 0.0 ni, 0.0 10. 0.0 wa, 0.0 ni. 0.0 si, 0.e st  
KiB Mem : 3880520 total,  212180 free, 1577304 used,  2091036 buff/cache  
KiB Swap: 0 total,  0 free, 0 used. 1991108 
  1. 在第二个终端运行 mpstat -P ALL 5 1 查看 CPU 使用率的变化情况 (-P ALL 表示监控所有 CPU,后面数字 5 表示间隔 5 秒后输出一组数据)
  2. 5dd5ba3c712a17c32fa8de3f5900c93.png
  3. 运行pidstat -u 5 1 来看一下进程的情况 (间隔 5 秒后输出一组数据)
  4. 3e13e484c8e06ff0815cece43ce2546.png

可以看出,8 个进程在争抢 2 个 CPU, 每个进程等待 CPU 的时间(也就是代码块中的%wait列)高达 75%。 这些超出 CPU 计算能力的进程,最终导致 CPU 过载。

总结

平均负载提供了一个快速查看系统整体性能的手段,反映了整体的负载情况。但只看平均负载本身,我们并不能直接发现到底是哪里出现了瓶颈。

在理解平均负载时,要注意:

  • 平均负载高有可能是 CPU 密集型进程导致的;
  • 平均负载高并不一定代表 CPU 使用率高,还有可能是 I/O 更繁忙了;
  • 当发现负载高的时候,可以使用 mpstatpidstat 等工具,辅助分析负载的来源。

其他

pidstat没有展示%wait

升级systat到 11.5.5版本及以上

# 通过git下载源码
git clone git://github.com/sysstat/sysstat
# 系统配置sysstat
cd  sysstat/
./configure
# 编译和安装
make & make install
# 验证是否安装成功
mpstat -V
# 解决 /usr/bin/mpstat: No such file or directory 
cp pidstat /usr/bin/
cp mpstat /usr/bin/


目录
相关文章
|
10天前
|
存储 缓存 监控
Linux缓存管理:如何安全地清理系统缓存
在Linux系统中,内存管理至关重要。本文详细介绍了如何安全地清理系统缓存,特别是通过使用`/proc/sys/vm/drop_caches`接口。内容包括清理缓存的原因、步骤、注意事项和最佳实践,帮助你在必要时优化系统性能。
129 78
|
14天前
|
Linux Shell 网络安全
Kali Linux系统Metasploit框架利用 HTA 文件进行渗透测试实验
本指南介绍如何利用 HTA 文件和 Metasploit 框架进行渗透测试。通过创建反向 shell、生成 HTA 文件、设置 HTTP 服务器和发送文件,最终实现对目标系统的控制。适用于教育目的,需合法授权。
52 9
Kali Linux系统Metasploit框架利用 HTA 文件进行渗透测试实验
|
15天前
|
存储 人工智能 vr&ar
转载:【AI系统】CPU 基础
CPU,即中央处理器,是计算机的核心部件,负责执行指令和控制所有组件。本文从CPU的发展史入手,介绍了从ENIAC到现代CPU的演变,重点讲述了冯·诺依曼架构的形成及其对CPU设计的影响。文章还详细解析了CPU的基本构成,包括算术逻辑单元(ALU)、存储单元(MU)和控制单元(CU),以及它们如何协同工作完成指令的取指、解码、执行和写回过程。此外,文章探讨了CPU的局限性及并行处理架构的引入。
转载:【AI系统】CPU 基础
|
15天前
|
人工智能 缓存 并行计算
转载:【AI系统】CPU 计算本质
本文深入探讨了CPU计算性能,分析了算力敏感度及技术趋势对CPU性能的影响。文章通过具体数据和实例,讲解了CPU算力的计算方法、算力与数据加载之间的平衡,以及如何通过算力敏感度分析优化计算系统性能。同时,文章还考察了服务器、GPU和超级计算机等平台的性能发展,揭示了这些变化如何塑造我们对CPU性能的理解和期待。
转载:【AI系统】CPU 计算本质
|
10天前
|
存储 监控 Linux
嵌入式Linux系统编程 — 5.3 times、clock函数获取进程时间
在嵌入式Linux系统编程中,`times`和 `clock`函数是获取进程时间的两个重要工具。`times`函数提供了更详细的进程和子进程时间信息,而 `clock`函数则提供了更简单的处理器时间获取方法。根据具体需求选择合适的函数,可以更有效地进行性能分析和资源管理。通过本文的介绍,希望能帮助您更好地理解和使用这两个函数,提高嵌入式系统编程的效率和效果。
63 13
|
10天前
|
Ubuntu Linux C++
Win10系统上直接使用linux子系统教程(仅需五步!超简单,快速上手)
本文介绍了如何在Windows 10上安装并使用Linux子系统。首先,通过应用商店安装Windows Terminal和Linux系统(如Ubuntu)。接着,在控制面板中启用“适用于Linux的Windows子系统”并重启电脑。最后,在Windows Terminal中选择安装的Linux系统即可开始使用。文中还提供了注意事项和进一步配置的链接。
29 0
|
1月前
|
Linux 网络安全 数据安全/隐私保护
Linux 超级强大的十六进制 dump 工具:XXD 命令,我教你应该如何使用!
在 Linux 系统中,xxd 命令是一个强大的十六进制 dump 工具,可以将文件或数据以十六进制和 ASCII 字符形式显示,帮助用户深入了解和分析数据。本文详细介绍了 xxd 命令的基本用法、高级功能及实际应用案例,包括查看文件内容、指定输出格式、写入文件、数据比较、数据提取、数据转换和数据加密解密等。通过掌握这些技巧,用户可以更高效地处理各种数据问题。
110 8
|
1月前
|
监控 Linux
如何检查 Linux 内存使用量是否耗尽?这 5 个命令堪称绝了!
本文介绍了在Linux系统中检查内存使用情况的5个常用命令:`free`、`top`、`vmstat`、`pidstat` 和 `/proc/meminfo` 文件,帮助用户准确监控内存状态,确保系统稳定运行。
400 6
|
1月前
|
Linux
在 Linux 系统中,“cd”命令用于切换当前工作目录
在 Linux 系统中,“cd”命令用于切换当前工作目录。本文详细介绍了“cd”命令的基本用法和常见技巧,包括使用“.”、“..”、“~”、绝对路径和相对路径,以及快速切换到上一次工作目录等。此外,还探讨了高级技巧,如使用通配符、结合其他命令、在脚本中使用,以及实际应用案例,帮助读者提高工作效率。
90 3
|
1月前
|
监控 安全 Linux
在 Linux 系统中,网络管理是重要任务。本文介绍了常用的网络命令及其适用场景
在 Linux 系统中,网络管理是重要任务。本文介绍了常用的网络命令及其适用场景,包括 ping(测试连通性)、traceroute(跟踪路由路径)、netstat(显示网络连接信息)、nmap(网络扫描)、ifconfig 和 ip(网络接口配置)。掌握这些命令有助于高效诊断和解决网络问题,保障网络稳定运行。
80 2