vmstat命令
vmstat命令可以显示关于系统各种资源之间相关性能的简要信息,这里主要用它来看CPU的一个负载情况。
下面是vmstat命令在某个系统中的输出结果。
[root@VM-24-3-centos ~]# vmstat 2 3 procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu----- r b swpd free buff cache si so bi bo in cs us sy id wa st 1 0 0 223324 144388 1427352 0 0 1 15 1 1 1 0 99 0 0 0 0 0 222616 144388 1427352 0 0 0 24 1928 3582 1 0 99 0 0 0 0 0 222848 144388 1427360 0 0 0 664 2121 3895 1 1 98 1 0 [root@VM-24-3-centos ~]#
对上面每项的输出解释如下
procs
r列表示运行和等待CPU时间片的进程数,这个值如果长期大于系统CPU的个数,说明CPU不足,需要增加CPU。
b列表示在等待资源的进程数,比如正在等待I/O或者内存交换等。
memory
swpd列表示切换到内存交换区的内存数量(以KB为单位)。如果swpd的值不为0,或者比较大,只要si、so的值长期为0,这种情况下一般就不用担心,它不会影响系统性能。
free列表示当前空闲的物理内存数量(以KB为单位)。
buff列表示缓冲区缓存的内存数量,一般对块设备的读写才需要缓冲。
cache列表示页面缓存的内存数量,一般作为文件系统缓存,频繁访问的文件都会被缓存,如果cache值较大,说明缓存的文件数较多,如果此时IO中bi比较小,说明文件系统效率比较好。
swap
si列表示由磁盘调入内存,也就是内存进入内存交换区的数量。
so列表示由内存调入磁盘,也就是内存交换区进入内存的数量。
一般情况下,si、so的值都为0。如果si、so的值长期不为0,则表示系统内存不足,需要增加系统内存。
io项显示磁盘读写状况。
bi列表示从块设备读入数据的总量(即读磁盘)(每秒KB)。
bo列表示写入到块设备的数据总量(即写磁盘)(每秒KB)。
这里设置的bi+bo参考值为1000,如果超过1000,而且wa值较大,则表示系统磁盘I/O有问题,应该考虑提高磁盘的读写性能。
system 显示采集间隔内发生的中断次数。
in列表示在某一时间间隔中观测到的每秒设备中断次数。
cs列表示每秒产生的上下文切换次数。
上面这两个值越大,会看到由内核占用CPU的时间会越多。
cpu项显示了CPU的使用状态,此项是我们关注的重点。
us列显示了用户进程占用CPU的时间百分比。us的值比较高时,说明用户进程占用CPU的时间多,但是如果长期大于50%,就需要考虑优化程序或算法。
sy列显示了内核进程占用CPU的时间百分比。sy的值较高时,说明内核消耗的CPU资源很多。
根据经验,us+sy的参考值为80%,如果us+sy大于 80%说明可能存在CPU资源不足。
id 列显示了CPU处在空闲状态的时间百分比。
wa列显示了I/O等待所占用的CPU时间百分比。wa值越高,说明I/O等待越严重。根据经验,wa的参考值为20%。如果wa超过20%,说明I/O等待严重,引起I/O等待的原因可能是磁盘大量随机读写造成的,也可能是磁盘或者磁盘控制器的带宽瓶颈造成的(主要是块操作)。
综上所述,在对CPU的评估中,需要重点注意的是procs项下r列的值和cpu项下us、sy和id列的值。
sar命令
检查CPU性能的第二个工具是sar。sar功能很强大,可以对系统的每个方面进行单独的统计,但是使用sar命令会增加系统开销。不过,这些开销是可以评估的,对系统的统计结果不会有很大影响。
Sar是后台进程sadc的前端显示工具,安装名为“sysstat”的包后,sadc就会自动从内核收集报告并保存。
yum install sysstat
下面是sar命令对某个系统的CPU统计输出。
[root@VM-24-3-centos ~]# sar -u 3 5
对上面每项的输出解释如下。
%user列显示了用户进程占用CPU的时间百分比。
%nice列显示了运行正常进程占用CPU的时间百分比。
%system列显示了系统进程占用CPU的时间百分比。
%iowait列显示了I/O等待所占用CPU的时间百分比
%steal列显示了在内存相对紧张的环境下pagein强制对不同的页面进行的steal操作。
%idle列显示了CPU处在空闲状态的时间百分比。
这个输出是对系统整体CPU使用状况的统计,每项的输出都非常直观,并且最后一行的Average是个汇总行,是上面统计信息的一个平均值。
需要注意的一点是,第一行的统计信息包含sar本身的统计消耗,所以%user列的值会偏高一点。不过,这不会对统计结果产生多大影响。
在一个多CPU的系统中,如果程序使用单线程,会出现这么一个现象,CPU的整体使用率不高,但是系统应用响应缓慢。这可能是程序使用单线程的原因,单线程只使用一个CPU,导致这个CPU占用率为100%,无法处理其他请求,而其他的CPU却闲置,这就导致了整体CPU使用率不高,而应用缓慢现象的发生。
统计单个CPU的使用情况
[root@VM-24-3-centos ~]# sar -P 0 3 5 Linux 3.10.0-1160.11.1.el7.x86_64 (VM-24-3-centos) 03/05/2023 _x86_64_ (2 CPU) 09:35:19 PM CPU %user %nice %system %iowait %steal %idle 09:35:22 PM 0 0.33 0.00 0.33 0.00 0.00 99.33 09:35:25 PM 0 0.34 0.00 0.34 0.34 0.00 98.99 09:35:28 PM 0 0.67 0.00 0.67 1.34 0.00 97.32 09:35:31 PM 0 0.67 0.00 0.34 0.00 0.00 98.99 09:35:34 PM 0 0.33 0.00 0.33 0.00 0.00 99.33 Average: 0 0.47 0.00 0.40 0.34 0.00 98.79 [root@VM-24-3-centos ~]#
这个输出是对系统的第一颗CPU的信息统计。需要注意的是,sar中对CPU的计数是从0开始的,因此,“sar -P 0 3 5”表示对系统的第1颗CPU进行信息统计,“sar -P 1 3 5”则表示对系统的第2颗CPU进行统计,依次类推。可以看出,上面的系统有2颗CPU。
iostat -c 命令
iostat指令主要用于统计磁盘I/O状态,但是也能查看CPU的使用信息,它的局限性是只能显示系统所有CPU的平均信息。看下面的一个输出。
[root@VM-24-3-centos ~]# iostat -c Linux 3.10.0-1160.11.1.el7.x86_64 (VM-24-3-centos) 03/05/2023 _x86_64_ (2 CPU) avg-cpu: %user %nice %system %iowait %steal %idle 0.55 0.00 0.42 0.06 0.00 98.96 [root@VM-24-3-centos ~]#
这里使用了“-c”参数,只显示系统CPU的统计信息,输出中每项代表的含义与sar命令的输出项完全相同 。
uptime命令
uptime是监控系统性能最常用的一个命令,主要用来统计系统当前的运行状况。输出的信息依次为:系统现在的时间,系统从上次开机到现在运行了多长时间,系统目前有多少登录用户,系统在1分钟内、5分钟内、15分钟内的平均负载。
[root@VM-24-3-centos ~]# uptime 21:37:58 up 238 days, 20:48, 4 users, load average: 0.00, 0.02, 0.05 [root@VM-24-3-centos ~]#
这里需要注意的是load average这个输出值,这三个值的大小一般不能大于系统CPU的个数。例如,本输出中系统有2个CPU,如果load average的三个值长期大于2,就说明CPU很繁忙,负载很高,可能会影响系统性能,但是偶尔大于2时,也不用担心,一般不会影响系统性能。相反,如果load average的输出值小于CPU的个数,则表示CPU还有空闲的时间片,比如本例中的输出,CPU是非常空闲的。
小结
我们这里介绍了检查CPU使用状况的4个命令。通过这些命令可以了解系统CPU是否出现性能瓶颈。也就是说,以上这些命令只能查看CPU是否繁忙,负载是否过大,但是无法知道CPU为何负载过大。
因而,判断系统CPU出现问题后,要结合top、ps等命令进一步检查是由那些进程导致CPU负载过大的。引起CPU资源紧缺的原因可能是应用程序不合理造成的,也可能是硬件资源匮乏引起的,所以,要具体问题具体分析,或者优化应用程序,或者增加系统CPU资源。