Linux CPU监控(上)

简介: Linux CPU监控(上)

1. CPU


1uptime命令


#uptime
08:26am up   7 min,  2 users, load average: 0.17, 0.16, 0.12

08:26am

当前时间是08:26am

up 7 min

已经启动了7分钟。

2 users

当前有2个用户登录。

load average0.17, 0.16, 0.12


最近1分钟、5分钟和15分钟的平均负载为0.170.160.12

负载为1表示当前单核CPU全部占用,如果一台机器有3CPU,每个CPU都是双核的,这是负载最大值为1×2×3=6。如果5分钟以及15分钟的负载指标的大于CPU个数×CPU核数×0.7,并且长时间比较高,说明CPU不够用。


总核数 = 物理CPU个数×每颗物理CPU的核数。

总逻辑CPU = 物理CPU个数×每颗物理CPU的核数×超线程数。


通过以下命令可以查看CPU个数、每个物理CPUcore的核数、逻辑CPU的个数和CPU信息(型号)。


查看物理CPU个数。

#cat /proc/cpuinfo| grep "physicalid"| sort| uniq| wc -l
2


2查看每个物理CPUcore的核数。

#cat /proc/cpuinfo| grep "cpu cores"|uniq
cpu cores: 2


查看逻辑CPU的个数。

#cat /proc/cpuinfo| grep "processor"|wc -l
4


4查看CPU信息(型号)。

#cat /proc/cpuinfo | grep name | cut -f2 -d: |uniq -c
     4  Intel(R) Core(TM) i5-6200U CPU@ 2.30GHz


案例CPU负载分析

Load average: 0.5,0.5,0.5

表示最近15分钟内CPU负载没有变化。

Load average: 0.5,2,5

表示最近15分钟内CPU负载逐渐变小。

Load average: 5,2,0.5

表示最近15分钟内CPU负载逐渐变大。


2top命令
#top
top - 18:00:48 up 4 min,  1 user, load average: 0.88, 0.57, 0.26
Tasks: 343 total,   1 running, 229 sleeping,   0 stopped,  0 zombie
%Cpu(s): 2.6 us,  4.2 sy,  0.0 ni, 93.1 id,  0.0 wa, 0.0 hi,  0.2 si,  0.0 st
KiB Mem : 4312632 total,  1931028 free,  1392792 used,  988812 buff/cache
KiB Swap:  969960 total,   969960 free,        0 used. 2657976 avail Mem
PID USER     PR  NI    VIRT   RES    SHR S  %CPU %MEM    TIME+ COMMAND
2179 jerry    20   0 3647552 177412  79692 S 14.2  4.1   0:10.86 gnome-shell
2049 jerry    20   0  474988 101148 47332 S   6.0  2.3  0:04.23
2531 jerry    20   0  800760 37440  27580 S   2.3 0.9   0:01.31 gnome-terminal-
2013 _apt     20   0   88940  8816   7840 S   1.7 0.2   0:02.26 http


可以按下键盘上的【1】键切换到显示各颗CPU的状态。

top - 18:32:05 up 29 min,  1 user, load average: 0.91, 0.35, 0.13
Tasks: 304 total,   1 running, 225 sleeping,   0 stopped,  0 zombie
%Cpu0 :  2.0 us,  3.7 sy, 0.0 ni, 94.3 id,  0.0 wa,  0.0 hi, 0.0 si,  0.0 st
%Cpu1 :  0.7 us,  0.7 sy, 0.0 ni, 98.7 id,  0.0 wa,  0.0 hi, 0.0 si,  0.0 st
%Cpu2 :  0.3 us,  0.3 sy, 0.0 ni, 99.3 id,  0.0 wa,  0.0 hi, 0.0 si,  0.0 st
%Cpu3 :  0.3 us,  2.0 sy, 0.0 ni, 97.6 id,  0.0 wa,  0.0 hi, 0.0 si,  0.0 st


这里的CPU颗数为4。可以看出第一行的内容就是uptime命令的内容。

top - 18:00:48 up 4 min,  1 user, load average: 0.88, 0.57, 0.26


表示当前时间为18:00:48,持续运行了4分钟,当前有1个用户登录,最近1分钟、5分钟和15分钟的平均负载为0.88,0.570.26


top命令第二行显示的是各个CPU状态的进程数。

Tasks: 343 total,   1 running, 229 sleeping,   0 stopped,  0 zombie


上面显示结果表示当前共有现在共有343个进程,1个处于运行状态,229个处于睡眠状态,停止状态和僵尸状态的进程都为0。对于各个状态,如表1所示。


1 CPU状态

标号

中文名

英文名

解释

D

不可中断的睡眠态

uninterruptible  sleep

进程正在跟硬件交互,并且交互过程不允许被其他进程或中断打断。通常出现在I/O阻塞

R

运行态

running or  runnable

表示进程在 CPU 的就绪队列中,正在运行或者正在等待运行。

S

可中断的睡眠态

Interruptible  sleep

进程因为等待某个事件而被系统挂起。当进程等待的事件发生时,它会被唤醒并进入 R 状态。

T

被跟踪或已停止

stooped

表示进程处于暂停或者跟踪状态(命令行调试)

Z

僵尸态

zombie

进程实际上已经结束了,但是父进程还没有回收它的资源(比如进程的描述符、PID 等)。

I

空闲状态

Idle

也就是空闲状态,用在不可中断睡眠的内核线程上。D 状态的进程会导致平均负载升高, I 状态的进程却不会。

X

死亡状态

dead

TopPS命令获取不到


top命令第三行表示CPU概览:%Cpu(s)表示CPU使用百分比,按照时间占用计算,单位s。其含义如表2所示。


2 CPU概览

标记

缩写

含义

user

%us

代表用户态 CPU 时间。注意,它不包括下面的 nice 时间,但包括了 guest 时间。

system

%sy

代表内核态 CPU 时间。

nice

%ni

代表低优先级用户态 CPU 时间,也就是进程的 nice 值被调整为 1-19 之间时的  CPU 时间。这里注意,nice 可取值范围是 -20 19,数值越大,优先级反而越低。

idle

%id

代表空闲时间。注意,它不包括等待 I/O 的时间(iowait)。

iowait

%wa

代表等待  I/O CPU 时间。

irq

%hi

代表处理硬中断的 CPU 时间。

softirq

%si

代表处理软中断的 CPU 时间。

steal

%st

虚拟 CPU 等待实际 CPU  的时间的百分比

guest


代表通过虚拟化运行其他操作系统的时间,也就是运行虚拟机的 CPU 时间。

guest_nice

gnice

代表以低优先级运行虚拟机的时间。



%Cpu(s): 2.6 us,  4.2 sy,  0.0 ni, 93.1 id,  0.0 wa, 0.0 hi,  0.2 si,  0.0 st


上面显示结果表示2.6%占有用户态 CPU 时间、4.2%占有内核态 CPU 时间,93.1%是空闲时间,处理软中断的占0.2%


3)平均负载和CPU使用率

CPU 使用率,是单位时间内CPU繁忙情况的统计,和平均负载并不一定完全对应。


CPU 密集型进程。

使用大量CPU会导致平均负载升高,平均负载和CPU使用率是一致的。

I/O 密集型进程。

等待I/O也会导致平均负载升高,但CPU使用率不一定很高。


平均负载是指单位时间内,系统处于可运行状态的R状态进程数+不可中断状态的D 状态(Disk Sleep)进程数之。而处于可运行状态R状态的进程又包括正在使用 CPU进程和正在等待CPU的进程,不可中断状态的D 状态(Disk Sleep)进程即正处于等待I/O的进程。


4)不可中断的睡眠态进程

不可中断的睡眠态的进程一般均为在运行过程中需要I/O提供数据。处于等待I/O状态的进程,由于这种是不可被打断的并且又处于睡眠态,所以叫做不可中断的睡眠态。如果系统中不可中断的睡眠态的进程比较多,可以确认系统在I/O上遇到了瓶颈。而这些I/O往往是磁盘I/O。由于与磁盘读写有关系,建议使用dstat 命令(同时看见CPUI/O信息)来分析。

#dstat 10 1
You did not select any stats, using -cdngy bydefault.
--total-cpu-usage-- -dsk/total- -net/total- ---paging-----system--
usr sys idl wai stl| read  writ | recv  send     |  in  out | int   csw
  1   1  99  0  0 | 9232k   470k|   0      0     |    0   0 | 129   192


从上面可以看见有9232K的数据处于磁盘读操作,性能低的瓶颈可能有进程在读磁盘。


一般而言直接读写磁盘,对 I/O 敏感型应用(比如数据库系统)是很友好的,因为可以在应用中,直接控制磁盘的读写。但在这种情况是非常消耗CPU资源的,最好还是通过系统缓存来优化磁盘 I/O的读写,换句话说,删除O_DIRECT 这个选项就可以了。下面代码就是直接读写磁盘。


open(disk,O_RDONLY|O_DIRECT|O_LARGEFILE, 0755)


5)僵尸进程

现在来介绍一下僵尸进程,僵尸进程是由于父进程建立子进程以后没有及时回收造成的。看一下正常父进程创建子进程,子进程结束后父进程收回的流程。


1)父进程创建子进程。

2)父进程调用wait()或者waitpid()等待子进程结束。

3)子进程结束向父进程发送SIGCHLD 信号。

4)父进程收到SIGCHLD 信号后注册SIGCHLD信号的处理函数。

5)父进程异步回收子进程的资源。


如果父进程在创建子进程后没有调用wait()或者waitpid()等待子进程结束或者子进程结束后没有给父进程发SIGCHLD 信号就造成僵尸进程,如下代码。

intstatus = 0;
  for (;;) {
    for (int sign = 0; sign < 5; sign ++) {
      if(f()==0) {
        sub_process();
      }
    }
    sleep(3);
  }
while(wait(&status)>0);


这段代码while语句放在了循环外面,这样wait()方法没有时机被调用,所以容易产生僵尸进程。在调试的时候可以使用pstree-aps  查看下的所有子进程(其中参数a表示输出命令行选项、p表示PID以及s表示指定进程的父进程)。


#pstree -aps 3785
systemd,1 auto noprompt
  └─systemd,1894 --user
      └─gnome-terminal-,2416
         └─bash,3772
             └─bash,3782
                  └─python3,3783 manage.py runserver 0.0.0.0:8000 --insecure
                      └─python3,3785 manage.py runserver 0.0.0.0:8000 --insecure
                          └─{python3},3787


6CPU状态转换

CPU状态转换如图1所示。

         

image.png

             

1  CPU状态转换图

目录
相关文章
|
9天前
|
缓存 安全 Linux
Linux系统查看操作系统版本信息、CPU信息、模块信息
在Linux系统中,常用命令可帮助用户查看操作系统版本、CPU信息和模块信息
62 23
|
3月前
|
监控 异构计算
Jetson 学习笔记(八):htop查看CPU占用情况和jtop监控CPU和GPU
在NVIDIA Jetson平台上使用htop和jtop工具来监控CPU、GPU和内存的使用情况,并提供了安装和使用这些工具的具体命令。
306 0
|
26天前
|
Prometheus 监控 Cloud Native
Prometheus+Grafana监控Linux主机
通过本文的步骤,我们成功地在 Linux 主机上使用 Prometheus 和 Grafana 进行了监控配置。具体包括安装 Prometheus 和 Node Exporter,配置 Grafana 数据源,并导入预设的仪表盘来展示监控数据。通过这种方式,可以轻松实现对 Linux 主机的系统指标监控,帮助及时发现和处理潜在问题。
138 7
|
1月前
|
Prometheus 运维 监控
Prometheus+Grafana+NodeExporter:构建出色的Linux监控解决方案,让你的运维更轻松
本文介绍如何使用 Prometheus + Grafana + Node Exporter 搭建 Linux 主机监控系统。Prometheus 负责收集和存储指标数据,Grafana 用于可视化展示,Node Exporter 则采集主机的性能数据。通过 Docker 容器化部署,简化安装配置过程。完成安装后,配置 Prometheus 抓取节点数据,并在 Grafana 中添加数据源及导入仪表盘模板,实现对 Linux 主机的全面监控。整个过程简单易行,帮助运维人员轻松掌握系统状态。
224 3
|
5月前
|
监控 安全 Linux
在Linux中,zabbix如何监控脑裂?
在Linux中,zabbix如何监控脑裂?
|
5月前
|
缓存 监控 Linux
在Linux中,如何看当前系统有几颗物理CPU和每颗CPU的核数?
在Linux中,如何看当前系统有几颗物理CPU和每颗CPU的核数?
|
2月前
|
缓存 监控 Linux
|
2月前
|
缓存 Linux
揭秘Linux内核:探索CPU拓扑结构
【10月更文挑战第26天】
66 1
|
2月前
|
缓存 运维 Linux
深入探索Linux内核:CPU拓扑结构探测
【10月更文挑战第18天】在现代计算机系统中,CPU的拓扑结构对性能优化和资源管理至关重要。了解CPU的核心、线程、NUMA节点等信息,可以帮助开发者和系统管理员更好地调优应用程序和系统配置。本文将深入探讨如何在Linux内核中探测CPU拓扑结构,介绍相关工具和方法。
45 0
|
3月前
|
监控 安全 Linux
使用NRPE和Nagios监控Linux系统资源的方法
通过遵循以上步骤,可以有效地使用NRPE和Nagios监控Linux系统资源,确保系统运行稳定,并及时响应任何潜在的问题。这种方法提供了高度的可定制性和灵活性,适用于从小型环境到大型分布式系统的各种监控需求。
74 2