全栈软件测试工程师宝典连载(8)(上)

简介: 全栈软件测试工程师宝典连载(8)(上)

3.2.2 Linux的性能监控


本节以Ubuntu Linux为例进行介绍。


1. CPU

1uptime命令
#uptime
08:26am up   7 min,  2 users, load average: 0.17, 0.16, 0.12


08:26am

当前时间是08:26am

up 7 min

已经启动了7分钟。

2 users

当前有2个用户登录。

load average0.17, 0.16, 0.12


最近1分钟、5分钟和15分钟的平均负载为0.170.160.12

负载为1表示当前单核CPU全部占用,如果一台机器有3CPU,每个CPU都是双核的,这是负载最大值为1×2×3=6。如果5分钟以及15分钟的负载指标的大于CPU个数×CPU核数×0.7,并且长时间比较高,说明CPU不够用。


总核数 = 物理CPU个数×每颗物理CPU的核数。

总逻辑CPU = 物理CPU个数×每颗物理CPU的核数×超线程数。

通过以下命令可以查看CPU个数、每个物理CPUcore的核数、逻辑CPU的个数和CPU信息(型号)。

查看物理CPU个数。

#cat /proc/cpuinfo| grep "physicalid"| sort| uniq| wc -l
2


2查看每个物理CPUcore的核数。

#cat /proc/cpuinfo| grep "cpu cores"|uniq
cpu cores: 2


查看逻辑CPU的个数。

#cat /proc/cpuinfo| grep "processor"|wc -l
4


4查看CPU信息(型号)。

#cat /proc/cpuinfo | grep name | cut -f2 -d: |uniq -c
4  Intel(R) Core(TM) i5-6200U CPU@ 2.30GHz


案例3-11CPU负载分析

Load average: 0.5,0.5,0.5

表示最近15分钟内CPU负载没有变化。

Load average: 0.5,2,5

表示最近15分钟内CPU负载逐渐变小。

Load average: 5,2,0.5

表示最近15分钟内CPU负载逐渐变大。


2top命令
#top
top - 18:00:48 up 4 min,  1 user, load average: 0.88, 0.57, 0.26
Tasks: 343 total,   1 running, 229 sleeping,   0 stopped,  0 zombie
%Cpu(s): 2.6 us,  4.2 sy,  0.0 ni, 93.1 id,  0.0 wa, 0.0 hi,  0.2 si,  0.0 st
KiB Mem : 4312632 total,  1931028 free,  1392792 used,   988812 buff/cache
KiB Swap:  969960 total,   969960 free,        0 used. 2657976 avail Mem
PID USER     PR  NI    VIRT   RES    SHR S  %CPU %MEM    TIME+ COMMAND
2179 jerry    20   0 3647552 177412  79692 S 14.2  4.1   0:10.86 gnome-shell
2049 jerry    20   0  474988 101148 47332 S   6.0  2.3  0:04.23
2531 jerry    20   0  800760 37440  27580 S   2.3 0.9   0:01.31 gnome-terminal-
2013 _apt     20   0   88940  8816   7840 S   1.7 0.2   0:02.26 http


可以按下键盘上的【1】键切换到显示各颗CPU的状态。

top - 18:32:05 up 29 min,  1 user, load average: 0.91, 0.35, 0.13
Tasks: 304 total,   1 running, 225 sleeping,   0 stopped,  0 zombie
%Cpu0 :  2.0 us,  3.7 sy, 0.0 ni, 94.3 id,  0.0 wa,  0.0 hi, 0.0 si,  0.0 st
%Cpu1 :  0.7 us,  0.7 sy, 0.0 ni, 98.7 id,  0.0 wa,  0.0 hi, 0.0 si,  0.0 st
%Cpu2 :  0.3 us,  0.3 sy, 0.0 ni, 99.3 id,  0.0 wa,  0.0 hi, 0.0 si,  0.0 st
%Cpu3 :  0.3 us,  2.0 sy, 0.0 ni, 97.6 id,  0.0 wa,  0.0 hi, 0.0 si,  0.0 st


这里的CPU颗数为4。可以看出第一行的内容就是uptime命令的内容。


top - 18:00:48 up 4 min,  1 user, load average: 0.88, 0.57, 0.26


表示当前时间为18:00:48,持续运行了4分钟,当前有1个用户登录,最近1分钟、5分钟和15分钟的平均负载为0.88,0.570.26


top命令第二行显示的是各个CPU状态的进程数。


Tasks: 343 total,   1 running, 229 sleeping,   0 stopped,  0 zombie


上面显示结果表示当前共有现在共有343个进程,1个处于运行状态,229个处于睡眠状态,停止状态和僵尸状态的进程都为0。对于各个状态,如表3-4所示。


3-4 CPU状态

标号

中文名

英文名

解释

D

不可中断的睡眠态

uninterruptible  sleep

进程正在跟硬件交互,并且交互过程不允许被其他进程或中断打断。通常出现在I/O阻塞

R

运行态

running or  runnable

表示进程在 CPU 的就绪队列中,正在运行或者正在等待运行。

S

可中断的睡眠态

Interruptible  sleep

进程因为等待某个事件而被系统挂起。当进程等待的事件发生时,它会被唤醒并进入 R 状态。

T

被跟踪或已停止

stooped

表示进程处于暂停或者跟踪状态(命令行调试)

Z

僵尸态

zombie

进程实际上已经结束了,但是父进程还没有回收它的资源(比如进程的描述符、PID 等)。

I

空闲状态

Idle

也就是空闲状态,用在不可中断睡眠的内核线程上。D 状态的进程会导致平均负载升高, I 状态的进程却不会。

X

死亡状态

dead

TopPS命令获取不到


top命令第三行表示CPU概览:%Cpu(s)表示CPU使用百分比,按照时间占用计算,单位s。其含义如表3-5所示。


3-5 CPU概览

标记

缩写

含义

user

%us

代表用户态 CPU 时间。注意,它不包括下面的 nice 时间,但包括了 guest 时间。

system

%sy

代表内核态 CPU 时间。

nice

%ni

代表低优先级用户态 CPU 时间,也就是进程的 nice 值被调整为 1-19 之间时的  CPU 时间。这里注意,nice 可取值范围是 -20 19,数值越大,优先级反而越低。

idle

%id

代表空闲时间。注意,它不包括等待 I/O 的时间(iowait)。

iowait

%wa

代表等待  I/O CPU 时间。

irq

%hi

代表处理硬中断的 CPU 时间。

softirq

%si

代表处理软中断的 CPU 时间。

steal

%st

虚拟 CPU 等待实际 CPU  的时间的百分比

guest


代表通过虚拟化运行其他操作系统的时间,也就是运行虚拟机的 CPU 时间。

guest_nice

gnice

代表以低优先级运行虚拟机的时间。



%Cpu(s): 2.6 us,  4.2 sy,  0.0 ni, 93.1 id,  0.0 wa, 0.0 hi,  0.2 si,  0.0 st


上面显示结果表示2.6%占有用户态 CPU 时间、4.2%占有内核态 CPU 时间,93.1%是空闲时间,处理软中断的占0.2%


3)平均负载和CPU使用率

CPU 使用率,是单位时间内CPU繁忙情况的统计,和平均负载并不一定完全对应。


CPU 密集型进程。

使用大量CPU会导致平均负载升高,平均负载和CPU使用率是一致的。

I/O 密集型进程。

等待I/O也会导致平均负载升高,但CPU使用率不一定很高。

平均负载是指单位时间内,系统处于可运行状态的R状态进程数+不可中断状态的D 状态(Disk Sleep)进程数之。而处于可运行状态R状态的进程又包括正在使用 CPU进程和正在等待CPU的进程,不可中断状态的D 状态(Disk Sleep)进程即正处于等待I/O的进程。


4)不可中断的睡眠态进程

不可中断的睡眠态的进程一般均为在运行过程中需要I/O提供数据。处于等待I/O状态的进程,由于这种是不可被打断的并且又处于睡眠态,所以叫做不可中断的睡眠态。如果系统中不可中断的睡眠态的进程比较多,可以确认系统在I/O上遇到了瓶颈。而这些I/O往往是磁盘I/O。由于与磁盘读写有关系,建议使用dstat 命令(同时看见CPUI/O信息)来分析。


#dstat 10 1
You did not select any stats, using -cdngy bydefault.
--total-cpu-usage-- -dsk/total- -net/total----paging-- ---system--
usr sys idl wai stl| read  writ | recv send     |  in  out | int   csw
1   1  99   0    0 | 9232k 470k|   0     0      |   0     0  | 129   192


从上面可以看见有9232K的数据处于磁盘读操作,性能低的瓶颈可能有进程在读磁盘。



一般而言直接读写磁盘,对 I/O 敏感型应用(比如数据库系统)是很友好的,因为可以在应用中,直接控制磁盘的读写。但在这种情况是非常消耗CPU资源的,最好还是通过系统缓存来优化磁盘 I/O的读写,换句话说,删除O_DIRECT 这个选项就可以了。下面代码就是直接读写磁盘。


open(disk, O_RDONLY|O_DIRECT|O_LARGEFILE, 0755)


5)僵尸进程

现在来介绍一下僵尸进程,僵尸进程是由于父进程建立子进程以后没有及时回收造成的。看一下正常父进程创建子进程,子进程结束后父进程收回的流程。


1)父进程创建子进程。

2)父进程调用wait()或者waitpid()等待子进程结束。

3)子进程结束向父进程发送SIGCHLD 信号。

4)父进程收到SIGCHLD 信号后注册SIGCHLD信号的处理函数。

5)父进程异步回收子进程的资源。


如果父进程在创建子进程后没有调用wait()或者waitpid()等待子进程结束或者子进程结束后没有给父进程发SIGCHLD 信号就造成僵尸进程,如下代码。

int status = 0;
for (;;){
for(int sign = 0; sign < 5; sign ++) {
if(f()==0) {
       sub_process();
      }
    }
sleep(3);
  }
while(wait(&status)>0);


这段代码while语句放在了循环外面,这样wait()方法没有时机被调用,所以容易产生僵尸进程。在调试的时候可以使用pstree-aps  查看下的所有子进程(其中参数a表示输出命令行选项、p表示PID以及s表示指定进程的父进程)。

#pstree -aps 3785
systemd,1 auto noprompt
  └─systemd,1894 --user
      └─gnome-terminal-,2416
          └─bash,3772
             └─bash,3782
                 └─python3,3783 manage.py runserver 0.0.0.0:8000 --insecure
                      └─python3,3785 manage.py runserver 0.0.0.0:8000 --insecure
                          └─{python3},3787


6CPU状态转换

CPU状态转换如图3-18所示。

 

image.png

3-18  CPU状态转换图

目录
相关文章
|
1月前
|
机器学习/深度学习 人工智能 算法
新时代软件测试工程师的挑战与机遇
随着科技的飞速发展,软件测试在当今信息化社会中扮演着举足轻重的角色。本文将探讨新时代软件测试工程师所面临的挑战和机遇,分析其发展趋势及应对策略,旨在为广大软件测试从业人员提供启示和指导。
|
7月前
|
测试技术 数据库
腾讯游戏测试工程师的经验心得分享
腾讯游戏测试工程师的经验心得分享
287 0
|
7月前
|
测试技术
华为测试工程师面试必备的问题点
华为测试工程师面试必备的问题点
79 0
|
18天前
|
安全 应用服务中间件 网络安全
渗透测试工程师面试题大全
渗透测试工程师面试题大全
|
7月前
|
Kubernetes 测试技术 应用服务中间件
新来的性能测试工程师工资25K,看了他做的性能测试,我砌底服了
新来的性能测试工程师工资25K,看了他做的性能测试,我砌底服了
|
3月前
|
测试技术
软件测试工程师日常工作中需要拒绝哪些工作?
软件测试工程师日常工作中需要拒绝哪些工作?
|
8月前
|
安全 搜索推荐 测试技术
【实测】用chatGPT来完整的走一次测试流程吧,看看它到底相当于我们什么等级的工程师?
【实测】用chatGPT来完整的走一次测试流程吧,看看它到底相当于我们什么等级的工程师?
|
5月前
|
消息中间件 安全 NoSQL
测试工程师如何帮助开发域的质量变好
测试工程师如何帮助开发域的质量变好
59 0
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
软件测试|人工智能如何帮助测试工程师解决问题?
软件测试|人工智能如何帮助测试工程师解决问题?
89 0
|
10月前
|
云安全 存储 运维
如何成为一名专业云渗透测试工程师
从宏观层面来看,新基建成为中国经济热词,政府和企业业务上云全面提速,随着云计算技术的快速发展,云安全问题已成为重点关注的领域。但从安全角度来看,这也意味着安全态势变得更加复杂,安全的范畴也变得更加广泛,漏洞存在于每个地方、攻击可以由世界任何一个地方发起,对于网络安全的准确预测成为保障安全的关键前提。

热门文章

最新文章