内核的功用:进程管理、内存管理、文件系统、网络功能、驱动程序、安全功能等。
1 程序
1.1 什么是程序?
- 是一组计算机能识别和执行的指令,运行于电子计算机上,满足人们某种需求的信息化工具。
- 用于描述进程要完成的功能,是控制进程执行的指令集。
- 保存在硬盘、光盘等介质中的可执行代码和数据。
- 静态保存的代码。
2 进程
2.1 什么是进程
运行中的程序的一个副本,是被载入内存的一个指令集合,是资源分配的单位。
- 在CPU及内存中运行的程序代码
- 动态执行的代码
- 进程ID(Process ID,PID)号码被用来标记各个进程
- UID、GID、和SELinux语境决定对文件系统的存取和访问权限
- 通常从执行进程的用户来继承
- 存在生命周期
- 都由其父进程创建
进程是已启动的可执行程序的运行实例,进程有以下组成部分:
- 已分配内存的地址空间;
- 安全属性,包括所有权凭据和特权;
- 有权限限制;
- 程序代码的一个或多个执行线程;
父进程与子进程:
父进程复制自己的地址空间(fork派生)创建一个新的(子)进程结构。
每个进程分配一个唯一的进程ID(PID),满足跟踪安全性之需。
任何进程都可以创建子进程。
所有进程都是第一个系统进程的后代。
2.2 进程具有的特征
- 动态性:进程是程序的一次执行过程,是临时的,有生命期的,是动态产生,动态消亡的;
- 并发性:任何进程都可以同其他进程一起并发执行;
- 独立性:进程是系统进行资源分配和调度的一个独立单位;
- 结构性:进程由程序、数据和进程控制块三部分组成。
2.3 僵尸进程
僵尸进程是当子进程比父进程先结束,而父进程又没有回收子进程,释放子进程占用的资源,此时子进程将成为一个僵尸进程。如果父进程先退出 ,子进程被init接管,子进程退出后init会回收其占用的相关资源。
在UNIX 系统中,一个进程结束了,但是他的父进程没有等待(调用wait / waitpid)他, 那么他将变成一个僵尸进程。 但是如果该进程的父进程已经先结束了,那么该进程就不会变成僵尸进程, 因为每个进程结束的时候,系统都会扫描当前系统中所运行的所有进程, 看有没有哪个进程是刚刚结束的这个进程的子进程,如果是的话,就由init 来接管他,成为他的父进程。
2.4 线程
线程(英语:thread)是操作系统能够进行运算调度的最小单位。它被包含在进程之中,是进程中的实际运作单位。一条线程指的是进程中一个单一顺序的控制流,一个进程中可以并发多个线程,每条线程并行执行不同的任务。
60年代,在OS中能拥有资源和独立运行的基本单位是进程,然而随着计算机技术的发展,进程出现了很多弊端,一是由于进程是资源拥有者,创建、撤消与切换存在较大的时空开销,因此需要引入轻型进程;二是由于对称多处理机(SMP)出现,可以满足多个运行单位,而多个进程并行开销过大。因此在80年代,出现了能独立运行的基本单位——线程(Threads)。
查看进程有几个线程,可以使用 "cat /proc/PID/status"查看。
3 查看进程
3.1 ps命令——静态查看进程
ps 命令是 Process Status 的缩写 ,可以查看进程当前状态的快照。查看静态的进程统计信息,即执行 ps 命令的那个时刻的进程快照。默认显示当前终端中的进程,Linux系统各进程的相关信息均保存在/proc/PID 目录下的各文件中。
ps命令支持三种语法格式:
- UNIX风格。选项可以组合在一起,并且选项前必须有 "-" 连字符 。如:ps -ef。
- GNU选项。选项前有两个 "-" 连字符 。如:ps --help。
- BSD选项。选项可以组合在一起,但是选项前不能有 "-" 连字符。如:ps aux。
ps [option]... 复制代码
常用选项
- a:显示当前终端下的所有进程信息,包括其他用户的进程。与“x”选项结合时将示系统中所有的进程信息。
- u:使用以用户为主的格式输出进程信息。
- x:显示当前用户在所有终端下的进程信息。
- -e:显示系统内的所有进程信息。
- -l:使用长(Long)格式显示进程信息。
- -f:使用完整的(Full)格式显示进程信
- k|--sort 属性:对属性排序,属性前加 - 表示降序排列。
举例说明:
- "ps aux" 可以查看系统中所有的进程;
- "ps -le" 可以查看系统中所有的进程,而且还能看到进程的父进程的 PID 和进程优先级;
- "ps -l" 只能看到当前 Shell 产生的进程。
3.1.1 ps aux
使用“ps aux”命令查看进程信息:
[root@localhost ~]# ps aux |head -5 USER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND root 1 0.0 0.2 125496 3988 ? Ss 17:06 0:01 /usr/lib/systemd/systemd --switched-root --system --deserialize 21 root 2 0.0 0.0 0 0 ? S 17:06 0:00 [kthreadd] root 3 0.0 0.0 0 0 ? S 17:06 0:01 [ksoftirqd/0] root 5 0.0 0.0 0 0 ? S< 17:06 0:00 [kworker/0:0H] 复制代码
进程信息共有11个字段,每个字段含义如下:
表头(列名) | 含义 |
USER | 该进程是由哪个用户产生的。 |
PID | 进程的 ID。 |
%CPU | 该进程占用 CPU 资源的百分比,占用的百分比越高,进程越耗费资源。 |
%MEM | 该进程占用物理内存的百分比,占用的百分比越高,进程越耗费资源。 |
VSZ | 该进程占用虚拟内存的大小,单位为 KB。 |
RSS | 该进程占用实际物理内存的大小,单位为 KB。 |
TTY | 该进程是在哪个终端运行的。 其中,tty1 ~ tty7 代表本地控制台终端(可以通过 Alt+F1 ~ F7 快捷键切换不同的终端),tty1~tty6 是本地的字符界面终端,tty7 是图形终端。 pts/0 ~ 255 代表虚拟终端,一般是远程连接的终端,第一个远程连接占用 pts/0,第二个远程连接占用 pts/1,依次増长。 |
STAT | 进程状态。常见的状态有以下几种: -D:不可被唤醒的睡眠状态,通常用于 I/O 情况。 -R:该进程正在运行。 -S:该进程处于睡眠状态,可被唤醒。 -T:停止状态,可能是在后台暂停或进程处于除错状态。 -W:内存交互状态(从 2.6 内核开始无效)。 -X:死掉的进程(应该不会出现)。 -Z:僵尸进程。进程已经中止,但是还是占用硬件资源。 -<:高优先级(以下状态在 BSD 格式中出现)。 -N:低优先级。 -L:被锁入内存。 -s:包含子进程。 -l:多线程(小写 L)。 -+:进程位于后台。 |
START | 该进程的启动时间。 |
TIME | 该进程占用 CPU 的运算时间,注意不是系统时间。 |
COMMAND | 产生此进程的命令名。 |
3.1.2 ps -le
使用“ps -le”命令查看进程信息:
[root@localhost ~]# ps -le|head -5 F S UID PID PPID C PRI NI ADDR SZ WCHAN TTY TIME CMD 4 S 0 1 0 0 80 0 - 31374 ep_pol ? 00:00:01 systemd 1 S 0 2 0 0 80 0 - 0 kthrea ? 00:00:00 kthreadd 1 S 0 3 2 0 80 0 - 0 smpboo ? 00:00:01 ksoftirqd/0 1 S 0 5 2 0 60 -20 - 0 worker ? 00:00:00 kworker/0:0H 复制代码
进程信息共有14个字段,每段含义如下:
表头(列名) | 含义 |
F | 进程标志,说明进程的权限,常见的标志有两个: 1:进程可以被复制,但是不能被执行; 4:进程使用超级用户权限; |
S | 进程状态。具体的状态和"psaux"命令中的 STAT 状态一致; |
UID | 运行此进程的用户的 ID; |
PID | 进程的 ID; |
PPID | 父进程的 ID; |
C | 该进程的 CPU 使用率,单位是百分比; |
PRI | 进程的优先级,数值越小,该进程的优先级越高,越早被 CPU 执行;系统定义不可以人为修改 |
NI | 进程的优先级,数值越小,该进程越早被执行;可以人为修改 |
ADDR | 该进程在内存的哪个位置; |
SZ | 该进程占用多大内存; |
WCHAN | 该进程是否运行。"-"代表正在运行; |
TTY | 该进程由哪个终端产生; |
TIME | 该进程占用 CPU 的运算时间,注意不是系统时间; |
CMD | 产生此进程的命令名; |
如果不想看到所有的进程,只想查看一下当前登录的终端产生了哪些进程,那只需使用 "ps -l" 命令就足够了。
3.1.3 自定义显示字段(查看进程的特定属性)
命令格式:
ps axo 列名,列名,列名... ps -eo 列名,列名,列名... 复制代码
示例:
1)查看进程的PID、PPID、%MEM、COMMAND四个属性
[root@localhost ~]# ps axo pid,ppid,%mem,command |head -5 PID PPID %MEM COMMAND 1 0 0.2 /usr/lib/systemd/systemd --switched-root --system --deserialize 21 2 0 0.0 [kthreadd] 3 2 0.0 [ksoftirqd/0] 5 2 0.0 [kworker/0:0H] 复制代码
2)查看进程的USER、PID、PPID、%CPU、COMMAND五个属性
[root@localhost ~]# ps -eo user,pid,ppid,%cpu,command |head -5 USER PID PPID %CPU COMMAND root 1 0 0.0 /usr/lib/systemd/systemd --switched-root --system --deserialize 21 root 2 0 0.0 [kthreadd] root 3 2 0.0 [ksoftirqd/0] root 5 2 0.0 [kworker/0:0H] 复制代码
3.1.4 进程排序
命令格式:
ps aux --sort=列名(或-列名) ps axo 列名,列名,列名... --sort=列名(或-列名) ps -eo 列名,列名,列名... --sort=列名(或-列名) #列名前加减号“-”,表示降序排列。不加减号,表示升序排列。 复制代码
示例:
1)按CPU占比升序排列,ps aux --sort=%cpu。
[root@localhost ~]# ps aux --sort=%cpu |head -5 USER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND root 1 0.0 0.2 125496 3988 ? Ss 17:06 0:01 /usr/lib/systemd/systemd --switched-root --system --deserialize 21 root 2 0.0 0.0 0 0 ? S 17:06 0:00 [kthreadd] root 3 0.0 0.0 0 0 ? S 17:06 0:01 [ksoftirqd/0] root 5 0.0 0.0 0 0 ? S< 17:06 0:00 [kworker/0:0H] 复制代码
2)按内存占比降序排列,ps aux --sort=-%mem。
[root@localhost ~]# ps aux --sort=-%mem |head -4 USER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND gdm 1579 0.0 6.2 1829132 116748 ? Sl 17:07 0:04 /usr/bin/gnome-shell gdm 1643 0.0 1.1 1230884 21948 ? Sl 17:07 0:00 /usr/libexec/gnome-settings-daemon root 1336 0.0 0.9 267920 16948 tty1 Ssl+ 17:07 0:00 /usr/bin/X :0 -background none -noreset -audit 4 -verbose -auth /run/gdm/auth-for-gdm-u0i80j/database -seat seat0 -nolisten tcp vt1 复制代码
3.2 top命令——动态查看进程
ps 命令可以一次性给出当前系统中进程状态,但使用此方式得到的信息缺乏时效性,并且,如果管理员需要实时监控进程运行情况,就必须不停地执行 ps 命令,这显然是缺乏效率的。
为此,Linux 提供了 top 命令。top 命令可以动态地持续监听进程地运行状态,与此同时,该命令还提供了一个交互界面,用户可以根据需要,人性化地定制自己的输出,进而更清楚地了进程的运行状态。
选项:
- -d 秒数:指定 top 命令每隔几秒更新。默认是 3 秒。
- -b:使用批次处理模式输出。一般和"-n"选项合用,用于把 top 命令重定向到文件中。
- -n 次数:指定 top 命令执行的次数。一般和"-"选项合用。
- -p 进程PID:仅查看指定 ID 的进程。
- -s:使 top 命令在安全模式中运行,避免在交互模式中出现错误。
- -u 用户名:只监听某个用户的进程。
在 top 命令的显示窗口中,可使用如下按键,进行交互操作:
- ? 或 h:显示交互模式的帮助。
- c:按照 CPU 的使用率排序,默认就是此选项。
- M:按照内存(memory)的使用率排序。
- N:按照 PID 排序。
- T:按照 CPU 的累积运算时间排序,也就是按照 TIME+ 项排序。
- k:按照 PID 给予某个进程一个信号。一般用于中止某个进程,信号 9 是强制中止的信号。
- r:按照 PID 给某个进程重设优先级(Nice)值。
- q:退出 top 命令。
- z:彩色显示
- F:通过光标设置字段是否展示,以及展示顺序。
示例:
[root@localhost ~]# top -d 10 //每10秒刷新一次 [root@localhost ~]# top -d 10 -n 5 //每10秒刷新一次,只执行5次,刷新5次后自动退出 [root@localhost ~]# top -p 655,1120 //查看PID为655和1120的进程 [root@localhost ~]# top -u nancy //查看nancy用户的进程 复制代码
3.2.1 top命令输出内容
top 命令的输出内容是动态的,默认每隔 3 秒刷新一次。
命令的输出主要分为两部分:
- 第一部分是前五行,显示的是整个系统的资源使用状况,我们就是通过这些输出来判断服务器的资源使用状态的。
- 第二部分从第六行开始,显示的是系统中进程的信息。
3.2.2 top命令输出内容——第一部分详解
第一部分是前五行,显示的是整个系统的资源使用状况。
top - 15:42:37 up 35 min, 2 users, load average: 0.28, 0.37, 0.30 Tasks: 169 total, 1 running, 168 sleeping, 0 stopped, 0 zombie %Cpu(s): 6.0 us, 9.4 sy, 0.0 ni, 84.6 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st KiB Mem : 1867024 total, 1243576 free, 255592 used, 367856 buff/cache KiB Swap: 4194300 total, 4194300 free, 0 used. 1423048 avail Mem 复制代码
1)第一行是任务队列信息,具体内容如表所示。top - 15:33:35 up 26 min, 2 users, load average: 0.48, 0.33, 0.22
内 容 | 说 明 |
15:33:35 | 系统当前时间 |
up 26 min | 系统的运行时间。本机己经运行 26分钟 |
2 users | 当前登录了两个用户 |
load average: 0.48, 0.33, 0.22 | 系统在之前 1 分钟、5 分钟、15 分钟的平均负载。如果 CPU 是单核的,则这个数值超过 1 就是高负载:如果 CPU 是四核的,则这个数值超过 4 就是高负载 (这个平均负载完全是依据个人经验来进行判断的,一般认为不应该超过服务器 CPU 的核数) |
2)第二行是进程信息,具体内容如表。
Tasks: 169 total, 1 running, 168 sleeping, 0 stopped, 0 zombie
内 容 | 说 明 |
Tasks: 169 total | 系统中的进程总数 |
1 running | 正在运行的进程数 |
168 sleeping | 睡眠的进程数 |
0 stopped | 停止(暂停)的进程数 |
0 zombie | 僵尸进程数。如果不是 0,则需要手工检查僵尸进程。 |
3)第三行是 CPU 信息,具体内容如表。
%Cpu(s): 6.0 us, 9.4 sy, 0.0 ni, 84.6 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
内 容 | 说 明 |
%Cpu(s): 6.0 us | 用户模式占用的 CPU 百分比 |
9.4 sy, | 系统模式占用的 CPU 百分比 |
0.0 ni | 改变过优先级的用户进程占用的 CPU 百分比 |
84.6 id | 空闲 CPU 占用的 CPU 百分比 |
0.0 wa | 等待输入/输出的进程占用的 CPU 百分比 |
0.0 hi | 硬中断请求服务占用的 CPU 百分比 |
0.0 si | 软中断请求服务占用的 CPU 百分比 |
0.0 st | st(steal time)意为虚拟时间百分比,就是当有虚拟机时,虚拟 CPU 等待实际 CPU 的时间百分比 |
4)第四行是物理内存信息,具体内容如表。
KiB Mem : 1867024 total, 1243576 free, 255592 used, 367856 buff/cache
内 容 | 说 明 |
KiB Mem : 1867024 total | 物理内存的总量,单位为KB |
1243576 free | 空闲的物理内存数量 |
255592 used | 已使用的物理内存数量 |
367856 buff/cache | 作为缓冲的内存数量 |
5)第五行是交换分区(swap)信息,具体内容如表。
KiB Swap: 4194300 total, 4194300 free, 0 used. 1423048 avail Mem
内 容 | 说 明 |
KiB Swap: 4194300 total | 交换分区(虚拟内存)的总大小,单位KB |
4194300 free | 空闲交换分区的大小 |
0 used. | 已使用的交换分区的大小 |
1423048 avail Mem | 可用于进程下一次分配的物理内存数量 |
根据第一部分判断服务器健康状况:
通过 top 命令的第一部分就可以判断服务器的健康状态。如果 1 分钟、5 分钟、15 分钟的平均负载高于 1,则证明系统压力较大。如果 CPU 的使用率过高或空闲率过低,则证明系统压力较大。如果物理内存的空闲内存过小,则也证明系统压力较大。
这时,我们就应该判断是什么进程占用了系统资源。如果是不必要的进程,就应该结束这些进程;如果是必需进程,那么我们该増加服务器资源(比如増加虚拟机内存),或者建立集群服务器。
缓冲(buffer)和缓存(cache)的区别:
- 缓存(cache)是在读取硬盘中的数据时,把最常用的数据保存在内存的缓存区中,再次读取该数据时,就不去硬盘中读取了,而在缓存中读取。
- 缓冲(buffer)是在向硬盘写入数据时,先把数据放入缓冲区,然后再一起向硬盘写入,把分散的写操作集中进行,减少磁盘碎片和硬盘的反复寻道,从而提高系统性能。
简单来说,缓存(cache)是用来加速数据从硬盘中"读取"的,而缓冲(buffer)是用来加速数据"写入"硬盘的。
3.2.3 top命令输出内容——第二部分详解
top 命令的第二部分输出,主要是系统进程信息,各个字段的含义如下:
表头(字段名) | 说明 |
PID | 进程的 ID号 |
USER | 该进程所属的用户 |
PR | priority优先级,数值越小 优先级越高 |
NI | nice优先级,数值越小 优先级越高 |
VIRT | 该进程使用的虚拟内存的大小,单位为 KB |
RES | 该进程使用的物理内存的大小,单位为 KB |
SHR | 共享内存大小,单位为 KB |
S | 进程状态 |
%CPU | 该进程占用 CPU 的百分比 |
%MEM | 该进程占用内存的百分比 |
TIME+ | 该进程总共占用的 CPU 时间 |
COMMAND | 进程的命令名(进程文件、进程名称) |
内存说明:
VIRT:virtual memory usage虚拟内存
- 进程需要的内存大小,但并没有占满。
- 假如进程新申请100MB的内存,但实际只使用了50MB,那么它会增长100MB,而不是实际的50MB使用量。
- VIRT = SWAP + RES
RES:resident memory usage常驻内存
- 进程当前使用的内存大小,不包括swap。
- 包含其他进程的共享内存。
- 如果申请100MB的内存,实际使用50MB,它只增长50MB,与VIRT相反。
- RES = CODE + DATA
SHR:shared memory 共享内存
- 除了自身进程的共享内存,也包括其他进程的共享内存。
- 计算某个进程所占的物理内存大小公式:RES – SHR
3.3 pgrep命令——查询进程的PID
根据特定条件查询进程的PID信息。
- -U:指定用户
- -l:显示进程名
- -a:显示完整格式的进程名
- -P < PID>:显示指定进程的子进程
示例:
[root@localhost ~]# pgrep -U nancy -l //查询nancy用户的进程PID,并显示进程名 21169 bash 21365 su [root@localhost ~]# pgrep "log" -l //查询进程名称中带有"log"的进程的PID,并显示进程名称 466 xfs-log/dm-0 655 xfs-log/sdb5 656 xfs-log/sda1 657 xfs-log/sdb1 738 xfs-log/dm-2 813 systemd-logind 817 rsyslogd 819 abrt-watch-log 820 abrt-watch-log [root@localhost ~]# pgrep -P 823 //查询PID为823的进程的子进程 846 复制代码
3.4 prtstat命令——查看指定的进程
命令格式:
prtstat [options] PID 复制代码
常用选项:
-r :格式显示(raw)
示例:
[root@localhost ~]# prtstat 1121 Process: sshd State: S (sleeping) CPU#: 0 TTY: 0:0 Threads: 1 Process, Group and Session IDs Process ID: 1121 Parent ID: 1 Group ID: 1121 Session ID: 1121 T Group ID: -1 Page Faults This Process (minor major): 1288 9 Child Processes (minor major): 0 0 CPU Times This Process (user system guest blkio): 0.01 0.02 0.00 0.34 Child processes (user system guest): 0.00 0.00 0.00 Memory Vsize: 108 MB RSS: 4182 kB RSS Limit: 18446744073709 MB Code Start: 0x55973c7bf000 Code Stop: 0x55973c886a24 Stack Start: 0x7ffdccc33580 Stack Pointer (ESP): 0x7ffdccc32b58 Inst Pointer (EIP): 0x7f1fd7de9783 Scheduling Policy: normal Nice: 0 RT Priority: 0 (non RT) 复制代码