我们的工作环境中,经常会出现各种各样的进程问题,而我们要做的就是快速发现问题、解决问题。
- 我们常见的进程问题一般分为两类:对资源的使用过度和进程的状态问题
- 资源使用过度一般为CPU、内存、IO以及文件句柄使用过度等。一般会影响业务的稳定运行,或造成其他服务进程出现问题
- 进程状态问题一般常见的为僵尸进程和不可中断的睡眠状态,这些会导致业务服务出现问题
- 列举一些常见的进程问题:
- 对于这些常见问题,我们可以通过以下这些命令进行分析
- (对于这些命令的具体选项参数还请自行查找一下)
top:实时显示系统中各个进程的资源占用状态 ps:显示瞬间进程的状态 strace:跟踪进程的系统调用 lsof:列出某个程序进程所打开的文件信息 free:用来查看系统可用内存 iostat:动态监视系统磁盘操作活动 vmstat:实时动态监控操作系统的虚拟内存、进程、cpu活动 ldd:用来查看程序运行所需的共享库
问题进程排查方式
针对CPU资源使用情况排查
- 输入
top
命令可以列出进程的资源使用情况,按住shift+p
就可以按照CPU使用率的大小排序,可以直观的看到每个进程占用的CPU使用率
top
把瞬间的系统进程状态提取出来
- 我们按照CPU的使用率,按由大到小大的顺序提取前十的进程
- 这样我们可以通过COMMAND看到使用cpu最多的十个进程
ps -aux --sort=-%cpu|head -n 10
[root@centos7 ~]# ps -aux --sort=-%cpu|head -n 10 USER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND root 953 0.2 0.2 273196 4876 ? Ssl 3月05 0:14 /usr/bin/vmtoolsd root 1959 0.2 0.0 0 0 ? S 00:08 0:00 [kworker/0:3] root 415 0.1 0.0 0 0 ? S 3月05 0:07 [xfsaild/dm-0] root 1910 0.1 0.0 0 0 ? S 3月05 0:01 [kworker/0:1] root 1937 0.1 0.0 0 0 ? S 00:00 0:01 [kworker/0:2] root 1 0.0 0.2 125768 4260 ? Ss 3月05 0:03 /usr/lib/systemd/systemd --switched-root --system --deserialize 22 root 2 0.0 0.0 0 0 ? S 3月05 0:00 [kthreadd] root 4 0.0 0.0 0 0 ? S< 3月05 0:00 [kworker/0:0H] root 6 0.0 0.0 0 0 ? S 3月05 0:00 [ksoftirqd/0]
查找进程使用内存资源过多
- 依然是使用
top
命令,按Shift+m
就是按照内存的方式排序 ps
命令也是一样,把-%cpu换成-%MEM即可
- 磁盘IO分析
- 使用
iostat
命令查看 - 没有安装的话
yum -y install sysstat
命令安装
iostat 2 1
[root@centos7 ~]# iostat 2 1 Linux 3.10.0-1160.el7.x86_64 (centos7) 2021年03月06日 _x86_64_ (2 CPU) avg-cpu: %user %nice %system %iowait %steal %idle 0.10 0.00 0.25 0.02 0.00 99.63 Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn sda 1.00 19.20 2.40 106015 13243 scd0 0.00 0.19 0.00 1028 0 dm-0 0.67 17.03 2.03 94054 11195 dm-1 0.02 0.40 0.00 2204 0
- 两个参数:2代表刷新的频率,1代表总共的次数
- KB_read/s代表读;KB_wrtn/s代表写
- 加上-x选项可以更清楚的看清当前磁盘的负荷状态
- 如果想更具体的了解进程使用IO的情况,可以使用
iotop
命令 - 注意:这个命令可能是占用较大的系统性能
进程占用文件描述符问题 - 首先我们可以查看系统允许所有进程打开文件句柄的总数,这个数值代表系统上所有进程允许打开的最大fd数量
[root@centos7 ~]# cat /proc/sys/fs/file-max 190603
- 有时还需要查看当前所有进程打开和允许打开的fd数量
[root@centos7 fs]# cat /proc/sys/fs/file-nr 1152 0 190603
- 我们还可以精确到某个进程允许打开的fd数量,因为系统除了对总数量有限制外,还对单进程也有限制
[root@centos7 ~]# ulimit -n 1024
- 我们想了解某进程当前打开了哪些fd
ll /rpoc/{pid}/fd
- 输入想了解进程的pid号,如果内容多可以加
wc
进行统计 - 如果进程打开的文件句柄过多,超过系统限制,就可能导致进程或服务出现影响,需要排查和调整
僵尸进程
- 子进程exit()后,并非马上消失。而是留下一个(Zombie)的数据结构等待父进程处理。如果子进程exit()后,父进程没来得及处理,这个时候子进程的状态是Z
- 可以通过
top
来查看当前系统的僵尸进程
- 也可以通过ps+grep这个组合来查看
ps -e -o ppid,stat | grep Z
- 发现就杀死它,通过下面这条命令发现并杀死僵尸进程
ps -e -o ppid,stat | grep Z | cut -d "" -f2 | xargs kill -9
进程不可中断睡眠状态
- 可中断的睡眠状态一般以“S”表示,不可中断的一般以“D”表示
- 一般这种情况,就是没事的时候重启下系统吧
以上内容都是我买的一个小课里的,只有命令总结,没写描述性的文字,所有可能有的地方不是很清晰,见谅。 嘿嘿。应该不会有什么侵权什么的吧?是吧?是吧?