运维:快速排查操作系统问题进程

简介: 运维:快速排查操作系统问题进程

我们的工作环境中,经常会出现各种各样的进程问题,而我们要做的就是快速发现问题、解决问题。

  • 我们常见的进程问题一般分为两类:对资源的使用过度和进程的状态问题
  • 资源使用过度一般为CPU、内存、IO以及文件句柄使用过度等。一般会影响业务的稳定运行,或造成其他服务进程出现问题
  • 进程状态问题一般常见的为僵尸进程和不可中断的睡眠状态,这些会导致业务服务出现问题
  • 列举一些常见的进程问题:

2021030523411897.png

  • 对于这些常见问题,我们可以通过以下这些命令进行分析
  • (对于这些命令的具体选项参数还请自行查找一下)
top:实时显示系统中各个进程的资源占用状态
ps:显示瞬间进程的状态
strace:跟踪进程的系统调用
lsof:列出某个程序进程所打开的文件信息
free:用来查看系统可用内存
iostat:动态监视系统磁盘操作活动
vmstat:实时动态监控操作系统的虚拟内存、进程、cpu活动
ldd:用来查看程序运行所需的共享库

问题进程排查方式

针对CPU资源使用情况排查

  • 输入top命令可以列出进程的资源使用情况,按住shift+p就可以按照CPU使用率的大小排序,可以直观的看到每个进程占用的CPU使用率
top

20210305235656757.png

把瞬间的系统进程状态提取出来

  • 我们按照CPU的使用率,按由大到小大的顺序提取前十的进程
  • 这样我们可以通过COMMAND看到使用cpu最多的十个进程
ps -aux --sort=-%cpu|head -n 10
[root@centos7 ~]# ps -aux --sort=-%cpu|head -n 10
USER        PID %CPU %MEM    VSZ   RSS TTY      STAT START   TIME COMMAND
root        953  0.2  0.2 273196  4876 ?        Ssl  3月05   0:14 /usr/bin/vmtoolsd
root       1959  0.2  0.0      0     0 ?        S    00:08   0:00 [kworker/0:3]
root        415  0.1  0.0      0     0 ?        S    3月05   0:07 [xfsaild/dm-0]
root       1910  0.1  0.0      0     0 ?        S    3月05   0:01 [kworker/0:1]
root       1937  0.1  0.0      0     0 ?        S    00:00   0:01 [kworker/0:2]
root          1  0.0  0.2 125768  4260 ?        Ss   3月05   0:03 /usr/lib/systemd/systemd --switched-root --system --deserialize 22
root          2  0.0  0.0      0     0 ?        S    3月05   0:00 [kthreadd]
root          4  0.0  0.0      0     0 ?        S<   3月05   0:00 [kworker/0:0H]
root          6  0.0  0.0      0     0 ?        S    3月05   0:00 [ksoftirqd/0]

查找进程使用内存资源过多

  • 依然是使用top命令,按Shift+m就是按照内存的方式排序
  • ps命令也是一样,把-%cpu换成-%MEM即可

20210306001603406.png

  • 磁盘IO分析
  • 使用iostat命令查看
  • 没有安装的话yum -y install sysstat命令安装
iostat 2 1
[root@centos7 ~]# iostat 2 1
Linux 3.10.0-1160.el7.x86_64 (centos7)  2021年03月06日   _x86_64_  (2 CPU)
avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           0.10    0.00    0.25    0.02    0.00   99.63
Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
sda               1.00        19.20         2.40     106015      13243
scd0              0.00         0.19         0.00       1028          0
dm-0              0.67        17.03         2.03      94054      11195
dm-1              0.02         0.40         0.00       2204          0
  • 两个参数:2代表刷新的频率,1代表总共的次数
  • KB_read/s代表读;KB_wrtn/s代表写
  • 加上-x选项可以更清楚的看清当前磁盘的负荷状态
  • 如果想更具体的了解进程使用IO的情况,可以使用iotop命令
  • 注意:这个命令可能是占用较大的系统性能

    进程占用文件描述符问题
  • 首先我们可以查看系统允许所有进程打开文件句柄的总数,这个数值代表系统上所有进程允许打开的最大fd数量
[root@centos7 ~]# cat /proc/sys/fs/file-max 
190603
  • 有时还需要查看当前所有进程打开和允许打开的fd数量
[root@centos7 fs]# cat /proc/sys/fs/file-nr 
1152  0 190603
  • 我们还可以精确到某个进程允许打开的fd数量,因为系统除了对总数量有限制外,还对单进程也有限制
[root@centos7 ~]# ulimit -n
1024
  • 我们想了解某进程当前打开了哪些fd
ll /rpoc/{pid}/fd
  • 输入想了解进程的pid号,如果内容多可以加wc进行统计
  • 如果进程打开的文件句柄过多,超过系统限制,就可能导致进程或服务出现影响,需要排查和调整

僵尸进程

  • 子进程exit()后,并非马上消失。而是留下一个(Zombie)的数据结构等待父进程处理。如果子进程exit()后,父进程没来得及处理,这个时候子进程的状态是Z
  • 可以通过top来查看当前系统的僵尸进程

2021030611490555.png

  • 也可以通过ps+grep这个组合来查看
ps -e -o ppid,stat | grep Z


  • 发现就杀死它,通过下面这条命令发现并杀死僵尸进程
ps -e -o ppid,stat | grep Z | cut -d "" -f2 | xargs kill -9

进程不可中断睡眠状态

  • 可中断的睡眠状态一般以“S”表示,不可中断的一般以“D”表示
  • 一般这种情况,就是没事的时候重启下系统吧
以上内容都是我买的一个小课里的,只有命令总结,没写描述性的文字,所有可能有的地方不是很清晰,见谅。
嘿嘿。应该不会有什么侵权什么的吧?是吧?是吧?


相关实践学习
CentOS 7迁移Anolis OS 7
龙蜥操作系统Anolis OS的体验。Anolis OS 7生态上和依赖管理上保持跟CentOS 7.x兼容,一键式迁移脚本centos2anolis.py。本文为您介绍如何通过AOMS迁移工具实现CentOS 7.x到Anolis OS 7的迁移。
目录
相关文章
|
20天前
|
算法 Linux 调度
深入理解Linux操作系统的进程管理
本文旨在探讨Linux操作系统中的进程管理机制,包括进程的创建、执行、调度和终止等环节。通过对Linux内核中相关模块的分析,揭示其高效的进程管理策略,为开发者提供优化程序性能和资源利用率的参考。
45 1
|
29天前
|
算法 调度 Python
深入理解操作系统中的进程调度算法
在操作系统中,进程调度是核心任务之一,它决定了哪个进程将获得CPU的使用权。本文通过浅显易懂的语言和生动的比喻,带领读者了解进程调度算法的重要性及其工作原理,同时提供代码示例帮助理解。
|
24天前
|
调度 开发者 Python
深入浅出操作系统:进程与线程的奥秘
在数字世界的底层,操作系统扮演着不可或缺的角色。它如同一位高效的管家,协调和控制着计算机硬件与软件资源。本文将拨开迷雾,深入探索操作系统中两个核心概念——进程与线程。我们将从它们的诞生谈起,逐步剖析它们的本质、区别以及如何影响我们日常使用的应用程序性能。通过简单的比喻,我们将理解这些看似抽象的概念,并学会如何在编程实践中高效利用进程与线程。准备好跟随我一起,揭开操作系统的神秘面纱,让我们的代码运行得更加流畅吧!
|
10天前
|
运维 监控 Ubuntu
【运维】如何在Ubuntu中设置一个内存守护进程来确保内存不会溢出
通过设置内存守护进程,可以有效监控和管理系统内存使用情况,防止内存溢出带来的系统崩溃和服务中断。本文介绍了如何在Ubuntu中编写和配置内存守护脚本,并将其设置为systemd服务。通过这种方式,可以在内存使用超过设定阈值时自动采取措施,确保系统稳定运行。
27 4
|
22天前
|
C语言 开发者 内存技术
探索操作系统核心:从进程管理到内存分配
本文将深入探讨操作系统的两大核心功能——进程管理和内存分配。通过直观的代码示例,我们将了解如何在操作系统中实现这些基本功能,以及它们如何影响系统性能和稳定性。文章旨在为读者提供一个清晰的操作系统内部工作机制视角,同时强调理解和掌握这些概念对于任何软件开发人员的重要性。
|
21天前
|
Linux 调度 C语言
深入理解操作系统:从进程管理到内存优化
本文旨在为读者提供一次深入浅出的操作系统之旅,从进程管理的基本概念出发,逐步探索到内存管理的高级技巧。我们将通过实际代码示例,揭示操作系统如何高效地调度和优化资源,确保系统稳定运行。无论你是初学者还是有一定基础的开发者,这篇文章都将为你打开一扇了解操作系统深层工作原理的大门。
|
22天前
|
存储 算法 调度
深入理解操作系统:进程调度的奥秘
在数字世界的心脏跳动着的是操作系统,它如同一个无形的指挥官,协调着每一个程序和进程。本文将揭开操作系统中进程调度的神秘面纱,带你领略时间片轮转、优先级调度等策略背后的智慧。从理论到实践,我们将一起探索如何通过代码示例来模拟简单的进程调度,从而更深刻地理解这一核心机制。准备好跟随我的步伐,一起走进操作系统的世界吧!
|
22天前
|
算法 调度 开发者
深入理解操作系统:进程与线程的管理
在数字世界的复杂编织中,操作系统如同一位精明的指挥家,协调着每一个音符的奏响。本篇文章将带领读者穿越操作系统的幕后,探索进程与线程管理的奥秘。从进程的诞生到线程的舞蹈,我们将一起见证这场微观世界的华丽变奏。通过深入浅出的解释和生动的比喻,本文旨在揭示操作系统如何高效地处理多任务,确保系统的稳定性和效率。让我们一起跟随代码的步伐,走进操作系统的内心世界。
|
23天前
|
运维 监控 Linux
Linux操作系统的守护进程与服务管理深度剖析####
本文作为一篇技术性文章,旨在深入探讨Linux操作系统中守护进程与服务管理的机制、工具及实践策略。不同于传统的摘要概述,本文将以“守护进程的生命周期”为核心线索,串联起Linux服务管理的各个方面,从守护进程的定义与特性出发,逐步深入到Systemd的工作原理、服务单元文件编写、服务状态管理以及故障排查技巧,为读者呈现一幅Linux服务管理的全景图。 ####
|
26天前
|
算法 Linux 调度
深入浅出操作系统的进程管理
本文通过浅显易懂的语言,向读者介绍了操作系统中一个核心概念——进程管理。我们将从进程的定义出发,逐步深入到进程的创建、调度、同步以及终止等关键环节,并穿插代码示例来直观展示进程管理的实现。文章旨在帮助初学者构建起对操作系统进程管理机制的初步认识,同时为有一定基础的读者提供温故知新的契机。

热门文章

最新文章