运维:快速排查操作系统问题进程

简介: 运维:快速排查操作系统问题进程

我们的工作环境中,经常会出现各种各样的进程问题,而我们要做的就是快速发现问题、解决问题。

  • 我们常见的进程问题一般分为两类:对资源的使用过度和进程的状态问题
  • 资源使用过度一般为CPU、内存、IO以及文件句柄使用过度等。一般会影响业务的稳定运行,或造成其他服务进程出现问题
  • 进程状态问题一般常见的为僵尸进程和不可中断的睡眠状态,这些会导致业务服务出现问题
  • 列举一些常见的进程问题:

2021030523411897.png

  • 对于这些常见问题,我们可以通过以下这些命令进行分析
  • (对于这些命令的具体选项参数还请自行查找一下)
top:实时显示系统中各个进程的资源占用状态
ps:显示瞬间进程的状态
strace:跟踪进程的系统调用
lsof:列出某个程序进程所打开的文件信息
free:用来查看系统可用内存
iostat:动态监视系统磁盘操作活动
vmstat:实时动态监控操作系统的虚拟内存、进程、cpu活动
ldd:用来查看程序运行所需的共享库

问题进程排查方式

针对CPU资源使用情况排查

  • 输入top命令可以列出进程的资源使用情况,按住shift+p就可以按照CPU使用率的大小排序,可以直观的看到每个进程占用的CPU使用率
top

20210305235656757.png

把瞬间的系统进程状态提取出来

  • 我们按照CPU的使用率,按由大到小大的顺序提取前十的进程
  • 这样我们可以通过COMMAND看到使用cpu最多的十个进程
ps -aux --sort=-%cpu|head -n 10
[root@centos7 ~]# ps -aux --sort=-%cpu|head -n 10
USER        PID %CPU %MEM    VSZ   RSS TTY      STAT START   TIME COMMAND
root        953  0.2  0.2 273196  4876 ?        Ssl  3月05   0:14 /usr/bin/vmtoolsd
root       1959  0.2  0.0      0     0 ?        S    00:08   0:00 [kworker/0:3]
root        415  0.1  0.0      0     0 ?        S    3月05   0:07 [xfsaild/dm-0]
root       1910  0.1  0.0      0     0 ?        S    3月05   0:01 [kworker/0:1]
root       1937  0.1  0.0      0     0 ?        S    00:00   0:01 [kworker/0:2]
root          1  0.0  0.2 125768  4260 ?        Ss   3月05   0:03 /usr/lib/systemd/systemd --switched-root --system --deserialize 22
root          2  0.0  0.0      0     0 ?        S    3月05   0:00 [kthreadd]
root          4  0.0  0.0      0     0 ?        S<   3月05   0:00 [kworker/0:0H]
root          6  0.0  0.0      0     0 ?        S    3月05   0:00 [ksoftirqd/0]

查找进程使用内存资源过多

  • 依然是使用top命令,按Shift+m就是按照内存的方式排序
  • ps命令也是一样,把-%cpu换成-%MEM即可

20210306001603406.png

  • 磁盘IO分析
  • 使用iostat命令查看
  • 没有安装的话yum -y install sysstat命令安装
iostat 2 1
[root@centos7 ~]# iostat 2 1
Linux 3.10.0-1160.el7.x86_64 (centos7)  2021年03月06日   _x86_64_  (2 CPU)
avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           0.10    0.00    0.25    0.02    0.00   99.63
Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
sda               1.00        19.20         2.40     106015      13243
scd0              0.00         0.19         0.00       1028          0
dm-0              0.67        17.03         2.03      94054      11195
dm-1              0.02         0.40         0.00       2204          0
  • 两个参数:2代表刷新的频率,1代表总共的次数
  • KB_read/s代表读;KB_wrtn/s代表写
  • 加上-x选项可以更清楚的看清当前磁盘的负荷状态
  • 如果想更具体的了解进程使用IO的情况,可以使用iotop命令
  • 注意:这个命令可能是占用较大的系统性能

    进程占用文件描述符问题
  • 首先我们可以查看系统允许所有进程打开文件句柄的总数,这个数值代表系统上所有进程允许打开的最大fd数量
[root@centos7 ~]# cat /proc/sys/fs/file-max 
190603
  • 有时还需要查看当前所有进程打开和允许打开的fd数量
[root@centos7 fs]# cat /proc/sys/fs/file-nr 
1152  0 190603
  • 我们还可以精确到某个进程允许打开的fd数量,因为系统除了对总数量有限制外,还对单进程也有限制
[root@centos7 ~]# ulimit -n
1024
  • 我们想了解某进程当前打开了哪些fd
ll /rpoc/{pid}/fd
  • 输入想了解进程的pid号,如果内容多可以加wc进行统计
  • 如果进程打开的文件句柄过多,超过系统限制,就可能导致进程或服务出现影响,需要排查和调整

僵尸进程

  • 子进程exit()后,并非马上消失。而是留下一个(Zombie)的数据结构等待父进程处理。如果子进程exit()后,父进程没来得及处理,这个时候子进程的状态是Z
  • 可以通过top来查看当前系统的僵尸进程

2021030611490555.png

  • 也可以通过ps+grep这个组合来查看
ps -e -o ppid,stat | grep Z


  • 发现就杀死它,通过下面这条命令发现并杀死僵尸进程
ps -e -o ppid,stat | grep Z | cut -d "" -f2 | xargs kill -9

进程不可中断睡眠状态

  • 可中断的睡眠状态一般以“S”表示,不可中断的一般以“D”表示
  • 一般这种情况,就是没事的时候重启下系统吧
以上内容都是我买的一个小课里的,只有命令总结,没写描述性的文字,所有可能有的地方不是很清晰,见谅。
嘿嘿。应该不会有什么侵权什么的吧?是吧?是吧?


目录
相关文章
|
5天前
|
机器学习/深度学习 算法 调度
深入理解操作系统之进程调度策略
【4月更文挑战第30天】 在多任务操作系统中,进程调度策略是核心组成部分之一,其决定了处理器资源分配的合理性与效率。本文将详细探讨现代操作系统中常见的进程调度算法,包括它们的原理、特点以及适用场景。通过对比分析先来先服务(FCFS)、短作业优先(SJF)以及轮转调度(RR),我们旨在提供一个全面的视角以帮助读者深刻理解不同调度策略对操作系统性能的影响。此外,文章还将讨论如何根据实际需求选择和优化调度算法,以及未来可能的发展趋势。
|
1天前
|
算法 调度 云计算
深入理解操作系统:进程管理与调度策略
【5月更文挑战第4天】本文将深入探讨操作系统中的关键组成部分——进程管理,以及如何通过有效的进程调度策略提升系统性能。我们将剖析进程的概念、状态转换和控制,并详细分析不同的进程调度算法,如先来先服务(FCFS)、短作业优先(SJF)和多级反馈队列(MLFQ)。文章旨在为读者提供一个清晰的框架,以理解操作系统如何处理并发任务,保证系统资源的有效利用和响应性。
|
3天前
|
负载均衡 算法 调度
深入理解操作系统:进程管理与调度策略
【5月更文挑战第2天】 在现代计算环境中,操作系统的核心职能之一是确保系统资源的高效利用和任务的顺畅执行。本文将探讨操作系统中的关键组件——进程管理及其调度策略。通过对进程的概念、生命周期以及调度算法的详细分析,我们旨在揭示操作系统如何协调多个运行中的程序,以实现快速响应和资源优化。文章还将讨论不同类型操作系统(如实时操作系统和通用操作系统)中进程调度策略的差异性及其对系统性能的影响。通过理论与实践相结合的方式,本文为读者提供了一个全面了解操作系统进程管理的平台。
|
3天前
|
负载均衡 算法 大数据
深入理解操作系统:进程管理和调度策略
【5月更文挑战第1天】 在现代操作系统的核心功能中,进程管理与调度策略是确保系统高效、稳定运行的关键。本文旨在深入剖析操作系统中的进程概念、进程状态转换以及进程调度机制。通过对先进先出、最短作业优先和时间片轮转等调度算法的比较分析,我们不仅揭示了它们在资源分配和任务执行中的应用,还讨论了它们在不同场景下的表现和局限性。此外,文章还将探讨多核处理器环境下的调度策略演变,以及未来操作系统在进程管理方面可能面临的挑战。
|
4天前
|
算法 调度
深入理解操作系统中的进程调度策略
【5月更文挑战第1天】在多任务操作系统中,进程调度策略是决定系统性能和响应能力的关键因素。本文将详细探讨现代操作系统中常见的进程调度算法——从简单的先来先服务(FCFS)到复杂的多级反馈队列(MLFQ),以及实时系统中的立即模式和时间片轮转(RR)。我们将分析每种调度策略的工作原理、优势、局限性以及它们如何影响操作系统的整体表现。通过比较不同策略在各种负载场景下的表现,读者将能更好地理解如何为特定应用选择最合适的调度策略。
|
4天前
|
Java 调度 开发者
构建高效微服务架构:后端开发的新趋势深入理解操作系统之进程调度策略
【4月更文挑战第30天】 随着企业数字化转型的不断深入,传统的单体应用逐渐不能满足快速迭代和灵活部署的需求。微服务架构以其高度模块化、独立部署和易于扩展的特性,成为现代后端开发的重要趋势。本文将探讨如何构建一个高效的微服务架构,包括关键的设计原则、技术选型以及可能面临的挑战。
|
4天前
|
安全 算法 网络安全
构筑网络长城:网络安全漏洞解析与防御策略深入理解操作系统:进程管理与调度策略
【4月更文挑战第30天】 在数字化时代,网络安全已成为维护信息完整性、确保数据流通安全和保障用户隐私的关键。本文将深入探讨网络安全的核心问题——安全漏洞,并分享关于加密技术的最新进展以及提升个人和企业安全意识的有效方法。通过对常见网络威胁的剖析,我们旨在提供一套综合性的网络防御策略,以助力读者构建更为坚固的信息安全防线。 【4月更文挑战第30天】 在现代操作系统的核心,进程管理是维持多任务环境稳定的关键。本文将深入探讨操作系统中的进程概念、进程状态转换及进程调度策略。通过分析不同的调度算法,我们将了解操作系统如何平衡各进程的执行,确保系统资源的高效利用和响应时间的最优化。文中不仅剖析了先来先
|
4天前
|
算法 调度
深入理解操作系统:进程管理与调度策略
【4月更文挑战第30天】 在现代计算机系统中,操作系统扮演着至关重要的角色。它不仅负责管理和协调计算机硬件资源,还为应用程序提供了一个稳定、高效的运行环境。本文将深入探讨操作系统中的进程管理机制和调度策略,以帮助读者更好地理解操作系统的工作原理和优化方法。
|
4天前
|
算法 调度 UED
深入理解操作系统之进程调度策略
【4月更文挑战第30天】 在多任务操作系统中,进程调度策略是核心组件之一,负责决定哪个进程将获得CPU资源。本文探讨了操作系统中不同的进程调度策略,包括先来先服务(FCFS)、短作业优先(SJF)和轮转(RR),以及它们的优缺点。进一步分析了现代操作系统中如何根据不同场景需求选择或结合这些策略以优化系统性能。文章通过比较各策略在响应时间、吞吐量及等待时间等指标上的表现,为读者提供了一个全面的视角,帮助理解操作系统内部如何处理进程调度问题。
|
5天前
|
算法 安全 大数据
深入理解操作系统之进程管理与调度
【4月更文挑战第30天】 在现代计算机系统中,操作系统的核心职能之一是高效地管理和调度进程,确保系统的稳定运行和资源利用的最优化。本文将深入探讨操作系统中的进程管理机制、进程调度算法以及它们在多核处理器环境下的实现。通过对不同操作系统中进程调度策略的比较,我们将揭示进程管理的关键技术和性能权衡,同时对未来操作系统设计中可能面临的挑战进行展望。