【操作系统】生产环境消失的进程如何排查

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 【操作系统】生产环境消失的进程如何排查

1.生产环境问题描述

一台机器上的某个进程直接就消失了,别的机器上的服务都正常跑着,怎么排查原因?包括java进程、mysql、redis、mq 也是一样的情况。

2.Linux软件环境准备

(1)安装 gcc yum install gcc -y

gcc是一个编译器,没有界面,在命令行模式下使用,通过gcc命令可以将源文件编译成可执行文件。

gcc 命令如果不指定目标文件名时默认生成的可执行文件名为 a.out(linux) 或 a.exe(windows)。

可用gcc [源文件名] -o [目标文件名] 来指定目标文件路径及文件名。

C语言中,malloc函数的作用是动态分配内存,不能自动释放,申请的内存单位是字节。

319206f3760a4053804590cbc821482a.jpg

(2)创建测试代码,这里采用c语言的程序

#include <stdlib.h>
#include <stdio.h>
int main(void)
{
    while(1)
    {
        printf("...");
        char *p = malloc(1024 * 200);
        if (p == NULL)
        {
            return -1;
        }
    }
    return 0;
}
  • c语言不会像Java那种有垃圾回收机制,c语言要手动释放内存,所以这里好演示内存占满的情况。

3.编译运行程序,分析现象

# 编译程序
gcc test.c -o test.out
# 先看一下内存的使用情况
free -h -s 5 
top

15711bfd82b84cdb9315798c3975976a.jpg

# 运行程序 
./test.out


e47bf2f58d494eee9a34b904b4384043.jpg

a13d520a50164ff6a2e761a7fd5506b4.jpg


d1f3eecaa90d49c0b94485fa8f02ebbc.jpg

  • 注意看这三张图,运行test.out进程后,内存一直在上升,直到test.out进程消失。

4.进程消失原因分析

Linux服务器上有多个应用程序运行,应用压力突增情况下容易出现各种问题,在多应用部署时需要注意对内存分配和资源隔离。

Linux系统在内存不足等条件下会主动干预进程(OOM-Killer机制),OOM Killer给进程打分,把oom_score最大的进程先杀死,打分主要有两部分组成。

一种系统根据该进程的内存占用情况打分,进程的内存开销是变化的,所以该值也会动态变化

另一种用户可以设置的 oom_score_adj,范围是 -1000到 1000

当然还有可能是公司同事重启了机器,导致进程没开机自启动运行。

通过last reboot查看机器是什么时候重启的。

357ecce9695142e29b36cbe762e132fd.jpg

5.生产类似进程消失的案例

  • Rocketmq消息队列、Naocs服务注册发现、Java微服务jar 等进程常规运行,突然消失
  • JVM本身的内存会启动的时候指定,但是JVM还有堆外内存,主要包括
  • JVM 自身运行占用的空间、线程栈分配占用的系统内存、Java 8

开始的元数据空间

DirectByteBuffer 占用的内存、JNI 里分配的内存、Unsafe 调用分配的内存;

这些技术在中间件、复杂技术业务项目等都高频出现

不由JVM触发也不由JVM管理,是系统内核的一种安全保护措施,包括可用内存(含swap)不足, 就有可能会影响系统稳定

  • 这时候 Out of memory killer 就会设法找出进程并杀死,引起 Out of memory: kill process or sacrifice child 错误
  • 配置Swap有好有坏,Full GC总比OOM 进程消失要好

6.如何通过日志查看消失进程

(1)/var/log/messages 日志

  • 是核心系统日志文件,包括整体系统信息、系统启动时的引导消息、系统运行时的其他状态消息
  • 在做故障诊断时可以首先查看该文件内容,比如IO 错误、网络错误和其他系统错误都会记录到这个文件中
#过滤kill进程相关的日志
cat /var/log/messages | grep Kill


d610726a7ec14b4798952d4474ceda18.jpg

(2)/var/log/dmesg日志

  • 用dmesg查看,包含内核缓冲信息,在系统启动时,会在屏幕上显示许多与硬件有关的信息
#egrep 详细:   -i 忽略大小写  -C n key 输出匹配key关键字及关键字上下的n行
#过滤出  killed process 上下10行日志
dmesg | egrep -i -C10 'killed process'
#增加人类可读的时间戳
dmesg -T 
#常用完整命令
dmesg -T | egrep -i -C10 'killed process'

7b783aef782e47efa037bad031af4dff.jpg

7.OOM评分机制和进程雪崩实战

(1)什么是oom_score

  • 对某一个task进程进行打分(oom_score),实际得分需要考虑两方面,然后把oom_score最大的进程先杀死。
  • 一是系统打分,主要是根据该task的内存使用情况,进程的内存开销是变化的,所以该值也是动态变化的。

二是用户打分,也就是oom_score_adj,默认是0,取值范围是-1000~1000

0表示用户不调整oom_score,负数表示要在实际打分值上减去用户的这个配置

正值表示要惩罚对应的进程,也就是增加该进程的oom_score

如果用户将该进程的 oom_score_adj 设定成 -1000,表示禁止OOM killer 杀死该进程,特别重要的服务可以配置

说明:proc文件系统是虚拟文件系统,某个进程被杀掉,则/proc/pid/ 目录也会被销毁

# 查看某进程系统的评分
cat /proc/$(pidof 进程名称)/oom_score
#先查看用户默认的评分
cat /proc/$(pidof 进程名称)/oom_score_adj
#手工修改评分
sudo sh -c "echo -500 > /proc/$(pidof 进程名称)/oom_score_adj"

(2)测试进程雪崩

  • 修改上面编写的c测试程序,将每次申请的内存修改的小一点。
#include <stdlib.h>
#include <stdio.h>
int main(void)
{
    while(1)
    {
        printf("...");
        char *p = malloc(1024);
        if (p == NULL)
        {
            return -1;
        }
    }
    return 0;
}

6c8c6560f0b84bed8c7b01d095ea3d8b.jpg


60e59246aebf4412b6c0ba0a33640e3f.jpg


71a2a5ec13854933bdd862a43e8a1755.jpg

把一个一直申请内存的进程的 oom_score_adj 设置为-1000,会导致大量的都进程被kill,因为我们的test.out是在bash中启动的,bash也是个进程,所以这个bash挂了,test.out也停止了,如果是后端运行,则更多进程都会被kill。当运行test.out 的这个bash被kill掉之后,内存就恢复成正常了。

查看被kill掉的进程

#过滤kill进程相关的日志
cat /var/log/messages | grep Kill
#常用完整命令, 可能损坏查询不到信息
dmesg -T| grep "Out of memory"

7bad292b9dec4751817b210b7eb7e8ea.jpg3284cbcff4c248eab12e4478a9083850.jpg

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
13天前
|
算法 调度 UED
深入理解操作系统:进程调度与优先级队列
【10月更文挑战第31天】在计算机科学的广阔天地中,操作系统扮演着枢纽的角色,它不仅管理着硬件资源,还为应用程序提供了运行的环境。本文将深入浅出地探讨操作系统的核心概念之一——进程调度,以及如何通过优先级队列来优化资源分配。我们将从基础理论出发,逐步过渡到实际应用,最终以代码示例巩固知识点,旨在为读者揭开操作系统高效管理的神秘面纱。
|
6天前
|
消息中间件 安全 算法
深入理解操作系统:进程管理的艺术
【10月更文挑战第38天】在数字世界的心脏,操作系统扮演着至关重要的角色。它不仅是硬件与软件的桥梁,更是维持计算机运行秩序的守夜人。本文将带你走进操作系统的核心——进程管理,探索它是如何协调和优化资源的使用,确保系统的稳定与高效。我们将从进程的基本概念出发,逐步深入到进程调度、同步与通信,最后探讨进程安全的重要性。通过这篇文章,你将获得对操作系统进程管理的全新认识,为你的计算机科学之旅增添一份深刻的理解。
|
10天前
|
算法 调度 UED
深入理解操作系统:进程管理与调度策略
【10月更文挑战第34天】本文旨在探讨操作系统中至关重要的一环——进程管理及其调度策略。我们将从基础概念入手,逐步揭示进程的生命周期、状态转换以及调度算法的核心原理。文章将通过浅显易懂的语言和具体实例,引导读者理解操作系统如何高效地管理和调度进程,保证系统资源的合理分配和利用。无论你是初学者还是有一定经验的开发者,这篇文章都能为你提供新的视角和深入的理解。
32 3
|
12天前
|
Linux 调度 C语言
深入理解操作系统:进程和线程的管理
【10月更文挑战第32天】本文旨在通过浅显易懂的语言和实际代码示例,带领读者探索操作系统中进程与线程的奥秘。我们将从基础知识出发,逐步深入到它们在操作系统中的实现和管理机制,最终通过实践加深对这一核心概念的理解。无论你是编程新手还是希望复习相关知识的资深开发者,这篇文章都将为你提供有价值的见解。
|
13天前
|
算法 调度 UED
深入理解操作系统的进程调度机制
本文旨在探讨操作系统中至关重要的组成部分之一——进程调度机制。通过详细解析进程调度的概念、目的、类型以及实现方式,本文为读者提供了一个全面了解操作系统如何高效管理进程资源的视角。此外,文章还简要介绍了几种常见的进程调度算法,并分析了它们的优缺点,旨在帮助读者更好地理解操作系统内部的复杂性及其对系统性能的影响。
|
14天前
深入理解操作系统:进程与线程的管理
【10月更文挑战第30天】操作系统是计算机系统的核心,它负责管理计算机硬件资源,为应用程序提供基础服务。本文将深入探讨操作系统中进程和线程的概念、区别以及它们在资源管理中的作用。通过本文的学习,读者将能够更好地理解操作系统的工作原理,并掌握进程和线程的管理技巧。
30 2
|
14天前
|
消息中间件 算法 Linux
深入理解操作系统之进程管理
【10月更文挑战第30天】在数字时代的浪潮中,操作系统作为计算机系统的核心,扮演着至关重要的角色。本文将深入浅出地探讨操作系统中的进程管理机制,从进程的概念入手,逐步解析进程的创建、调度、同步与通信等关键过程,并通过实际代码示例,揭示这些理论在Linux系统中的应用。文章旨在为读者提供一扇窥探操作系统深层工作机制的窗口,同时激发对计算科学深层次理解的兴趣和思考。
|
15天前
|
消息中间件 算法 调度
深入理解操作系统:进程管理与调度策略
【10月更文挑战第29天】本文将带领读者深入探讨操作系统中的核心组件之一——进程,并分析进程管理的重要性。我们将从进程的生命周期入手,逐步揭示进程状态转换、进程调度算法以及优先级调度等关键概念。通过理论讲解与代码演示相结合的方式,本文旨在为读者提供对进程调度机制的全面理解,从而帮助读者更好地掌握操作系统的精髓。
30 1
|
15天前
|
算法 调度 UED
深入理解操作系统中的进程调度
【10月更文挑战第29天】探索进程调度的奥秘,本文将带你深入了解在操作系统中如何管理和控制多个并发执行的程序。从简单的调度算法到复杂的多级反馈队列,我们将逐步揭示如何优化系统性能和提高资源利用率。准备好一起揭开进程调度的神秘面纱吧!
|
16天前
|
调度 Python
深入浅出操作系统:进程与线程的奥秘
【10月更文挑战第28天】在数字世界的幕后,操作系统悄无声息地扮演着关键角色。本文将拨开迷雾,深入探讨操作系统中的两个基本概念——进程和线程。我们将通过生动的比喻和直观的解释,揭示它们之间的差异与联系,并展示如何在实际应用中灵活运用这些知识。准备好了吗?让我们开始这段揭秘之旅!

热门文章

最新文章