Linux:进程概念

简介: Linux:进程概念

进程概念

在大部分教材中,它们如下描述进程:

正在运行的程序就是进程

以上描述并没有错误,但是有点过于笼统了,现在我们要深入Linux底层看一看程序是如何被管理的,进而更加全面地了解什么是进程。

在Linux中,我们可以一次运行多个程序,既然操作系统要给我们运行程序,那么操作系统就要得到该程序代码和数据。也就是说执行进程的时候,要把数据和代码段加载到内存中。

而操作系统中往往不止一个进程,比如你可以在Windows中打开QQ,微信,浏览器等等,它们同时运行。因此操作系统要一次性管理多个进程,也就是会有多个程序加载到内存中。

那么操作系统要如何管理这些进程呢?答案是先描述,再组织,也就是先用结构体把各个进程描述出来,比如这个进程的状态,优先级等等。然后再用数据结构把这些进程组织起来。

这个描述进程的结构体叫做PCB,再具体一点,在Linux源码中,PCB的结构体名为task_struct。

进程是可以排队的,在一个时间片里面,轮到哪一个进程,就运行哪一个进程,那么进程就要排好队,让操作系统一个一个的去运行。难道我们是让程序亲自去排队吗?这当然不是,我们已经用PCB把进程描述了出来,后续只需要让PCB这个结构体去排队即可。

在Linux中,有一个运行队列,其是一个链表,然后把PCB一个接一个地连入链表中,操作系统只需要遍历链表,遍历到谁就运行该PCB对应的可执行程序。当谁运行完了,就把谁的PCB移出队列,谁想要被执行,就把谁的PCB移入队列。

因此进程排队,本质上不是进程在排队,而是进程的PCB在排队。

而进程的管理行为,就是先用PCB结构体来描述进程,然后用数据结构链表来组织各个PCB。

那么我们再来描述什么是进程:

进程 = 可执行程序 + PCB

而操作系统中一切管理进程的行为,本质都是管理进程的PCB。

我们再来简单讲解一下PCB,也就是task_struct中最常用的成员:

  • 标示符: 描述本进程的唯一标示符,用来区别其他进程
  • 状态:任务状态,退出代码,退出信号等
  • 优先级:相对于其他进程的优先级
  • 程序计数器: 程序中即将被执行的下一条指令的地址
  • 内存指针:包括程序代码和进程相关数据的指针,还有和其他进程共享的内存块的指针
  • 上下文数据:进程执行时处理器的寄存器中的数据
  • I/O状态信息:包括显示的I/O请求,分配给进程的I/O设备和被进程使用的文件列表
  • 记账信息:可能包括处理器时间总和,使用的时钟数总和,时间限制,记账号等

比如说内存指针,其用于标识代码执行到哪一个语句,在下次运行程序时,就可以直接继续运行。

再比如记账信息,其存储着该进程总共占用了多久的CPU,这样操作系统就可以更好的决策,防止一个进程过久占用资源。


查看进程

我们可以通过指令ps ajx或者ps aux来查看当前的所有进程:

当然这会造成大量刷屏,一般来说,我们会选择配合grep来进行查找。

在上图中,第二栏 PID代表进程的唯一标识符

现在我们有一个自己写的程序test.exe,其内部是一个死循环,让其一直运行:

int main()
{
  while(1)
  {
    sleep(1);
  }
}


我们运行后,用指令ps ajx | grep test.exe

此时进程test.exe可以被查看到了,其PID为31390。不过我们这里出现了两个进程,第二个进程其实是grep指令,因为我们向grep中写入了test.exe字符串,因此查找进程的时候,也可以查找到grep自己。

我们不仅仅可以通过ps ajx查找来获得进程的PID,函数getpid也可以获得当前进程的PID。

getpid被包含在头文件<unistd.h>中,其返回值为pid_t类型,本质上是一个int类型。这个pid_t类型包含在<sys/types.h>中。

比如test.c中有以下代码:

#include <stdio.h>
#include <sys/types.h>
#include <unistd.h>

int main()
{
  pid_t id = getpid();
  
  while(1)
  {
    sleep(1);
    printf("pid = %d\n", id);
  }
}

编译后执行进程test.exe,代码就开始输出了:

此时我们也可以通过ps ajx指令来查看这个PIDps ajx | head -1 && ps ajx | grep 20759

可以看到,我们确实可以查到PID20759的进程,并且COMMAND属性为./test.exe,意思就是我们通过指令./test.exe执行了该进程。


父子进程

在Linux中,每个进程都有它的父进程ps ajx的第一栏PPID就是父进程的PID,比如刚刚图片中,./test.exe的父进程就是20689

函数getppid可以获取父进程的PID,其包含在<unistd.h>头文件中,返回值类型也是pid_t

现在在test.c中写入以下代码:

#include <stdio.h>
#include <sys/types.h>
#include <unistd.h>

int main()
{
  pid_t pid = getpid();
  pid_t ppid = getppid();
  
  while(1)
  {
    printf("ppid = %d,pid = %d\n", ppid, pid);      
    sleep(1);
  }
}

编译后执行test.exe,输出结果为:

可知其父进程的PID20689,我们现在通过指令ps ajx来查询一下20689

其中PID20689的进程为bash进程,这里要提出一个重要概念:

一切在命令行调用的进程,都是bash的子进程


/proc

proc全称process,也就是进程的英文名,其处于根目录下,内部存储各个进程的相关信息,并且每个进程以PID作为目录名,将所有信息整合到对应的目录中。

先简单查看一下proc目录下面有什么,ls /proc

在我的xshell中,蓝色的文件代表目录,可以看出/proc内部大部分是以数字命名的目录,这个数字代表进程对应的PID,刚刚查看到bash进程的PID20689,那我们就看看/proc/20689目录下面有什么:

可以看到其内部存放了很多描述性质的文件。我这里列举两个重要的:

cwd:代表该进程的当前工作目录

上图就指明了,bash进程当前的工作目录为/home/box-he/CSDN/process/conception

exe:代表该进程对应的可执行文件的路径

此处bash进程对应的可执行文件就是/usr/bin/bash


fork

fork函数可以用于在程序内部创建子进程,其包含在头文件<unistd.h>中,直接调用fork()就可以创建子进程了。

示例代码:

#include <stdio.h>      
#include <unistd.h>      
      
int main()      
{      
    printf("before: ppid = %d,pid = %d\n", getppid(), getpid());    
    
    fork();    
    
    printf("after:  ppid = %d,pid = %d\n", getppid(), getpid());    
        
    return 0;    
}          


以上代码中,我们在fork前输出了一个before以及进程的PIDPPID。在fork后,又输出了after以及进程的PIDPPID

运行结果:


可以看到,我们的before输出了一次,也就是我们调用的进程./test.exe输出的,而after输出了两次,但是我们只有一个after语句,说明有两个不同的进程执行了这个语句,也就是fork成功创建了一个进程

对于第一条语句before,毫无疑问这是进程./test.exePID22840PPID20689也就是bash

第二条语句after,其PIDPPID都和./test.exe一致,说明这个语句也是原先的./test.exe输出的。

第三条语句after,其PID22842,没有出现过,说明这个是通过fork创建出来的进程,其PPID22840,也就是./test.exe说明fork创建出来的进程,是原先进程的子进程

以上示例可以总结为:

  1. fork之后,会出现两个进程
  • 一个是原先的进程
  • 另外一个是通过fork创建的进程
  1. 新创建的进程,是原先进程的子进程

fork函数也是有返回值的,其返回规则如下:

  1. 对于父进程,返回值为新的进程的PID
  2. 对于子进程,返回值为0

此时我们就可以根据fork的返回值,来判断父子进程了:

代码示例:

#include <stdlib.h>    
#include <unistd.h>    
#include <sys/types.h>    
    
int main()    
{    
    pid_t id = fork();    
    
    if(id == 0)    
    {    
        printf("child:  ppid = %d,pid = %d\n", getppid(), getpid());    
    }    
    else    
    {    
        printf("father: ppid = %d,pid = %d\n", getppid(), getpid());    
    }    
                                                                                                            
    return 0;                                                           
}                

输出结果:

子进程输出了child:开头的语句,父进程输出了father:开头的语句。

我们确实通过这样的分支语句,利用父子进程的fork返回值不同的特性,完成了父子进程输出不同的代码。

其实fork创建子进程的时候,是以父进程为模板的,子进程会继承父进程的PCB,然后把PCB内部需要修改的地方改为自己的,比如PID,PPID是不同的。


子进程还和父进程共用代码段,因为两者的代码逻辑是一样的。比如说刚才的示例中,父子进程都要执行if-else的判断,两者都共用这一段代码。


但是两者的数据不一定相同,一开始父子进程共用一段数据,一旦父子进程有一方要对数据进行修改,那么就发生写时拷贝,此时数据就互不影响了。如果某个数据从头到尾都没有被修改,那么这个数据从头到尾都被父子进程共享,不会额外开辟内存。


我们在一开始讲过,PCB内部有一个叫做内存指针的成员,如果不记得了,复习一下:

  • 内存指针:包括程序代码和进程相关数据的指针,还有和其他进程共享的内存块的指针

其可以标识当前代码执行到了哪里,那么在父进程执行到fork的时候,此时就要开始创建子进程了,子进程会继承父进程的PCB

由于父进程此时执行到fork,那么内存指针就指向fork这个语句,因此子进程继承的内存指针也指向fork,所以子进程是从fork开始往后执行的。

那么下一个问题就是:fork函数是如何做到,一个函数返回两个值的呢?

回答这个问题之前,我先反问你一个问题,创建子进程是在什么时候创建的?

你也许会回答,就是fork的时候创建的,但是深究一下,你就会发现,一定是在fork函数内部创建的子进程。这个内部很关键,也就是说在fork函数还没有return返回的时候,就已经是两个进程了。


于是两个进程共用这个fork的代码,但是两个进程的数据不一样,所以其实pid_t id = fork();这个过程中,父子进程分别return了一次。所以本质上不是fork函数返回了两个值,而是同一段return代码,被父子进程分别调用了。

相关文章
|
5月前
|
并行计算 Linux
Linux内核中的线程和进程实现详解
了解进程和线程如何工作,可以帮助我们更好地编写程序,充分利用多核CPU,实现并行计算,提高系统的响应速度和计算效能。记住,适当平衡进程和线程的使用,既要拥有独立空间的'兄弟',也需要在'家庭'中分享和并行的成员。对于这个世界,现在,你应该有一个全新的认识。
243 67
|
4月前
|
NoSQL Linux 编译器
GDB符号表概念和在Linux下获取符号表的方法
通过掌握这些关于GDB符号表的知识,你可以更好地管理和理解你的程序,希望这些知识可以帮助你更有效地进行调试工作。
201 16
|
4月前
|
Web App开发 Linux 程序员
获取和理解Linux进程以及其PID的基础知识。
总的来说,理解Linux进程及其PID需要我们明白,进程就如同汽车,负责执行任务,而PID则是独特的车牌号,为我们提供了管理的便利。知道这个,我们就可以更好地理解和操作Linux系统,甚至通过对进程的有效管理,让系统运行得更加顺畅。
128 16
|
4月前
|
Unix Linux
对于Linux的进程概念以及进程状态的理解和解析
现在,我们已经了解了Linux进程的基础知识和进程状态的理解了。这就像我们理解了城市中行人的行走和行为模式!希望这个形象的例子能帮助我们更好地理解这个重要的概念,并在实际应用中发挥作用。
102 20
|
3月前
|
监控 Shell Linux
Linux进程控制(详细讲解)
进程等待是系统通过调用特定的接口(如waitwaitpid)来实现的。来进行对子进程状态检测与回收的功能。
78 0
|
3月前
|
存储 负载均衡 算法
Linux2.6内核进程调度队列
本篇文章是Linux进程系列中的最后一篇文章,本来是想放在上一篇文章的结尾的,但是想了想还是单独写一篇文章吧,虽然说这部分内容是比较难的,所有一般来说是简单的提及带过的,但是为了让大家对进程有更深的理解与认识,还是看了一些别人的文章,然后学习了学习,然后对此做了总结,尽可能详细的介绍明白。最后推荐一篇文章Linux的进程优先级 NI 和 PR - 简书。
110 0
|
3月前
|
存储 Linux Shell
Linux进程概念-详细版(二)
在Linux进程概念-详细版(一)中我们解释了什么是进程,以及进程的各种状态,已经对进程有了一定的认识,那么这篇文章将会继续补全上篇文章剩余没有说到的,进程优先级,环境变量,程序地址空间,进程地址空间,以及调度队列。
69 0
|
3月前
|
Linux 调度 C语言
Linux进程概念-详细版(一)
子进程与父进程代码共享,其子进程直接用父进程的代码,其自己本身无代码,所以子进程无法改动代码,平时所说的修改是修改的数据。为什么要创建子进程:为了让其父子进程执行不同的代码块。子进程的数据相对于父进程是会进行写时拷贝(COW)。
78 0
|
6月前
|
Linux 数据库 Perl
【YashanDB 知识库】如何避免 yasdb 进程被 Linux OOM Killer 杀掉
本文来自YashanDB官网,探讨Linux系统中OOM Killer对数据库服务器的影响及解决方法。当内存接近耗尽时,OOM Killer会杀死占用最多内存的进程,这可能导致数据库主进程被误杀。为避免此问题,可采取两种方法:一是在OS层面关闭OOM Killer,通过修改`/etc/sysctl.conf`文件并重启生效;二是豁免数据库进程,由数据库实例用户借助`sudo`权限调整`oom_score_adj`值。这些措施有助于保护数据库进程免受系统内存管理机制的影响。
|
6月前
|
存储 Linux 调度
【Linux】进程概念和进程状态
本文详细介绍了Linux系统中进程的核心概念与管理机制。从进程的定义出发,阐述了其作为操作系统资源管理的基本单位的重要性,并深入解析了task_struct结构体的内容及其在进程管理中的作用。同时,文章讲解了进程的基本操作(如获取PID、查看进程信息等)、父进程与子进程的关系(重点分析fork函数)、以及进程的三种主要状态(运行、阻塞、挂起)。此外,还探讨了Linux特有的进程状态表示和孤儿进程的处理方式。通过学习这些内容,读者可以更好地理解Linux进程的运行原理并优化系统性能。
233 4

热门文章

最新文章