Linux进程实践(1) --Linux进程编程概述

简介: 进程 VS. 程序什么是程序?   程序是完成特定任务的一系列指令集合。什么是进程?  [1]从用户的角度来看:进程是程序的一次执行过程  [2]从操作系统的核心来看:进程是操作系统分配的内存、CPU时间片等资源的基本单位。

进程 VS. 程序

什么是程序? 

  程序是完成特定任务的一系列指令集合。

什么是进程?

  [1]从用户的角度来看:进程是程序的一次执行过程

  [2]从操作系统的核心来看:进程是操作系统分配的内存、CPU时间片等资源的基本单位。 

  [3]进程是资源分配的最小单位

  [4]每一个进程都有自己独立的地址空间与执行状态。

  [5]像UNIX这样的多任务操作系统能够让许多程序同时运行,每一个运行着的程序就构成了一个进程

 

进程数据结构

  进程由三部分组成:PCB、程序段和数据段

   进程控制块PCB:用于描述进程情况及控制进程运行所需的全部信息。

   代码段:是进程中能被进程调度程序在CPU上执行的程序代码段。

   数据段:一个进程的数据段,可以是进程对应的程序加工处理的原始数据,也可以是程序执行后产生的中间或最终数据

 

进程和程序的区别

进程是动态的(进程存在的唯一标志:PCB, CPU通过PCB来控制进程),程序是静态的

进程的生命周期是相对短暂的,而程序是永久的。

一个进程只能对应一个程序,一个程序可以对应多个进程。

 

进程三态


  进程因创建而就绪,因调度而执行;因时间片用完而重新就绪;

  执行中因I/O请求而阻塞;

  I/O完成而就绪

注意:阻塞以后不能直接执行,必须进入就绪状态。

 

Linux内核中的进程状态


  运行状态(TASK_RUNNING)

  可中断睡眠状态(TASK_INTERRUPTIBLE)

  不可中断睡眠状态(TASK_UNINTERRUPTIBLE)

  暂停状态(TASK_STOPPED)

  僵死状态(TASK_ZOMBIE)

进程调度

进程调度的任务

   保存处理机的现场信息

   按某种算法选取进程

   把处理器分配给进程

进程调度算法

  1.先来先服务算法

  2.短进程优先算法

  3.时间片轮转算法

  4.优先级调度算法

  5.多级反馈队列调度算法

 

进程编程相关术语

进程标志:

  每个进程都会分配到一个独一无二的数字编号,我们称之为“进程标识”(process identifier),或者就直接叫它PID.

  是一个正整数,取值范围从2到32768

  当一个进程被启动时,它会顺序挑选下一个未使用的编号数字做为自己的PID

  1号进程是特殊进程init

  0号进程空闲进程

关于0,1的解释:

  进程0:Linux引导中创建的第一个进程,完成加载系统后,演变为进程调度、交换及存储管理进程;

  进程1:init 进程,由0进程创建,完成系统的初始化. 是系统中所有其它用户进程的祖先进程;

 

进程创建

不同的操作系统所提供的进程创建原语的名称和格式不尽相同,但执行创建进程原语后,操作系统所做的工作却大致相同,都包括以下几点:

  (1)给新创建的进程分配一个内部标识,在内核中建立进程结构。

  (2)复制父进程的环境

  (3)为进程分配资源, 包括进程映像所需要的所有元素(程序、数据、用户栈等),

  (4)复制父进程地址空间的内容到该进程地址空间中。

  (5)置该进程的状态为就绪,插入就绪队列。

 

进程撤销

进程终止时操作系统做以下工作:

  (1)关闭软中断:因为进程即将终止而不再处理任何软中断信号;

  (2)回收资源:释放进程分配的所有资源,如关闭所有已打开文件,释放进程相应的数据结构等;

  (3)写记帐信息:将进程在运行过程中所产生的记帐数据(其中包括进程运行时的各种统计信息)记录到一个全局记帐文件中;

  (4)置该进程为僵死状态:向父进程发送子进程死的软中断信号,将终止信息status送到指定的存储单元中;

  (5)转进程调度:因为此时CPU已经被释放,需要由进程调度进行CPU再分配。

 

fork系统调用

复制一个进程映象

  使用fork函数得到的子进程从父进程的继承了整个进程的地址空间,包括:进程上下文、进程堆栈、内存信息、打开的文件描述符、信号控制设置、进程优先级、进程组号、当前工作目录、根目录、资源限制、控制终端等。

子进程与父进程的区别:

  1、父进程设置的锁,子进程不继承

  2、各自的进程ID: 父子进程ID不同

  3、子进程的未决警告被清除;

  4、子进程的未决信号集设置为空集;

 

fork系统调用

#include <unistd.h>
pid_t fork(void);

创建一个子进程

返回值:

  如果成功创建一个子进程,对于父进程来说返回子进程ID

  如果成功创建一个子进程,对于子进程来说返回值为0

  如果为-1表示创建失败

 

怎样理解fork函数一次调用,二次返回?

   问题的本质是:两次返回,是在各自的进程空间中返回的。

   子进程和父进程各有自己的内存空间 (fork:代码段、数据段、堆栈段、PCB进程控制块的copy)。

//示例: 父子进程中数据的关系(其实基本没关系)
int main(int argc, char *argv[])
{
    signal(SIGCHLD, SIG_IGN);
    int count = 10;
    pid_t pid = fork();
    if (pid == -1)
        err_exit("fork error");
    else if (pid == 0)  //子进程
    {
        ++ count;
        cout << "In child: pid = " << getpid() << ", ppid = " << getppid() << endl;
        cout << "count = " << count << endl;
    }
    else if (pid > 0)   //父进程
    {
        ++ count;
        cout << "In parent: pid = " << getpid() << ", child pid = " << pid << endl;
        cout << "count = " << count << endl;
    }

    exit(0);
}
//深入理解: Hello World 为什么会打印8次
int main(int argc, char *argv[])
{
    signal(SIGCHLD, SIG_IGN);
    fork();
    fork();
    fork();
    cout << "Hello World" << endl;

    exit(0);
}
//示例: 产生N个子进程
int main(int argc, char *argv[])
{
    signal(SIGCHLD, SIG_IGN);

    int processCount;
    cin >> processCount;
    for (int i = 0; i < processCount; ++i)
    {
        pid_t pid = fork();
        if (pid < 0)
            err_exit("fork error");
        else if (pid == 0)
        {
            cout << "Child ..." << endl;
            exit(0);
        }
    }

    exit(0);
}

写时复制(copy on write)

COW初窥:

   在Linux程序中,fork()会产生一个和父进程完全相同的子进程,但子进程在此后多会exec系统调用,出于效率考虑,Linux中引入了“写时复制“技术,也就是只有进程空间的各段的内容要发生变化时,才会将父进程的内容复制一份给子进程

   那么子进程的物理空间没有代码,怎么去取指令执行exec系统调用呢?

    在fork之后exec之前两个进程用的是相同的物理空间(内存区),子进程的代码段、数据段、堆栈都是指向父进程的物理空间,也就是说,两者的虚拟空间不同,但其对应的物理空间是同一个当父子进程中有更改相应段的行为发生时,再为子进程相应的段分配物理空间,如果不是因为exec,内核会给子进程的数据段、堆栈段分配相应的物理空间(至此两者有各自的进程空间,互不影响),而代码段继续共享父进程的物理空间(两者的代码完全相同)。而如果是因为exec,由于两者执行的代码不同,子进程的代码段也会分配单独的物理空间。      

   在网上看到还有个细节问题就是,fork之后内核会通过将子进程放在队列的前面,以让子进程先执行,以免父进程执行导致写时复制,而后子进程执行exec系统调用,因无意义的复制而造成效率的下降。

 

COW详述:

   现在有一个父进程P1,这是一个主体,那么它是有灵魂也就身体的。现在在其虚拟地址空间(有相应的数据结构表示)上有:正文段,数据段,堆,栈这四个部分,相应的,内核要为这四个部分分配各自的物理块。即:正文段块,数据段块,堆块,栈块。

1. 现在P1用fork()函数为进程创建一个子进程P2,

内核:

 (1)复制P1的正文段,数据段,堆,栈这四个部分,注意是其内容相同。

 (2)为这四个部分分配物理块,P2的:正文段->P1的正文段的物理块,其实就是不为P2分配正文段块,让P2的正文段指向P1的正文段块,数据段->P2自己的数据段块(为其分配对应的块),堆->P2自己的堆块,栈->P2自己的栈块。

如下图所示:从左到右大的方向箭头表示复制内容。

 

2.写时复制技术:内核只为新生成的子进程创建虚拟空间结构,它们复制于来自父进程的虚拟空间结构,但是不为这些段分配物理内存,它们共享父进程的物理空间,当父子进程中有更改相应段的行为发生时,再为子进程相应的段分配物理空间。

3. vfork():这个做法更加火爆,内核连子进程的虚拟地址空间结构也不创建了,直接共享了父进程的虚拟空间,当然了,这种做法就顺水推舟的共享了父进程的物理空间

 

 

 

小结: 进程是一个主体,那么它就有灵魂与身体,系统必须为实现它创建相应的实体, 灵魂实体与物理实体。这两者在系统中都有相应的数据结构表示,物理实体更是体现了它的物理意义。

     传统的fork()系统调用直接把所有的资源复制给新创建的进程。这种实现过于简单并且效率低下,因为它拷贝的数据也许并不共享,更糟的情况是,如果新进程打算立即执行一个新的映像,那么所有的拷贝都将前功尽弃。Linux的fork()使用写时拷贝(copy-on-write)页实现。写时拷贝是一种可以推迟甚至免除拷贝数据的技术。内核此时并不复制整个进程地址空间,而是让父进程和子进程共享同一个拷贝。只有在需要写入的时候,数据才会被复制,从而使各个进程拥有各自的拷贝。也就是说,资源的复制只有在需要写入的时候才进行,在此之前,只是以只读方式共享。这种技术使地址空间上的页的拷贝被推迟到实际发生写入的时候。在页根本不会被写入的情况下{举例来说:fork()后立即调用exec()}它们就无需复制了。fork()的实际开销就是复制父进程的页表以及给子进程创建惟一的进程描述符。在一般情况下,进程创建后都会马上运行一个可执行的文件,这种优化可以避免拷贝大量根本就不会被使用的数据(地址空间里常常包含数十兆的数据)。由于Unix强调进程快速执行的能力,所以这个优化是很重要的。这里补充一点:Linux COW与exec没有必然联系

PS:实际上COW技术不仅仅在Linux进程上有应用,其他例如C++的String在有的IDE环境下也支持COW技术,即例如:

string str1 = "hello world";
string str2 = str1;

之后执行代码:

str1[1]='q';
str2[1]='w';

在开始的两个语句后,str1和str2存放数据的地址是一样的,而在修改内容后,str1的地址发生了变化,而str2的地址还是原来的,这就是C++中的COW技术的应用;


[附]-查看系统能够支持的最大进程数

cat /proc/sys/kernel/pid_max

目录
相关文章
|
6月前
|
监控 Linux 应用服务中间件
Linux多节点多硬盘部署MinIO:分布式MinIO集群部署指南搭建高可用架构实践
通过以上步骤,已成功基于已有的 MinIO 服务,扩展为一个 MinIO 集群。该集群具有高可用性和容错性,适合生产环境使用。如果有任何问题,请检查日志或参考MinIO 官方文档。作者联系方式vx:2743642415。
2180 57
|
6月前
|
安全 算法 Ubuntu
Linux(openssl)环境:编程控制让证书自签的技巧。
总结:在Linux环境中,OpenSSL是一个非常实用的工具,可以帮助我们轻松地生成自签名证书。通过上述三个简单步骤,即可为内部网络、测试环境或开发环境创建自签名证书。但在公共访问场景下,建议购买经过权威认证机构签发的证书,以避免安全警告。
305 13
|
8月前
|
弹性计算 运维 监控
基于进程热点分析与系统资源优化的智能运维实践
智能服务器管理平台提供直观的可视化界面,助力高效操作系统管理。核心功能包括运维监控、智能助手和扩展插件管理,支持系统健康监控、故障诊断等,确保集群稳定运行。首次使用需激活服务并安装管控组件。平台还提供进程热点追踪、性能观测与优化建议,帮助开发人员快速识别和解决性能瓶颈。定期分析和多维度监控可提前预警潜在问题,保障系统长期稳定运行。
352 17
|
8月前
|
Linux 数据库 Perl
【YashanDB 知识库】如何避免 yasdb 进程被 Linux OOM Killer 杀掉
本文来自YashanDB官网,探讨Linux系统中OOM Killer对数据库服务器的影响及解决方法。当内存接近耗尽时,OOM Killer会杀死占用最多内存的进程,这可能导致数据库主进程被误杀。为避免此问题,可采取两种方法:一是在OS层面关闭OOM Killer,通过修改`/etc/sysctl.conf`文件并重启生效;二是豁免数据库进程,由数据库实例用户借助`sudo`权限调整`oom_score_adj`值。这些措施有助于保护数据库进程免受系统内存管理机制的影响。
|
8月前
|
JavaScript Ubuntu Linux
如何在阿里云的linux上搭建Node.js编程环境?
本指南介绍如何在阿里云Linux服务器(Ubuntu/CentOS)上搭建Node.js环境,包含两种安装方式:包管理器快速安装和NVM多版本管理。同时覆盖全局npm工具配置、应用部署示例(如Express服务)、PM2持久化运行、阿里云安全组设置及外部访问验证等步骤,助你完成开发与生产环境的搭建。
|
8月前
|
Linux Shell
Linux 进程前台后台切换与作业控制
进程前台/后台切换及作业控制简介: 在 Shell 中,启动的程序默认为前台进程,会占用终端直到执行完毕。例如,执行 `./shella.sh` 时,终端会被占用。为避免不便,可将命令放到后台运行,如 `./shella.sh &`,此时终端命令行立即返回,可继续输入其他命令。 常用作业控制命令: - `fg %1`:将后台作业切换到前台。 - `Ctrl + Z`:暂停前台作业并放到后台。 - `bg %1`:让暂停的后台作业继续执行。 - `kill %1`:终止后台作业。 优先级调整:
627 5
|
9月前
|
Linux
Linux编程: 在业务线程中注册和处理Linux信号
通过本文,您可以了解如何在业务线程中注册和处理Linux信号。正确处理信号可以提高程序的健壮性和稳定性。希望这些内容能帮助您更好地理解和应用Linux信号处理机制。
176 26
|
9月前
|
Linux
Linux编程: 在业务线程中注册和处理Linux信号
本文详细介绍了如何在Linux中通过在业务线程中注册和处理信号。我们讨论了信号的基本概念,并通过完整的代码示例展示了在业务线程中注册和处理信号的方法。通过正确地使用信号处理机制,可以提高程序的健壮性和响应能力。希望本文能帮助您更好地理解和应用Linux信号处理,提高开发效率和代码质量。
183 17
|
11月前
|
存储 监控 Linux
嵌入式Linux系统编程 — 5.3 times、clock函数获取进程时间
在嵌入式Linux系统编程中,`times`和 `clock`函数是获取进程时间的两个重要工具。`times`函数提供了更详细的进程和子进程时间信息,而 `clock`函数则提供了更简单的处理器时间获取方法。根据具体需求选择合适的函数,可以更有效地进行性能分析和资源管理。通过本文的介绍,希望能帮助您更好地理解和使用这两个函数,提高嵌入式系统编程的效率和效果。
504 13
|
运维 关系型数据库 MySQL
掌握taskset:优化你的Linux进程,提升系统性能
在多核处理器成为现代计算标准的今天,运维人员和性能调优人员面临着如何有效利用这些处理能力的挑战。优化进程运行的位置不仅可以提高性能,还能更好地管理和分配系统资源。 其中,taskset命令是一个强大的工具,它允许管理员将进程绑定到特定的CPU核心,减少上下文切换的开销,从而提升整体效率。
掌握taskset:优化你的Linux进程,提升系统性能
下一篇
oss云网关配置