linux内核 do_fork 函数源代码浅析

简介: 前面已经谈了内核加载与系统引导过程,下面我们来看看内核的 do_fork() 函数是如何创建一个新的进程的。 在 Linux 内核中,供用户创建进程的系统调用fork()函数的响应函数是 sys_fork()、sys_clone()、sys_vfork()。
前面已经谈了内核加载与系统引导过程,下面我们来看看内核的 do_fork() 函数是如何创建一个新的进程的。

在 Linux 内核中,供用户创建进程的系统调用fork()函数的响应函数是 sys_fork()、sys_clone()、sys_vfork()。这三个函数都是通过调用内核函数 do_fork() 来实现的。根据

调用时所使用的 clone_flags 参数不同,do_fork() 函数完成的工作也各异。

这部分内容简单,我不打算就此而展开分析。下面我们重点来讲解以下 do_fork() 函数的工作原理。

我们知道 do_fork() 函数生成一个新的进程,大致分为三个步骤。

1、建立进程控制结构并赋初值,使其成为进程映像。这个过程完成以下内容。

 

  • 在内存中分配一个 task_struct 数据结构,以代表即将产生的新进程。
    把父进程 PCB 的内容复制到新进程的 PCB 中。
    为新进程分配一个唯一的进程标识号 PID 和 user_struct 结构。然后检查用户具有执行一个新进程所必须具有的资源。
    重新设置 task_struct 结构中那些与父进程值不同的数据成员。
    设置进程管理信息,根据所提供的 clone_flags 参数值,决定是否对父进程 task_struct 中的指针 fs 、files 指针等所选择的部分进行拷贝,如果 clone_flags 参数指明的是

    共享而不是拷贝,则将其计数器 count 的值加 1 ,否则就拷贝新进程所需要的相关信息内容 PCB 。这个地方是区分 sys_fork() 还是 sys_clone() 。




2、必须为新进程的执行设置跟踪进程执行情况的相关内核数据结构。包括 任务数组、自由时间列表 tarray_freelist 以及 pidhash[] 数组。
这部分完成如下内容:


  • 把新进程加入到进程链表中。
    把新进程加入到 pidhash 散列表中,并增加任务计数值。
    通过拷贝父进程的上、下文来初始化硬件的上下文(TSS段、LDT以及 GDT)。




3、启动调度程序,使子进程获得运行的机会。
这部分完成以下动作:


  • 设置新的就绪队列状态 TASK_RUNING , 并将新进程挂到就绪队列中,并重新启动调度程序使其运行。
    向父进程返回子进程的 PID,设置子进程从 do_fork() 返回 0 值。


下面就具体的 do_fork() 函数程序代码进行分析(该代码位于 kernel/fork.c 文件中)


int do_fork(unsigned long clone_flags,unsigned long stack_start, struct pt_regs *regs,
                unsigned long stack_size)
{
        int                   retval;
        struct  task_struct   *p;
        struct  completion    vfork;

        retval = -EPERM ;

        if ( clone_flags & CLONE_PID )
        {
              if ( current->pid )
                      goto fork_out;
        }

        reval = -ENOMEM ;
        
        p = alloc_task_struct();    // 分配内存建立新进程的 task_struct 结构
        if ( !p )
               goto fork_out;

        *p = *current ;  //将当前进程的 task_struct 结构的内容复制给新进程的 PCB结构

        retval = -EAGAIN;

        //下面代码对父、子进程 task_struct 结构中不同值的数据成员进行赋值

        if ( atomic_read ( &p->user->processes ) >= p->rlim[RLIMIT_NPROC].rlim_cur
                && !capable( CAP_SYS_ADMIN ) && !capable( CAP_SYS_RESOURCE ))
                goto bad_fork_free;

        atomic_inc ( &p->user->__count);   //count 计数器加 1
        atomic_inc ( &p->user->processes); //进程数加 1

        if ( nr_threads >= max_threads )
               goto bad_fork_cleanup_count ;

        get_exec_domain( p->exec_domain );

        if ( p->binfmt && p->binfmt->module )
                  __MOD_INC_USE_COUNT( p->binfmt->module ); //可执行文件 binfmt 结构共享计数 + 1 
        p->did_exec = 0 ;                                   //进程未执行
        p->swappable = 0 ;                                  //进程不可换出
        p->state = TASK_UNINTERRUPTIBLE ;                   //置进程状态
        copy_flags( clone_flags,p );                        //拷贝进程标志位
        p->pid = get_pid( clone_flags );                    //为新进程分配进程标志号
        p->run_list.next = NULL ;
        p->run_list.prev = NULL ;
        p->run_list.cptr = NULL ;

        init_waitqueue_head( &p->wait_childexit );          //初始化 wait_childexit 队列

        p->vfork_done  = NULL ;

        if ( clone_flags & CLONE_VFORK ) {
               p->vfork_done = &vfork ; 
               init_completion(&vfork) ;
        }

        spin_lock_init( &p->alloc_lock );

        p->sigpending = 0 ;

        init_sigpending( &p->pending );
        p->it_real_value = p->it_virt_value = p->it_prof_value = 0 ; //初始化时间数据成员
        p->it_real_incr = p->it_virt_incr = p->it_prof_incr = 0 ;    //初始化定时器结构
        init_timer( &p->real_timer );
        p->real_timer.data = (unsigned long)p;
        p->leader = 0 ;
        p->tty_old_pgrp = 0 ;
        p->times.tms_utime = p->times.tms_stime = 0 ;                 //初始化进程的各种运行时间
        p->times.tms_cutime = p->times.tms_cstime = 0 ;
#ifdef CONFIG_SMP                 //初始化对称处理器成员
   {
        int      i;
        p->cpus_runnable = ~0UL;
        p->processor = current->processor ;
        for( i = 0 ; i                  p->per_cpu_utime[ i ] = p->per_cpu_stime[ i ] = 0;
        spin_lock_init ( &p->sigmask_lock );
    }

#endif
        p->lock_depth = -1 ;        // 注意:这里 -1 代表 no ,表示在上下文切换时,内核不上锁
        p->start_time = jiffies ;   // 设置进程的起始时间

        INIT_LIST_HEAD ( &p->local_pages );
        retval = -ENOMEM ;

        if ( copy_files ( clone_flags , p ))      //拷贝父进程的 files 指针,共享父进程已打开的文件
                goto bad_fork_cleanup ;

        if ( copy_fs ( clone_flags , p ))         //拷贝父进程的 fs 指针,共享父进程文件系统
                goto bad_fork_cleanup_files ;

        if ( copy_sighand ( clone_flags , p ))    //子进程共享父进程的信号处理函数指针
                goto bad_fork_cleanup_fs ;

        if ( copy_mm ( clone_flags , p ))
                goto bad_fork_cleanup_mm ;        //拷贝父进程的 mm 信息,共享存储管理信息

        retval = copy_thread( 0 , clone_flags , stack_start, stack_size , p regs );
                                                  //初始化 TSS、LDT以及GDT项

        if ( retval )
                goto bad_fork_cleanup_mm ;

        p->semundo = NULL ;                       //初始化信号量成员

        p->prent_exec_id = p-self_exec_id ;

        p->swappable = 1 ;                        //进程占用的内存页面可换出

        p->exit_signal = clone_flag & CSIGNAL ;

        p->pdeatch_signal = 0 ;                   //注意:这里是父进程消亡后发送的信号

        p->counter = (current->counter + 1) >> 1 ;//进程动态优先级,这里设置成父进程的一半,应注意的是,这里是采用位操作来实现的。

        current->counter >> =1;

        if ( !current->counter )
                current->need_resched = 1 ;        //置位重新调度标记,实际上从这个地方开始,分裂成了父子两个进程。
        
        retval = p->pid ;

        p->tpid = retval ;
        INIT_LIST_HEAD( &p->thread_group );

        write_lock_irq( &tasklist_lock );

        p->p_opptr = current->p_opptr ;
        p->p_pptr = current->p_pptr ;

        if ( !( clone_flags & (CLONE_PARENT | CLONE_THREAD ))) {
                 p->opptr = current ;
                 if ( !(p->ptrace & PT_PTRACED) )
                         p->p_pptr = current ;
        }

        if ( clone_flags & CLONE_THREAD ){
                 p->tpid = current->tpid ;
                 list_add ( &p->thread_group,&current->thread_group );
        }

        SET_LINKS(p);

        hash_pid(p);
        nr_threads++;

        write_unlock_irq( &tasklist_lock );
        if ( p->ptrace & PT_PTRACED )
                  send_sig( SIGSTOP , p ,1 );
        wake_up_process(p);        //把新进程加入运行队列,并启动调度程序重新调度,使新进程获得运行机会
        ++total_forks ; 
        if ( clone_flags & CLONE_VFRK )
                  wait_for_completion(&vfork);

        //以下是出错处理部分
        fork_out:
                  return retval;
        bad_fork_cleanup_mm:
                  exit_mm(p);
        bad_fork_cleanup_sighand:
                  exit_sighand(p);
        bad_fork_cleanup_fs:
                  exit_fs(p);
        bad_fork_cleanup_files:
                  exit_files(p);

        bad_fork_cleanup:
                  put_exec_domain( p->exec_domain );

                  if ( p->binfmt && p->binfmt->module )
                                __MOD_DEC_USE_COUNT( p->binfmt->module );
        bad_fork_cleanup_count:
                  atomic_dec( &p->user->processes );
                  free_uid ( p->user );
        bad_fork_free:
                  free_task_struct(p);
                  goto fork_out;
}



PS:
代码是分析完了,有两个方面的体会:
一、这个函数重点是理解进程分裂的部分,其中两次返回 pid 的值是理解的重中之重。
二、尽管我一直不主张在程序中大量使用 goto 语句,不得不承认,那些大牛的 goto 语句用在此处是恰到好处啊。^_^

目录
相关文章
|
9月前
|
安全 网络协议 Linux
深入理解Linux内核模块:加载机制、参数传递与实战开发
本文深入解析了Linux内核模块的加载机制、参数传递方式及实战开发技巧。内容涵盖模块基础概念、加载与卸载流程、生命周期管理、参数配置方法,并通过“Hello World”模块和字符设备驱动实例,带领读者逐步掌握模块开发技能。同时,介绍了调试手段、常见问题排查、开发规范及高级特性,如内核线程、模块间通信与性能优化策略。适合希望深入理解Linux内核机制、提升系统编程能力的技术人员阅读与实践。
772 1
|
9月前
|
Ubuntu Linux
Ubuntu 23.04 用上 Linux 6.2 内核,预计下放到 22.04 LTS 版本
Linux 6.2 带来了多项内容更新,修复了 AMD 锐龙处理器设备在启用 fTPM 后的运行卡顿问题,还增强了文件系统。
|
9月前
|
Ubuntu Linux
Ubuntu 23.10 现在由Linux内核6.3提供支持
如果你想在你的个人电脑上测试一下Ubuntu 23.10的最新开发快照,你可以从官方下载服务器下载最新的每日构建ISO。然而,请记住,这是一个预发布版本,所以不要在生产机器上使用或安装它。
|
9月前
|
监控 Ubuntu Linux
什么Linux,Linux内核及Linux操作系统
上面只是简单的介绍了一下Linux操作系统的几个核心组件,其实Linux的整体架构要复杂的多。单纯从Linux内核的角度,它要管理CPU、内存、网卡、硬盘和输入输出等设备,因此内核本身分为进程调度,内存管理,虚拟文件系统,网络接口等4个核心子系统。
959 0
|
9月前
|
Web App开发 缓存 Rust
|
9月前
|
Ubuntu 安全 Linux
Ubuntu 发行版更新 Linux 内核,修复 17 个安全漏洞
本地攻击者可以利用上述漏洞,攻击 Ubuntu 22.10、Ubuntu 22.04、Ubuntu 20.04 LTS 发行版,导致拒绝服务(系统崩溃)或执行任意代码。
|
8月前
|
Linux 应用服务中间件 Shell
二、Linux文本处理与文件操作核心命令
熟悉了Linux的基本“行走”后,就该拿起真正的“工具”干活了。用grep这个“放大镜”在文件里搜索内容,用find这个“探测器”在系统中寻找文件,再用tar把东西打包带走。最关键的是要学会使用管道符|,它像一条流水线,能把这些命令串联起来,让简单工具组合出强大的功能,比如 ps -ef | grep 'nginx' 就能快速找出nginx进程。
871 1
二、Linux文本处理与文件操作核心命令
|
8月前
|
Linux
linux命令—stat
`stat` 是 Linux 系统中用于查看文件或文件系统详细状态信息的命令。相比 `ls -l`,它提供更全面的信息,包括文件大小、权限、所有者、时间戳(最后访问、修改、状态变更时间)、inode 号、设备信息等。其常用选项包括 `-f` 查看文件系统状态、`-t` 以简洁格式输出、`-L` 跟踪符号链接,以及 `-c` 或 `--format` 自定义输出格式。通过这些选项,用户可以灵活获取所需信息,适用于系统调试、权限检查、磁盘管理等场景。
494 137
|
8月前
|
安全 Ubuntu Unix
一、初识 Linux 与基本命令
玩转Linux命令行,就像探索一座新城市。首先要熟悉它的“地图”,也就是/根目录下/etc(放配置)、/home(住家)这些核心区域。然后掌握几个“生存口令”:用ls看周围,cd去别处,mkdir建新房,cp/mv搬东西,再用cat或tail看文件内容。最后,别忘了随时按Tab键,它能帮你自动补全命令和路径,是提高效率的第一神器。
1344 58