Linux进程地址空间

简介: Linux进程地址空间

引入—从语言层面过渡到系统层面

在学习C/C++时,我们知道地址空间的大概布局图如下:

通过以下代码我们可以根据对应变量的地址空间来感受对应区域:

#include<stdio.h>
#include<stdlib.h>
int un_gval;
int init_gval=100;
struct s
{
    int a;
    int b;
    int c;
};
int main(int argc, char* argv[], char* env[])
{
  printf("code addr: %p\n", main);
  char* str = "hello linux";
  printf("read only char addr: %p\n", str);
  printf("init global value addr: %p\n", &init_gval);
  printf("uninit global value addr: %p\n", &un_gval);
  char* heap1 = (char*)malloc(100);
  char* heap2 = (char*)malloc(100);
  char* heap3 = (char*)malloc(100);
  char* heap4 = (char*)malloc(100);
  static int a = 0;
  printf("heap1 addr : %p\n", heap1);
  printf("heap2 addr : %p\n", heap2);
  printf("heap3 addr : %p\n", heap3);
  printf("heap4 addr : %p\n", heap4);
  printf("stack addr : %p\n", &str);
  printf("stack addr : %p\n", &heap1);
  printf("stack addr : %p\n", &heap2);
  printf("stack addr : %p\n", &heap3);
  printf("stack addr : %p\n", &heap4);
  printf("a addr : %p\n", &a);
  int i = 0;
  for (; argv[i]; i++)
  {
    printf("argv[%d]: %p\n", i, argv[i]);
  }
  for (i = 0; env[i]; i++)
  {
    printf("env[%d]: %p\n", i, env[i]);
  }
  return 0;
}

       在感受到语言层面的地址空间后,请再看下面这段代码:

#include <stdio.h>
#include <unistd.h>
#include <stdlib.h>
int g_val = 0;
int main()
{
pid_t id = fork();
if(id < 0){
perror("fork");
return 0;
}
else if(id == 0){ //child,子进程肯定先跑完,也就是子进程先修改,完成之后,父进程再读取
g_val=100;
printf("child[%d]: %d : %p\n", getpid(), g_val, &g_val);
}else{ //parent
sleep(3);
printf("parent[%d]: %d : %p\n", getpid(), g_val, &g_val);
}
sleep(1);
return 0;
}
child[23349]: 100 : 0x601058
parent[23348]: 0 : 0x601058

我们发现,父子进程,输出地址是一致的,但是变量内容不一样!能得出如下结论:

变量内容不一样,所以父子进程输出的变量绝对不是同一个变量

但地址值是一样的,说明,该地址绝对不是物理地址!

在Linux地址下,这种地址叫做 虚拟地址我们在用C/C++语言所看到的地址,全部都是虚拟地址!

物理地址,用户一概看不到,由OS统一管理OS必须负责将 虚拟地址 转化成 物理地址 。


  对此我们称之前在语言层面所看到地址空间为进程地址空间,不是实际的物理空间。实际的空间如下:为进程地址空间(也就是进程地址空间+页表(页表是一个映射表,它将虚拟地址转换为物理地址)+物理内存)。对于g_val值改变原因的理解,在g_val没有被子进程改变时,实际上父进程和子进程的虚拟地址映射的是同一块的物理地址。我们都知道父进程fork()后才会生成子进程,这个过程会让子进程拷贝一份父进程的PCB等等,对此对于页表也是会拷贝的,这个过程我们可以理解为C++中的浅拷贝。而在g_val被子进程改变后,这时子进程就不能与父进程指向同一块物理地址了,这个系统会给子进程开辟一块新的物理空间,而子进程的页表会更新这个新的物理地址。这个过程可以理解为C++中的深拷贝。如下:


什么是地址空间?

       无论如何,地址空间也要被OS管理起来,每一个进程都要有地址空间,系统中,一定要对地址空间做管理!在了解地址空间前我们先了解一个概念—区域划分。

区域划分

在地址空间中的结构体定义了这样的一些变量用于区域划分:

unsigned long hiwater_rss;  /* High-watermark of RSS usage */
unsigned long hiwater_vm; /* High-water virtual memory usage */
unsigned long total_vm, locked_vm, shared_vm, exec_vm;
unsigned long stack_vm, reserved_vm, def_flags, nr_ptes;
unsigned long start_code, end_code, start_data, end_data;
unsigned long start_brk, brk, start_stack;
unsigned long arg_start, arg_end, env_start, env_end;

由此可见,地址空间中的区域划分对于每一个区块是通过两个变量start、end来控制的,其中对应的地址可以被我们直接使用,而由于是用变量来管理的,对此我们很容易对空间进行区域的管理—比如堆栈相对而生。

       对于什么是地址空间:地址空间在Linux内核中其实就是一个结构体。是一个内核数据结构。在Linux内核中是一个叫struct mm_struct的结构体,他最后会被struct task_struct也就是PCB用指针所指向:


为什么要有地址空间?

       1、让进程以统一的视角看待内存,所以任意一个进程,可以通过地址空间+页表将乱序的内存数据变成有序,分门别类的规划好

       2、存在虚拟地址空间,可以有效的进行进程访问内存的安全检查!页表存在访问权限字段,可以根据字段防止非法读写。例如以下的代码:我们都知道字符常量区不能被修改,这是因为访问权限字段为只读。实际上,内存是可以随意读写的,有对应的限制是因为页表对应字段的控制,因此有相应的权限。

#include <stdio.h>
#include <unistd.h>
#include <stdlib.h>
int main()
{
    char *str = "hello Linux";
    *str = 'H'; 
    return 0;
}

3、因为有页表的存在,地址空间可以将进程管理和内存管理解耦。通过页表,让进程映射到不同的物理内存处,从而实现进程的独立性!


对地址空间学习的拓展

       1、每一个进程都有页表。

       2、OS中有个CR3寄存器用于保存页表的地址(物理地址),用于进程的切换(联系PCB和数据的切换,页表也会跟着切换)。

       3、页表中除了虚拟地址到物理地址的映射、访问权限字段外还有一个字段对应的物理地址是否分配和是否有内容。这就联系到了挂起的概念,如果系统中查页表发现该字段可以间接的判断该进程是否被挂起。

       4、实际上在地址空间中的结构体中还定义了几个结构体指针变量进一步的控制地址空间的子区域划分,如果当前的地址空间也就是上面通过分别通过两个变量控制的地址空间不满足我们的需求了,而这时堆栈见还存在大量的空间,我们需要一小段的区域单独进行特定的映射,我们可以进行申请vm_area_struct的结构体对象:

  struct vm_area_struct * mmap;   /* list of VMAs */
  struct rb_root mm_rb;
  struct vm_area_struct * mmap_cache; /* last find_vma result */

而进一步挖掘他的结构体指针我们会发现这不就是上面所提到的根据两个变量进行一个区域的划分吗?注意下面还有个结构体指针,这说明在地址空间中,这个区域划分是一个链表,每一块划分都会根据链表连接,表头在地址空间中(由上面的代码可知):

  struct mm_struct * vm_mm; /* The address space we belong to. */
  unsigned long vm_start;   /* Our start address within vm_mm. */
  unsigned long vm_end;   /* The first byte after our end address
             within vm_mm. */
  /* linked list of VM areas per task, sorted by address */
  struct vm_area_struct *vm_next;

   大致的结果如下,这才是完整的地址空间:


 感谢你耐心的看到这里ღ( ´・ᴗ・` )比心,如有哪里有错误请踢一脚作者o(╥﹏╥)o! 

相关文章
|
4天前
|
NoSQL Linux 程序员
【linux进程信号(一)】信号的概念以及产生信号的方式
【linux进程信号(一)】信号的概念以及产生信号的方式
|
4天前
|
Linux
【linux进程间通信(一)】匿名管道和命名管道
【linux进程间通信(一)】匿名管道和命名管道
|
4天前
|
Java Shell Linux
【linux进程控制(三)】进程程序替换--如何自己实现一个bash解释器?
【linux进程控制(三)】进程程序替换--如何自己实现一个bash解释器?
|
4天前
|
算法 Linux Shell
【linux进程(二)】如何创建子进程?--fork函数深度剖析
【linux进程(二)】如何创建子进程?--fork函数深度剖析
|
4天前
|
存储 Linux Shell
【linux进程(一)】深入理解进程概念--什么是进程?PCB的底层是什么?
【linux进程(一)】深入理解进程概念--什么是进程?PCB的底层是什么?
|
5天前
|
消息中间件 Unix Linux
Linux的学习之路:17、进程间通信(1)
Linux的学习之路:17、进程间通信(1)
20 1
|
5天前
|
存储 安全 Linux
Linux的学习之路:9、冯诺依曼与进程(1)
Linux的学习之路:9、冯诺依曼与进程(1)
18 0
|
11天前
|
算法 Linux 调度
深入理解Linux内核的进程调度机制
【4月更文挑战第17天】在多任务操作系统中,进程调度是核心功能之一,它决定了处理机资源的分配。本文旨在剖析Linux操作系统内核的进程调度机制,详细讨论其调度策略、调度算法及实现原理,并探讨了其对系统性能的影响。通过分析CFS(完全公平调度器)和实时调度策略,揭示了Linux如何在保证响应速度与公平性之间取得平衡。文章还将评估最新的调度技术趋势,如容器化和云计算环境下的调度优化。
|
12天前
|
监控 Linux
linux监控指定进程
请注意,以上步骤提供了一种基本的方式来监控指定进程。根据你的需求,你可以选择使用不同的工具和参数来获取更详细的进程信息。
14 0
|
13天前
|
消息中间件 监控 Linux
Linux进程和计划任务管理
通过这些命令和工具,你可以有效地管理Linux系统中的进程和计划任务,监控系统的运行状态并保持系统的稳定和可靠性。 买CN2云服务器,免备案服务器,高防服务器,就选蓝易云。百度搜索:蓝易云
103 2