Linux进程地址空间-阿里云开发者社区

Linux进程地址空间

2024-01-24 203

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Linux进程地址空间

引入—从语言层面过渡到系统层面

在学习C/C++时，我们知道地址空间的大概布局图如下：

通过以下代码我们可以根据对应变量的地址空间来感受对应区域：

#include<stdio.h>
#include<stdlib.h>
int un_gval;
int init_gval=100;
struct s
{
    int a;
    int b;
    int c;
};
int main(int argc, char* argv[], char* env[])
{
  printf("code addr: %p\n", main);
  char* str = "hello linux";
  printf("read only char addr: %p\n", str);
  printf("init global value addr: %p\n", &init_gval);
  printf("uninit global value addr: %p\n", &un_gval);
  char* heap1 = (char*)malloc(100);
  char* heap2 = (char*)malloc(100);
  char* heap3 = (char*)malloc(100);
  char* heap4 = (char*)malloc(100);
  static int a = 0;
  printf("heap1 addr : %p\n", heap1);
  printf("heap2 addr : %p\n", heap2);
  printf("heap3 addr : %p\n", heap3);
  printf("heap4 addr : %p\n", heap4);
  printf("stack addr : %p\n", &str);
  printf("stack addr : %p\n", &heap1);
  printf("stack addr : %p\n", &heap2);
  printf("stack addr : %p\n", &heap3);
  printf("stack addr : %p\n", &heap4);
  printf("a addr : %p\n", &a);
  int i = 0;
  for (; argv[i]; i++)
  {
    printf("argv[%d]: %p\n", i, argv[i]);
  }
  for (i = 0; env[i]; i++)
  {
    printf("env[%d]: %p\n", i, env[i]);
  }
  return 0;
}

在感受到语言层面的地址空间后，请再看下面这段代码：

#include <stdio.h>
#include <unistd.h>
#include <stdlib.h>
int g_val = 0;
int main()
{
pid_t id = fork();
if(id < 0){
perror("fork");
return 0;
}
else if(id == 0){ //child,子进程肯定先跑完，也就是子进程先修改，完成之后，父进程再读取
g_val=100;
printf("child[%d]: %d : %p\n", getpid(), g_val, &g_val);
}else{ //parent
sleep(3);
printf("parent[%d]: %d : %p\n", getpid(), g_val, &g_val);
}
sleep(1);
return 0;
}

child[23349]: 100 : 0x601058
parent[23348]: 0 : 0x601058

我们发现，父子进程，输出地址是一致的，但是变量内容不一样！能得出如下结论:

变量内容不一样,所以父子进程输出的变量绝对不是同一个变量

但地址值是一样的，说明，该地址绝对不是物理地址！

在Linux地址下，这种地址叫做虚拟地址我们在用C/C++语言所看到的地址，全部都是虚拟地址！

物理地址，用户一概看不到，由OS统一管理OS必须负责将虚拟地址转化成物理地址。

对此我们称之前在语言层面所看到地址空间为进程地址空间，不是实际的物理空间。实际的空间如下：为进程地址空间（也就是进程地址空间+页表（页表是一个映射表，它将虚拟地址转换为物理地址）+物理内存）。对于g_val值改变原因的理解，在g_val没有被子进程改变时，实际上父进程和子进程的虚拟地址映射的是同一块的物理地址。我们都知道父进程fork()后才会生成子进程，这个过程会让子进程拷贝一份父进程的PCB等等，对此对于页表也是会拷贝的，这个过程我们可以理解为C++中的浅拷贝。而在g_val被子进程改变后，这时子进程就不能与父进程指向同一块物理地址了，这个系统会给子进程开辟一块新的物理空间，而子进程的页表会更新这个新的物理地址。这个过程可以理解为C++中的深拷贝。如下：

什么是地址空间？

无论如何，地址空间也要被OS管理起来，每一个进程都要有地址空间，系统中，一定要对地址空间做管理！在了解地址空间前我们先了解一个概念—区域划分。

区域划分

在地址空间中的结构体定义了这样的一些变量用于区域划分：

unsigned long hiwater_rss;  /* High-watermark of RSS usage */
unsigned long hiwater_vm; /* High-water virtual memory usage */
unsigned long total_vm, locked_vm, shared_vm, exec_vm;
unsigned long stack_vm, reserved_vm, def_flags, nr_ptes;
unsigned long start_code, end_code, start_data, end_data;
unsigned long start_brk, brk, start_stack;
unsigned long arg_start, arg_end, env_start, env_end;

由此可见，地址空间中的区域划分对于每一个区块是通过两个变量start、end来控制的，其中对应的地址可以被我们直接使用，而由于是用变量来管理的，对此我们很容易对空间进行区域的管理—比如堆栈相对而生。

对于什么是地址空间：地址空间在Linux内核中其实就是一个结构体。是一个内核数据结构。在Linux内核中是一个叫struct mm_struct的结构体，他最后会被struct task_struct也就是PCB用指针所指向：

为什么要有地址空间？

1、让进程以统一的视角看待内存，所以任意一个进程，可以通过地址空间+页表将乱序的内存数据变成有序，分门别类的规划好！

2、存在虚拟地址空间，可以有效的进行进程访问内存的安全检查！页表存在访问权限字段，可以根据字段防止非法读写。例如以下的代码：我们都知道字符常量区不能被修改，这是因为访问权限字段为只读。实际上，内存是可以随意读写的，有对应的限制是因为页表对应字段的控制，因此有相应的权限。

#include <stdio.h>
#include <unistd.h>
#include <stdlib.h>
int main()
{
    char *str = "hello Linux";
    *str = 'H'; 
    return 0;
}

3、因为有页表的存在，地址空间可以将进程管理和内存管理解耦。通过页表，让进程映射到不同的物理内存处，从而实现进程的独立性！

对地址空间学习的拓展

1、每一个进程都有页表。

2、OS中有个CR3寄存器用于保存页表的地址（物理地址），用于进程的切换（联系PCB和数据的切换，页表也会跟着切换）。

3、页表中除了虚拟地址到物理地址的映射、访问权限字段外还有一个字段对应的物理地址是否分配和是否有内容。这就联系到了挂起的概念，如果系统中查页表发现该字段可以间接的判断该进程是否被挂起。

4、实际上在地址空间中的结构体中还定义了几个结构体指针变量进一步的控制地址空间的子区域划分，如果当前的地址空间也就是上面通过分别通过两个变量控制的地址空间不满足我们的需求了，而这时堆栈见还存在大量的空间，我们需要一小段的区域单独进行特定的映射，我们可以进行申请vm_area_struct的结构体对象：

  struct vm_area_struct * mmap;   /* list of VMAs */
  struct rb_root mm_rb;
  struct vm_area_struct * mmap_cache; /* last find_vma result */

而进一步挖掘他的结构体指针我们会发现这不就是上面所提到的根据两个变量进行一个区域的划分吗？注意下面还有个结构体指针，这说明在地址空间中，这个区域划分是一个链表，每一块划分都会根据链表连接，表头在地址空间中（由上面的代码可知）：

  struct mm_struct * vm_mm; /* The address space we belong to. */
  unsigned long vm_start;   /* Our start address within vm_mm. */
  unsigned long vm_end;   /* The first byte after our end address
             within vm_mm. */
  /* linked list of VM areas per task, sorted by address */
  struct vm_area_struct *vm_next;

大致的结果如下，这才是完整的地址空间：

感谢你耐心的看到这里ღ( ´･ᴗ･` )比心，如有哪里有错误请踢一脚作者o(╥﹏╥)o！

Linux进程地址空间

引入—从语言层面过渡到系统层面

什么是地址空间？

区域划分

为什么要有地址空间？

对地址空间学习的拓展

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Linux进程地址空间

引入—从语言层面过渡到系统层面

什么是地址空间？

区域划分

为什么要有地址空间？

对地址空间学习的拓展

热门文章

最新文章

相关课程

相关电子书

推荐镜像