Linux进程地址空间

简介: Linux进程地址空间

引入—从语言层面过渡到系统层面

在学习C/C++时,我们知道地址空间的大概布局图如下:

通过以下代码我们可以根据对应变量的地址空间来感受对应区域:

#include<stdio.h>
#include<stdlib.h>
int un_gval;
int init_gval=100;
struct s
{
    int a;
    int b;
    int c;
};
int main(int argc, char* argv[], char* env[])
{
  printf("code addr: %p\n", main);
  char* str = "hello linux";
  printf("read only char addr: %p\n", str);
  printf("init global value addr: %p\n", &init_gval);
  printf("uninit global value addr: %p\n", &un_gval);
  char* heap1 = (char*)malloc(100);
  char* heap2 = (char*)malloc(100);
  char* heap3 = (char*)malloc(100);
  char* heap4 = (char*)malloc(100);
  static int a = 0;
  printf("heap1 addr : %p\n", heap1);
  printf("heap2 addr : %p\n", heap2);
  printf("heap3 addr : %p\n", heap3);
  printf("heap4 addr : %p\n", heap4);
  printf("stack addr : %p\n", &str);
  printf("stack addr : %p\n", &heap1);
  printf("stack addr : %p\n", &heap2);
  printf("stack addr : %p\n", &heap3);
  printf("stack addr : %p\n", &heap4);
  printf("a addr : %p\n", &a);
  int i = 0;
  for (; argv[i]; i++)
  {
    printf("argv[%d]: %p\n", i, argv[i]);
  }
  for (i = 0; env[i]; i++)
  {
    printf("env[%d]: %p\n", i, env[i]);
  }
  return 0;
}

       在感受到语言层面的地址空间后,请再看下面这段代码:

#include <stdio.h>
#include <unistd.h>
#include <stdlib.h>
int g_val = 0;
int main()
{
pid_t id = fork();
if(id < 0){
perror("fork");
return 0;
}
else if(id == 0){ //child,子进程肯定先跑完,也就是子进程先修改,完成之后,父进程再读取
g_val=100;
printf("child[%d]: %d : %p\n", getpid(), g_val, &g_val);
}else{ //parent
sleep(3);
printf("parent[%d]: %d : %p\n", getpid(), g_val, &g_val);
}
sleep(1);
return 0;
}
child[23349]: 100 : 0x601058
parent[23348]: 0 : 0x601058

我们发现,父子进程,输出地址是一致的,但是变量内容不一样!能得出如下结论:

变量内容不一样,所以父子进程输出的变量绝对不是同一个变量

但地址值是一样的,说明,该地址绝对不是物理地址!

在Linux地址下,这种地址叫做 虚拟地址我们在用C/C++语言所看到的地址,全部都是虚拟地址!

物理地址,用户一概看不到,由OS统一管理OS必须负责将 虚拟地址 转化成 物理地址 。


  对此我们称之前在语言层面所看到地址空间为进程地址空间,不是实际的物理空间。实际的空间如下:为进程地址空间(也就是进程地址空间+页表(页表是一个映射表,它将虚拟地址转换为物理地址)+物理内存)。对于g_val值改变原因的理解,在g_val没有被子进程改变时,实际上父进程和子进程的虚拟地址映射的是同一块的物理地址。我们都知道父进程fork()后才会生成子进程,这个过程会让子进程拷贝一份父进程的PCB等等,对此对于页表也是会拷贝的,这个过程我们可以理解为C++中的浅拷贝。而在g_val被子进程改变后,这时子进程就不能与父进程指向同一块物理地址了,这个系统会给子进程开辟一块新的物理空间,而子进程的页表会更新这个新的物理地址。这个过程可以理解为C++中的深拷贝。如下:


什么是地址空间?

       无论如何,地址空间也要被OS管理起来,每一个进程都要有地址空间,系统中,一定要对地址空间做管理!在了解地址空间前我们先了解一个概念—区域划分。

区域划分

在地址空间中的结构体定义了这样的一些变量用于区域划分:

unsigned long hiwater_rss;  /* High-watermark of RSS usage */
unsigned long hiwater_vm; /* High-water virtual memory usage */
unsigned long total_vm, locked_vm, shared_vm, exec_vm;
unsigned long stack_vm, reserved_vm, def_flags, nr_ptes;
unsigned long start_code, end_code, start_data, end_data;
unsigned long start_brk, brk, start_stack;
unsigned long arg_start, arg_end, env_start, env_end;

由此可见,地址空间中的区域划分对于每一个区块是通过两个变量start、end来控制的,其中对应的地址可以被我们直接使用,而由于是用变量来管理的,对此我们很容易对空间进行区域的管理—比如堆栈相对而生。

       对于什么是地址空间:地址空间在Linux内核中其实就是一个结构体。是一个内核数据结构。在Linux内核中是一个叫struct mm_struct的结构体,他最后会被struct task_struct也就是PCB用指针所指向:


为什么要有地址空间?

       1、让进程以统一的视角看待内存,所以任意一个进程,可以通过地址空间+页表将乱序的内存数据变成有序,分门别类的规划好

       2、存在虚拟地址空间,可以有效的进行进程访问内存的安全检查!页表存在访问权限字段,可以根据字段防止非法读写。例如以下的代码:我们都知道字符常量区不能被修改,这是因为访问权限字段为只读。实际上,内存是可以随意读写的,有对应的限制是因为页表对应字段的控制,因此有相应的权限。

#include <stdio.h>
#include <unistd.h>
#include <stdlib.h>
int main()
{
    char *str = "hello Linux";
    *str = 'H'; 
    return 0;
}

3、因为有页表的存在,地址空间可以将进程管理和内存管理解耦。通过页表,让进程映射到不同的物理内存处,从而实现进程的独立性!


对地址空间学习的拓展

       1、每一个进程都有页表。

       2、OS中有个CR3寄存器用于保存页表的地址(物理地址),用于进程的切换(联系PCB和数据的切换,页表也会跟着切换)。

       3、页表中除了虚拟地址到物理地址的映射、访问权限字段外还有一个字段对应的物理地址是否分配和是否有内容。这就联系到了挂起的概念,如果系统中查页表发现该字段可以间接的判断该进程是否被挂起。

       4、实际上在地址空间中的结构体中还定义了几个结构体指针变量进一步的控制地址空间的子区域划分,如果当前的地址空间也就是上面通过分别通过两个变量控制的地址空间不满足我们的需求了,而这时堆栈见还存在大量的空间,我们需要一小段的区域单独进行特定的映射,我们可以进行申请vm_area_struct的结构体对象:

  struct vm_area_struct * mmap;   /* list of VMAs */
  struct rb_root mm_rb;
  struct vm_area_struct * mmap_cache; /* last find_vma result */

而进一步挖掘他的结构体指针我们会发现这不就是上面所提到的根据两个变量进行一个区域的划分吗?注意下面还有个结构体指针,这说明在地址空间中,这个区域划分是一个链表,每一块划分都会根据链表连接,表头在地址空间中(由上面的代码可知):

  struct mm_struct * vm_mm; /* The address space we belong to. */
  unsigned long vm_start;   /* Our start address within vm_mm. */
  unsigned long vm_end;   /* The first byte after our end address
             within vm_mm. */
  /* linked list of VM areas per task, sorted by address */
  struct vm_area_struct *vm_next;

   大致的结果如下,这才是完整的地址空间:


 感谢你耐心的看到这里ღ( ´・ᴗ・` )比心,如有哪里有错误请踢一脚作者o(╥﹏╥)o! 

相关文章
|
15天前
|
存储 Linux 调度
深入理解Linux内核:从用户空间到内核空间的旅程
【8月更文挑战第4天】在这篇文章中,我们将探索Linux操作系统的核心—内核。通过了解内核如何管理硬件资源,以及它是如何在用户空间和内核空间之间架起桥梁的,我们可以更好地理解操作系统的工作原理。本文将介绍一些关键概念,并通过代码示例来揭示这些概念是如何在实际中应用的。无论你是开发者、系统管理员还是对操作系统感兴趣的爱好者,这篇文章都将为你提供一个深入了解Linux内核的机会。让我们开始这段旅程吧!
|
22天前
|
弹性计算 Linux 区块链
Linux系统CPU异常占用(minerd 、tplink等挖矿进程)
Linux系统CPU异常占用(minerd 、tplink等挖矿进程)
30 4
Linux系统CPU异常占用(minerd 、tplink等挖矿进程)
|
4天前
|
Linux 调度
Linux源码阅读笔记05-进程优先级与调度策略-实战分析
Linux源码阅读笔记05-进程优先级与调度策略-实战分析
|
4天前
|
Linux API C语言
Linux源码阅读笔记02-进程原理及系统调用
Linux源码阅读笔记02-进程原理及系统调用
|
7天前
|
Linux Shell 调度
【在Linux世界中追寻伟大的One Piece】Linux进程概念
【在Linux世界中追寻伟大的One Piece】Linux进程概念
15 1
|
2天前
|
网络协议 Ubuntu Linux
会Linux系统上配IPv6地址的网工,那真是老6了!
会Linux系统上配IPv6地址的网工,那真是老6了!
|
5天前
|
Linux
Linux 查找进程所在目录
Linux 查找进程所在目录
15 0
|
7天前
|
缓存 Linux Shell
【在Linux世界中追寻伟大的One Piece】Linux进程控制
【在Linux世界中追寻伟大的One Piece】Linux进程控制
13 0
|
15天前
|
Linux
【Deepin 20系统】Linux系统修改MATLAB 打开默认地址(默认工作空间)
如何在Linux系统中修改MATLAB的默认打开地址(默认工作空间),通过编辑matlabrc.m文件来设置启动MATLAB时的初始目录。
52 0
|
15天前
|
监控 Linux Shell
探索Linux操作系统下的进程管理
【8月更文挑战第4天】本文深入探讨了在Linux操作系统下进行进程管理的方法与技巧,通过实例分析展示了如何利用系统命令和脚本来监控、控制进程。文中不仅介绍了基础的进程查看、启动、终止操作,还详细解释了如何通过信号机制处理进程间的通信,以及如何编写自动化脚本以优化日常管理任务。文章旨在为系统管理员和开发人员提供实用的进程管理知识,帮助他们更高效地维护Linux系统。