【Linux】进程虚拟地址空间

简介: 【Linux】进程虚拟地址空间

一. 回顾


我们在学C/C++的时候,老师给大家画过这样的空间布局图


0a2653c851af460fa595bd959398a8f1.png


那么这是内存吗?事实上它压根不是内存,我知道你很急,但你先别急🤞


🔥小实验

我们先来看一段代码 ——


2d65d23f6d4748949b924e4057485923.png


惊奇的发现:同一个地址,居然打出了不同的变量


0a2653c851af460fa595bd959398a8f1.png


怎么可能同一个地址,同时读取的时候,出现了不同的值?

这里的地址,绝对不是物理地址❗❗ 而是虚拟地址


注:


几乎所以的语言,如果他有“地址”的概念,这个地址一定不是物理地址,而是虚拟地址

🔥验证地址空间排布

上代码——


#include<stdio.h>
#include<stdlib.h> // malloc
int g_unval;    // 未初始化数据区
int g_val = 10; // 已初始化数据区
int main(int argc, char* argv[], char* env[])
{
    printf("code addr        : %p\n", main); // 代码区
    printf("\n");
    const char *p = "hello";
    printf("read only        : %p\n", p);    // 字符常量区(只读)
    printf("\n");
    printf("global val       : %p\n", &g_val);   // 已初始化数据区
    printf("global uninit val: %p\n", &g_unval); // 未初始化数据区
    printf("\n");
    char *heap_men = (char*)malloc(10);
    char *heap_men2 = (char*)malloc(10);
    char *heap_men3 = (char*)malloc(10);
    printf("head addr        : %p\n", heap_men);  // 堆区(向上增长)
    printf("head addr        : %p\n", heap_men2);
    printf("head addr        : %p\n", heap_men3);
    printf("stack addr       : %p\n", &heap_men);     // 栈区(向下增长)
    printf("stack addr       : %p\n", &heap_men2);   //heap_men本质就是main函数里的指针变量,开辟了空间,所以直接&
    printf("stack addr       : %p\n", &heap_men3);
    int i=0;
    for(i=0 ; i < argc; i++)
    {
       printf("argv[%d]: %p\n", i, argv[i]);
    }
    for(i=0;env[i]; i++)
    {
       printf("env[%d]: %p\n ", i, env[i]);
    } 
    return 0;
}


运行结果:


2d65d23f6d4748949b924e4057485923.png


口诀:堆,栈相对而生


🔥语法小问题


1️⃣ 上面的代码,我们malloc了10个字节,可是打印出来的时候


6de278e6d6694ce5bb08e7e842b7e74b.png


却相隔了20个字节,其实是操作系统多申请了字节,其中多申请的字节放的是堆的属性信息(cookie数据):申请的时间,堆的大小等等


2️⃣ static修饰变量呢?


static int test = 10;
printf("test stack addr: %p\n", &test);

0a2653c851af460fa595bd959398a8f1.png


🌈static修饰局部变量,本质是把static变量开辟在了全局区域


3️⃣在32位下,一个进程的地址空间,取值范围是:0x00000000 ~ 0xFFFFFFFF


【0,3G】:用户空间

【3G,4G】:内核空间

上面的验证代码,在windows下会跑出不一样的结果❗


上面的结论,默认只在Linux下有效!


二. 进程地址空间


🌈 地址空间是什么 (what?)

所以之前所说的“程序地址空间”是不准确的,准确的说是“进程地址空间”,那么什么是进程地址空间呢?


假设有一个富豪,他有 10 亿美元的家产,而这个富豪他有 3 个私生子,但这 3个私生子此之间并不知道对方的存在,这个富豪对他的每个私生子都说过同一句话:儿子,这10亿的家产未来都是你的。

站在每个私生子的视角中,每个私生子都认为自己拥有 10 亿美元。

如果每个私生子都找父亲一次性要 10 个亿,这个富豪是拿不出来的,但实际上这是不可能的,每个私生子找父亲要钱,一般只会几千几万这样一点点去要,这个富豪只要有,就一定会给。如果私生子要的钱太多,富豪不给,私生子也只会认为是父亲不想给我。

换言之,这个富豪给每个私生子在大脑中建立一个「虚拟」的概念:都认为自己拥有 10 亿美元。类比到计算机中:


富豪,称之为操作系统


私生子,称之为一个个独立的进程


富豪给私生子画的 10 亿家产(大饼),称之为进程的地址空间


1️⃣ 我们直接访问物理内存,特别不安全(野指针等)


💦所以让用户不能直接用物理地址


每个进程都要有一个地址空间,操作系统为每一个进程画了一个大饼,它们都认为自己在独占物理内存

系统中存在大量进程,需要管理地址空间,那么就需要先描述,再组织(今天不考虑)


📌内核中的地址空间,本质也一定是一种数据结构,将来一定要和特定的进程关联起来


struct mm_struct
{
    //进程地址空间
}


那么我们是如何用struct结构体进行划分区域?各个区域又是如何与物理内存建立关联的?


🌈 地址空间是如何设计(how?)

🌊区域划分 & 页表映射

💦地址空间是一种内核数据结构,它里面至少要有:各个区域的划分

0a2653c851af460fa595bd959398a8f1.png


其中堆栈增长会有范围的变化:本质其实就是对start 或者end标记值 ±特定的范围即可!!


地址空间和页表(用户级)是每个进程都私有一份


💦那么如何将虚拟地址和物理地址建立映射关系呢?通过页表


2d65d23f6d4748949b924e4057485923.png


只要保证,每一个进程的页表,映射的是物理内存的不同区域,就能做到,进程之间不会互相干扰,保证了进程的独立性!!


页表+MMU进行映射


MMU是Memory Manage Unit的缩写,即存储管理单元,是中央处理器用来管理虚拟内存和物理内存寄存器的控制线路,也负责虚拟内存映射为物理内存。

🌈 为什么要有地址空间(why?)

1️⃣保护物理内存

添加一层软件层,完成有效的对进程操作内存的风险管理(权限管理),有效的保护了物理内存,本质是为了保护物理内存各个进程的数据安全

凡是非法的访问或者映射,OS都会识别到,并且终止你这个进程!!


OS是怎么样识别到?(后面多线程讲)、OS是怎么样终止的呢?(后面信号讲)卖个关子


类似于过年的压岁钱妈妈帮你收着,等你要用的时候,再来问我要,防止你乱花钱。对应到这里,意味着凡是想使用地址空间和页表进行映射,一定要在OS的监管之下访问呢,如果没有中间层(OS),能直接访问物理地址,可能发生非法越界访问。


0a2653c851af460fa595bd959398a8f1.png


在语言层面上,我们知道,字符串存在字符常量区不能修改 ——


char* str = "hero never die;
*str = 'b'; //不能修改


📌本质上是因为,这里str指针就是虚拟地址,*解引用进行写入时,访问虚拟地址,要进行虚拟地址和物理地址的转化,然而OS只给你读r权限,就访问不了物理内存了,也就修改不了


2️⃣解耦合 与 延迟分配

🔥内存管理模块 vs 进程管理模块 之间关联性减少

通过虚拟地址空间,来屏蔽底层申请内存的过程,达到进程读写内存操作和OS进行内存管理进行软件层面上的分离。


如果我们申请了物理空间,但是如果我不立马使用,是不是空间的浪费呢?

答:是的 ❗ 本质上,(因为有地址空间的存在,所以上层申请空间,其实是在地址空间上申请的,物理内存可以甚至一个字节都不给你,而当你真正进行对物理地址空间访问的时候,才执行内存的相关管理算法,帮你申请内存,构建页表映射关系),然后才让你进行内存访问的


以上延迟分配,可以提高整机的效率,几乎内存的有效使用率是100%

上面括号部分是由OS自动完成,用户包括进程都是完全0感知!!

这叫做基于缺页中断进行物理内存申请。


ps:好比你妈妈说明天要给你买玩具,但是今晚却把钱借给了二舅,二舅还的上还好,一旦还不上,也就不够钱了对应内存不足的情况


3️⃣进程独立性

➰由于页表的存在,它可以将地址空间上的虚拟地址和物理地址进行映射,那么是不是在进程视角所以的内存分布都可以是有序的!


所以地址空间➕页表的存在 ,可以将内存分布有序化!

➰进程要访问的物理内存中的数据和代码,可能目前并没有在物理内存中,同样的,也可以让不同的进程映射到不同的物理内存,也就实现了进程独立性的实现!!


进程的独立性,可以通过地址空间➕页表的方式实现!

总结:因为有地址空间的存在,每一个进程都认为自己拥有4GB空间(32),并且各个区域是有序的,进而可以通过页表映射到不同的区域,来实现进程的独立性

ps:每个进程不知道且不需要知道其他进程的存在(好比大富翁的每个私生子)


操作系统(大富翁👨)给每个进程(私生子👶)都给的是全部的地址空间(10G),也就是私生子认为自己是独占的,体现出了独立性


三. 再次理解


✨写时拷贝

1️⃣ 我们回顾开头的小实验,为什么相同的地址会打印出不同的值?


我们知道子进程是以父进程为模板创建出来的


0a2653c851af460fa595bd959398a8f1.png


以至于父子进程的g_val虚拟地址和物理地址都一样


为了维护进程的独立性,子进程在更改时发生写时拷贝,即为子进程重新开辟一段物理空间,把有必要的值拷贝过来,再重新建立虚拟地址到物理地址的映射关系 ✅


2d65d23f6d4748949b924e4057485923.png


这时我们的虚拟地址是不变的,物理内容通过映射被映射到物理内存不同的区域,所以我们看见的值是不一样的

🌌根本原因:


虚拟地址一样,所以地址一样;物理地址不一样,所以内容不一样

之前说的,父子进程的代码一般是共享的,也就是通过映射到同一段物理空间实现的。


✨重新理解什么是挂起?

经过上面的学习我们知道进程:是内核数据结构➕代码和数据


0a2653c851af460fa595bd959398a8f1.png


加载本质就是创建进程,那么是不是必须非得立马把所有的程序的代码和数据加载到内存中,并且创建内核数据结构建立映射关系?


NO,在最极端的情况下,甚至只有内核结构被创建出来了————新建状态

🌍理论上,可以实现对程序的分批加载(不然就是前面一行行的加载,后面的休闲瞧着二郎腿❌),既然可以分批加载,也可以分批换出


甚至这个进程短时间不会再被执行了(阻塞中)也就占用了物理内存,OS可以把它还出,一旦进程的数据和代码被换出此时这个进程就叫做被挂起

页表映射的时候,可不仅仅映射的是内存,磁盘中的位置也可以映射哦,所以站在页表的角度:数据可能在内存里也可能在磁盘中


所以遇到挂起时候:我们直接把内存空间释放掉,页表直接映射到磁盘,不用内存和磁盘直接数据互换。


阻塞:PCB放在某个队列中等待


四 . 深入探究(难难难)


🎉零碎知识点

1️⃣当我们的程序,在编译的时候,形成可执行程序的时候,没有被加载到内存中的时候,请问:我们程序的内部,有地址吗?


可执行程序编译的时候,内部已经有地址了!

地址空间不仅仅要理解成为是OS内部要遵守的,其实编译器也要遵守!!即编译器编译代码的时候,就已经给我们形成了各个区域(代码区、数据区…)并且采用和Linux内核中一样的编址方式,给每一个变量,每一行代码都进行了编址。所以程序在编译的时候,每一个字段早已经具有了一个虚拟地址!!


上强度——(这个图估计只有我能看懂了)


0a2653c851af460fa595bd959398a8f1.png


2️⃣理顺过程:(实现函数跳转)


在磁盘中,test.c被编译成mytest,mytest程序内部有地址来标定代码逻辑关系、函数入口等。(其中①号函数调用②号,②号函数调用③号,所以①中是②的虚拟地址)

当可执行程序加载到物理内存的时候,变成了进程(加载时把函数以及其虚拟地址一同放入),同时占据了物理空间,因此有对应的物理地址(0xA…

既然形成了进程,就有对应的进程控制块task_struct及地址空间

🚩地址空间和页表,最开始时的数据是哪来的?

每一个变量哥每一个函数,都有地址!!(编译器给的),一同被加载进物理地址

在程序编译好的时候,因为代码有起始区和结束区,将其填充进虚拟地址的代码区,堆区、栈区等也一样,没有数据就设置成初始值,所以将mn_struct填充好

记载时候,无非就是把程序的虚拟地址填充到页表的左侧,加载后的物理内存地址加载到右侧

小知识:此虚拟地址只要本身有内存空间就存在,好比你有房子就会有对应的编号和地址

用户可以通过变量名的方式访问,因为变量名的本质也是地址。

假如CPU通过fun函数找到了代码区的0x1的地址,通过页表,找到了其位置,并将其数据返回到CPU,所以此时CPU读到的指令的地址:虚拟地址!,发现是函数跳转,又继续跳转到0x10,从而又通过0x10继续通过页表继续寻找


0a2653c851af460fa595bd959398a8f1.png

理解了上面的流程,算是翻过这座大山了


📢写在最后


能看到这里的都是棒棒哒🙌!

想必权限也算是Linux中重要🔥的部分了,如果认真看完以上部分,肯定有所收获。

接下来我还会继续写关于📚《进程控制》等…

💯如有错误可以尽管指出💯

🥇想学吗?我教你啊🥇

🎉🎉觉得博主写的还不错的可以`一键三连撒🎉🎉


相关文章
|
23天前
|
缓存 监控 Linux
linux进程管理万字详解!!!
本文档介绍了Linux系统中进程管理、系统负载监控、内存监控和磁盘监控的基本概念和常用命令。主要内容包括: 1. **进程管理**: - **进程介绍**:程序与进程的关系、进程的生命周期、查看进程号和父进程号的方法。 - **进程监控命令**:`ps`、`pstree`、`pidof`、`top`、`htop`、`lsof`等命令的使用方法和案例。 - **进程管理命令**:控制信号、`kill`、`pkill`、`killall`、前台和后台运行、`screen`、`nohup`等命令的使用方法和案例。
88 4
linux进程管理万字详解!!!
|
14天前
|
存储 运维 监控
深入Linux基础:文件系统与进程管理详解
深入Linux基础:文件系统与进程管理详解
56 8
|
11天前
|
Linux
如何在 Linux 系统中查看进程占用的内存?
如何在 Linux 系统中查看进程占用的内存?
|
22天前
|
算法 Linux 定位技术
Linux内核中的进程调度算法解析####
【10月更文挑战第29天】 本文深入剖析了Linux操作系统的心脏——内核中至关重要的组成部分之一,即进程调度机制。不同于传统的摘要概述,我们将通过一段引人入胜的故事线来揭开进程调度算法的神秘面纱,展现其背后的精妙设计与复杂逻辑,让读者仿佛跟随一位虚拟的“进程侦探”,一步步探索Linux如何高效、公平地管理众多进程,确保系统资源的最优分配与利用。 ####
61 4
|
7月前
|
Linux Shell 调度
【Linux】7. 进程概念
【Linux】7. 进程概念
69 3
|
7月前
|
存储 缓存 Linux
【Linux】进程概念(冯诺依曼体系结构、操作系统、进程)-- 详解
【Linux】进程概念(冯诺依曼体系结构、操作系统、进程)-- 详解
|
4月前
|
Linux Shell 调度
【在Linux世界中追寻伟大的One Piece】Linux进程概念
【在Linux世界中追寻伟大的One Piece】Linux进程概念
42 1
|
6月前
|
存储 Linux Shell
Linux进程概念(上)
冯·诺依曼体系结构概述,包括存储程序概念,程序控制及五大组件(运算器、控制器、存储器、输入设备、输出设备)。程序和数据混合存储,通过内存执行指令。现代计算机以此为基础,但面临速度瓶颈问题,如缓存层次结构解决内存访问速度问题。操作系统作为核心管理软件,负责资源分配,包括进程、内存、文件和驱动管理。进程是程序执行实例,拥有进程控制块(PCB),如Linux中的task_struct。创建和管理进程涉及系统调用,如fork()用于创建新进程。
66 3
Linux进程概念(上)
|
6月前
|
存储 Shell Linux
Linux进程概念(下)
本文详细的介绍了环境变量和进程空间的概念及其相关的知识。
39 0
Linux进程概念(下)
|
6月前
|
Linux Shell 调度
Linux进程概念(中)
本文详细解析了Linux进程的不同状态,包括运行、阻塞、挂起,以及僵尸和孤儿进程的概念。讨论了进程优先级的重要性,以及操作系统如何通过活动队列、过期队列和优先级管理进程调度。
50 0
下一篇
无影云桌面