虚拟内存
当一个可执行文件被加载到内存中执行时,就成为了一个运行的程序,也就是一个“进程”在DOS时期采用的是“实地址”模式,进程直接使用物理地址,但是这种模式下,进程可以任意修改物理内存,很容易发生占用其他进程的内存的情况,甚至可能会覆盖操作系统使用的内存。
所以出现了“保护模式”,进程不直接使用物理内存地址,而是使用虚拟的内存地址,这些地址被称为线性地址,操作系统负责把虚拟地址映射到物理内存
怎么映射?首先要知道“保护模式”提供内存分页机制,比如在32位系统下物理内存中每4KB作为一页,从虚拟内存到物理内存,是以页为单位映射的。
操作系统会以链表的形式,记录各个进程的控制信息,这在windows中称为进程控制块PCB,在Linux中对应task_struct结构体。
每个进程的控制信息中都有这样一个指针,存储的是当前进程“页目录”的物理地址,页目录也是一个内存页,存储的是一系列指针,指向同样用来存储物理内存页起始地址的“页表”,32位下,一个内存地址占4字节,一个页目录就可以寻址1024个页表,1个页表又可以寻址1024个物理内存页,每个页4KB,这样正好等于4GB,也就是说32位下只需要又这样两级页表,就足够寻址4GB大小的内存空间了
而一个32位的线性地址中,前10位可以从页目录中选择一个页表,接下来 10位,又可以从对应页表中锁定一个物理内存页,最后剩下的12位,用来存储一个相对于内存页起始地址的偏移值offset,12位正好覆盖4K个偏移值,也就足够定位到这一页的每一个地址了。
这样就实现了虚拟内存中一个内存页到一个物理内存页的映射,不仅没有在进程中直接使用物理内存的地址,而且每个进程对应自己的页表。这样在不同进程中,相同的线性地址会被映射到不同的物理地址,从而实现进程地址空间的隔离。还可以通过把同一组物理页面映射到不同进程的页表中,来实现进程间共享内存
再来看页表中存储的这些记录,它们也不知是内存页起始地址那么简单,因为内存页大小都是4KB,所以内存页的起始地址一定是4K的整数倍,也是就说低12位一定是0,因此页表里每一条记录都有12位的空闲空间可以使用,它们可以用来标识对应物理内存页是否可读,可写,可执行等信息。其中就有一位用于标识该物理内存页是否已经映射
因为进程向操作系统申请映射内存时,通常不会一申请就立马分配,操作系统会先记录,例如Linux中,通过进程对应的task_struct可以找到记录内存分配的链表,每个链表项都是一个VMA(Virtual Memory Area)结构体,里面记录着该进程已经申请的一段连续内存地址区间。例如进程申请地址区间[a,b)这段内存,它的VMA链表就会增加一项,或者对相邻区间进行扩张,标记上地址区间[a,b)已经申请了,但是真正的映射要到进程访问这段内存时才会进行
所以说进程的虚拟地址空间,只是它可以申请使用的一个范围,只有真正被映射到物理内存,才算是能够合法使用的虚拟内存,而没有被映射到物理内存的部分,不属于合法的线性地址,要使用就必须先映射
既然进程使用的都是线性地址,那么程序执行时CPU拿到的也是这样的线性地址,而线性地址到物理地址的转换,会交由CPU中的内存管理单元(MMU)负责,当前进程持有的页目录的物理地址会被保存到特定寄存器,这样CPU就可以借助页目录和页表,把线性地址转换成物理地址了
此外,由于频繁查页表会影响效率,CPU会把当前进程已经转换过的地址映射关系缓存到TLB(Translation Lookaside Buffer)中,需要转换地址时,先去TLB中查找,没有的话再去查页表,然后写入TLB
如果要切换到另一个进程执行,那么寄存器存储的页目录也会改变,之前的TLB缓存就会失效。需要重新查询页表,建立新的缓存数据,这也是进程切换代价比较高的一个原因。
如果CPU查页表时发现,对应物理内存页还没有完成映射,就会发生Page Fault,处理这个异常的Page Fault Handler,就会去进程控制信息这里查询该进程是否申请了这段内存,如果已经申请了,就实际分配物理页面并完成页表映射。然后就可以正常使用了。若没有申请过,就会发生内存访问异常,这样设计的目的(真正的映射要到进程访问这段内存时才会进行),是为了保障系统运行效率,毕竟内存映射比较耗时。
番外
虚拟地址到物理地址是通过索引查找,相当于220个长度的连续数组才能表示物理地址,如果你分成两段,第一段只需要210,也就是1k连续的地址,当你用高10位在1k里面索引到一个位置,这个位置只是告诉你另外10位表示连续的1k在哪里,你中间10位再到这个1k的范围里面索引,你想象一下一个数组,保存的是指针,这些指针指向的一堆小段地址是不是不用连续就能通过两级索引查到?我们的进程虽然说可以使用的地址空间是4g,但实际上用不了那么多,所以物理页只要一点点,那么我数组里面大部指针都是空的,要多少内存,我就挂多少,当我访问到一个虚拟地址,因为很少访问,比如游戏里的一个小地图,发现指针是空,触发缺页中断,操作系统就搞一块物理地址,挂到你数组里面的指针,此时内存有了,然后再把硬盘上的数据加载上来,然后中断程序告诉你,再看看?你程序重新访问刚才的虚拟地址,有了,所以继续执行。硬盘上的数据加载到哪里,其实已经再程序的二进制里面固定了,也就二进制里的写好的虚拟地址,这涉及到重定位的知识。每个进程都是独立的,都会单独保存一个这种二级索引,也就是这个数组的首地址,叫页目录,task结构体里有一个叫mm的结构体里保存它,当任务切换的时候,就把这个首地址加载到cr3寄存器,该进程所有的虚拟内存到物理内存的映射都依靠它,所以进程空间是独立的。假设1000个进程,都是一级索引,连续内存占用就非常大了,哪怕没有物理地址,数组占用空间就得留那么多,说不定什么时候就要用。最后,软硬件一起实现的,64位更多,可以是5级。