很多人接触Linux的内存管理是从malloc()这个C语言库函数开始,也是从那时开始就知道了虚拟内存的概念。但很多人可能并不知道虚拟地址是如何转换成物理地址的,今天带你搞懂虚拟地址到物理地址的转换过程,这其实也是MMU的工作原理。
1、预备知识
我们知道,在Linux中,每个进程都有自己独立的地址空间,且互不干扰。每个进程的地址空间又分为用户空间和内核空间,但这些地址空间使用的都是虚拟地址,它们和物理地址空间关系是怎样的呢?虚拟地址空间和物理地址空间的关系如下:
对于不同的进程,面对的都是同一个内核,其内核空间的地址对应的物理地址都是一样的,因此进程1和进程2中内核空间都映射到了相同的物理内存PA1
上。
而不同进程的用户空间是不一样的,即便相同的虚拟地址,也会被映射到不同的物理地址上。如图中两个进程相同用户空间的地址0x123456
分别被映射到了PA2
和PA3
物理地址上。
那么如何完成上述虚拟地址到物理地址的转换呢?
完成虚拟地址到物理地址的转换,我们需要借助一个硬件——MMU
。
MMU
: Memory manager unit,内存管理单元,负责将虚拟地址(VA)转为物理地址(PA)。
在介绍MMU是如何将虚拟地址转为物理地址之前,我们需要了解一些内存管理机制。
2、分页机制
在Linux系统上,现在用到的内存管理机制,大部分是分页机制。在分页机制出现之前,还出现过动态分区法、分段机制。
动态分区法是还没用引入虚拟地址之前使用的,使用的都是物理内存,属于非常早期的机制。分段机制则引入了虚拟地址的概念,而分页机制在分段机制后出现,主要解决分段机制内存碎片的问题。本篇以分页机制讲解虚拟地址到物理地址的转换,下面介绍分页机制的一些基本概念。
分页机制的基本概念:
分页
:将内存划分为固定长度的单元,每个单元就是一页页
:对于虚拟地址空间
,将地址空间划分为固定大小单元的单元,每个单元称为一页页帧
:对于物理地址空间
,将地址空间分为固定大小的单元,每个单元称为页帧VPN
:Virtual Page Number,虚拟页面号PFN
:Physical Frame Number,物理页帧号
分页管理内存的核心问题就是虚拟地址页到物理地址页帧的映射关系
3、虚拟地址到物理地址转换过程
虚拟地址和物理地址都被划分了两部分:
虚拟地址由虚拟页面号VPN
和虚拟地址偏移VA offset
两部分组成。同样,物理地址由物理页帧号PFN
和物理地址偏移PA offset
两部分组成。
虚拟地址转换成物理地址时,需要将VPN
转成PFN
。PA offset
通常就是VA offset
。
所以物理地址 = PFN
+ VA offset
这里的核心就是VPN到PFN的映射,而VPN到PFN的映射关系是通过页表记录。就是说,页表存储了VPN和PFN的映射关系,MMU根据VPN,在页表中找到PFN,再把PFN和VA offset相加,就得到了物理地址,从而将虚拟地址转为物理地址。
这里要区分一下,页表存储了VA到PA的映射关系,所以说找到页表就找到了物理地址。但是这个页表是软件提供的,MMU只负责将虚拟地址翻译成物理地址,翻译的依据就是页表,MMU本身不负责创建页表。所以说,在开启MMU之前,系统就要提前建立好虚拟地址到物理地址的映射关系,然后保存到页表中,这样开启MMU时,MMU才能正确找到对应的物理地址。
4、页表在哪
页表都存储在物理内存中, MMU将虚拟地址转换为物理地址,需要访问物理内存中对应的页表。
实际上,页表通常就是用一个数组来表示。
这里可能会一些疑问:
疑问:放到物理内存,每次转换都要访问内存,速度不慢吗?
答:慢。怎么解决呢?如果有cache是不是就很快了?是的,这块cache就叫TLB。
疑问:都放到物理内存,占用物理内存空间不大吗?
答:大,怎么解决?多级页表+缺页异常!多级页表可以减少内存占用,而通常只需将一级页表存储到物理内存,查找的时候,找不到二级页表,触发一个缺页异常,这时再分配页表,从而节省内存。
关于页表放到物理内存的问题,涉及到cache和其他的一些知识,内容很多且比较复杂,暂时不深究,知道页表是放在内存中的即可。
5、MMU如何知道页表在哪
前面说页表存储在物理内存中,那么MMU怎么知道这个页表在内存中的具体地址呢?
通常CPU会提供一个页表基址寄存器给操作系统使用,用于给MMU指示页表的基地址。不同处理器架构对应的寄存器也不一样:
x86
:CR3(Control Register 3)
ARM-v8
:系统寄存器TTBR(Translation Table Base egister)
RISC-V
:SATP(Supervisor Address Translation and Protection)
页表基址寄存器存储了第一级页表的基地址,通过访问该寄存器,就能知道页表在那个位置。
6、多级页表转换过程
实际使用中,都是用多级页表来存储虚拟地址和物理地址的映射关系,
以二级页表为例(假设是32位系统),其虚拟地址转换为物理地址的过程如图所示:
PGD
:Pgea Global Directory,全局页目录,存储了下一级页表的基地址
PTE
:Page Table Entrys,页表入口,PTE才是真正存储了物理地址的页表
VA到PA的转换过程:
MMU
通过访问页表基址寄存器,得到一级页表PGD
的基地址,再结合虚拟地址中的PGD index
找到了下一级页表PTE
的基地址;得到了PTE
的基址,再结合虚拟地址中的PTE index
找到PFN
,然后再和VA
相加得到物理地址。
这里需要注意,使用多少级的页表、以及虚拟地址、物理地址的格式、PTE的格式等等,与32系统还是64位系统有关,也与处理器的架构有关,需要根据不同系统、不同处理器架构分析。
但是MMU工作原理都是一样的,不管是二级页表、三级页表还是四级页表,都是通过第一级页表找到第二级页表,通过第二级页表找到第三级页表......最终找到物理地址。只要明白了MMU的工作原理,分析其他的页表也是大同小异。
总结
本文带大家了解了虚拟地址和物理地址的一些概念,以及MMU将虚拟地址转为物理地址的过程,相信通过以上内容,对虚拟地址、物理地址、MMU、多级页表等这些概念都不陌生了。
本文只讲解了MMU是通过页表将虚拟地址转为了物理地址的,但没有说页表是如何创建的,因为页表的创建每个处理器架构都不一样,本文只讲通用性的MMU原理,后续再深入分析页表创建。