为了实现虚拟化,虚拟机需要控制系统资源。但是实际的系统资源是在hypervisor直接控制之下,为了实现隔离和安全等方面的考虑,不可能让虚拟机直接控制这些系统资源。
比如,虚拟机想根据具体情况去做电源管理。一个解决办法就是利用“陷入和模拟(Trap and Emulate)”模型。当虚拟机想要执行特权指令时,会触发异常,陷入到hypervisor,随后由hypervisor模拟执行。
对于VM来说,一个直接分配的外设是真实的物理设备,并映射到IPA地址空间,所以VM可以直接软件访问该设备。
但是对于VM来说,一个虚拟设备是hypervisor模拟出来的,VM认为可以通过软件直接访问,但实际上是要通过hypervisor的。为了模拟一个外围设备,hypervisor不仅需要知道访问了哪个外设,还需要知道访问了该外设中的哪个寄存器,访问是读还是写,访问的大小,以及用于传输数据的寄存器。
从地址开始,异常模型引入了FAR_ELx寄存器。在处理stage 1 faults时,这些寄存器报告触发异常的虚拟地址。虚拟地址对hypervisor没有帮助,因为hypervisor通常不知道guest OS如何配置其虚拟地址空间。
对于stage 2 faults,还有一个附加寄存器HPFAR_EL2,用于报告中止的地址的IPA。
由于IPA空间由hypervisor控制,因此它可以使用此信息来确定需要模拟的寄存器。
异常模型显示ESR_ELx寄存器如何报告有关异常的信息。对于触发stage2 fault的单个通用寄存器加载或存储,提供了附加的综合征信息。此信息包括访问的大小和源或目标寄存器,并允许hypervisor确定对虚拟外设的访问类型。
下图展示了一个陷入,然后模拟访问的过程。
- VM的软件尝试访问虚拟外设,这个例子当中是虚拟UART的接收FIFO。
- 该访问被stage 2转换block住,导致一个abort异常被送到EL2。
异常处理程序查询ESR_EL2关于异常的信息,如访问长度,目的寄存器,是load或store操作。
异常处理程序查询HPFAR_EL2,取得发生abort的IPA地址。 - Hypervisor使用来自ESR_EL2和HPFAR_EL2的信息来标识所访问的虚拟外围设备寄存器。此信息允许hypervisor模拟该操作。然后通过ERET返回vCPU。指令在LDR之后重新执行。
到目前为止,我们已经考虑了来自处理器的不同访问类型。系统中的其它主机(如DMA控制器)可能分配给VM使用。我们也需要一些方法来将stage 2的保护延伸到那些主机上。考虑一个不使用虚拟化的DMA控制器的系统,如下图所示:
DMA控制器将通过驱动程序编程,通常在内核空间中。内核空间驱动程序可以确保操作系统级内存保护不被破坏。这意味着一个应用程序不能使用DMA访问它不应该看到的内存。
让我们考虑同一个系统,但是操作系统运行在一个虚拟机中,如下图所示:
在此系统中,hypervisor使用stage 2在虚拟机之间提供隔离。软件查看内存的能力受到hypervisor的限制。允许VM中的驱动程序直接与DMA控制器交互会产生两个问题:
- 隔离:DMA控制器不受stage 2表的约束,可以用来破坏VM的沙箱。
- 地址空间:有两个转换阶段,内核认为是PAs的是IPAs。DMA控制器仍然可以看到PAs,因此内核和DMA控制器具有不同的内存视图。为了克服这个问题,hypervisor可以捕获VM和DMA控制器之间的每个交互,提供必要的转换。但是当内存碎片化时,此过程效率低下且存在问题。
除了捕获和模拟驱动程序访问之外,另一种方法是扩展stage 2机制,以覆盖其它主机,如我们的DMA控制器。当这种情况发生时,这些主机还需要一个MMU。这称为系统内存管理单元(System Memory Management,SMMU):
这样,hypervisor只要负责对SMMU进行编程,以便上游的主机(在示例中是DMA控制器)可以看到与分配给它的VM相同的内存视图。在intel体系中,对应的是IOMMU,名字虽然不一样,但是原理是一样的。
最后,再来强调一下陷入与模拟。看这个例子,CPU在idle时可以执行WFI(wait for interrupt)指令来进入低功耗模式。当在OS的idle loop里面执行WFI时,会陷入到hypervisor里面模拟。这时hypervisor通常会调度另一个vCPU执行。
使用陷入和模拟的另一个例子是提供寄存器的虚拟值。例如,ID_AA64MMFR0_EL1报告对处理器中内存系统相关功能的支持。操作系统可能在引导时读取此寄存器,以确定内核中要启用的功能。
而Hypervisor可能希望向OS提供一个不同的值,也就是虚拟值。为此,hypersivor启用覆盖寄存器读取的陷阱。在陷入异常情况下,hypervisor确定触发了哪个陷阱,然后模拟操作。
使用陷入来虚拟化操作需要大量计算。比如功能寄存器ID_AA64MMFR0_EL1,不经常被操作系统访问。当将对这些寄存器的访问捕获到虚拟机监控程序中以模拟读取时,计算是可以接受的。
但是对于访问频率高的寄存器,比如MPIDR_EL1,或者在性能关键代码中,需要尽可能地优化陷入,对这些寄存器,ARM提供了其它策略,hypervisor可以在进入VM时先配置好这些寄存器的值。例如,当VM中读到MPIDR_EL1时会自动返回VMPIDR_EL2的值而不发生陷入。