1.什么是虚拟化?
关于虚拟化,我们引用《操作系统导论》中的一段对话:
学生:尊敬的教授,什么是虚拟化?
教授:想象我们有一个桃子。
学生:桃子?(不可思议)
教授:是的,一个桃子,我们称之为【物理】(physical)桃子。但是有很多想吃这个桃子的人,我们希望向每个想吃的人提供一个属于他的桃子,这样才能皆大欢喜。我们把给每个人的桃子称为【虚拟】(virtual)桃子。我们通过某种方式,从这个物理桃子创造出许多虚拟地址桃子。重要的是,这种假象中,每个人看起来都有一个物理桃子,但实际上不是。
以最基本的计算机资源 CPU 为例,假设一个计算机只有一个 CPU(现代计算机一般拥有 2 个、4 个或者更多 CPU),虚拟化要做的就是将这个 CPU 虚拟成多个虚拟 CPU 并分配给每一个进程使用,因此每个应用程序都以为自己在【独占 CPU】(每个进程独享虚拟地址空间)。但实际上只有一个 CPU。这样操作系统就创造了美丽的假象--虚拟化了 CPU。
2.操作系统抽象:进程
2.1进程抽象
进程就是运行中的程序。程序本身是没有生命周期的,它只是磁盘上面的一些指令(也可能是一些静态数据)。是操作系统让这些字节运行起来,让程序发挥作用。
操作系统为【正在运行】的应用程序提供的【抽象】,就是所谓的进程。
事实表明,人们通常希望同时运行多个程序。比如在使用计算机时,我们会同时运行浏览器、游戏、音乐播放器等。实际上,一个正常的系统可能同时会有上百个进程运行。
【那么操作系统是如何实现的?】
操作系统通过【虚拟化】CPU 来提供这种假象。通过让一个进程只运行一个【时间片】,然后切换到其他进程,操作系统提供了存在多个虚拟化 CPU 的假象。
这就是【时分共享】(time sharing)CPU 技术,允许用户如愿的运行多个并发进程。潜在的开销就是性能损失,因为如果 CPU 必须共享,每个进程的运行就会慢一点。
要实现 CPU 虚拟化,要实现的好,操作系统就需要一些低级机制以及一些高级智能。
我们将低级机制称为【机制】。机制是一些低级方法或协议,实现了所需要的功能。比如【上下文切换】(context switch),它让操作系统能够停止运行一个程序,并开始在给定的 CPU 上运行另一个程序。所有现代操作系统都采用了这种分时机制。
时分共享:是操作系统共享资源所使用的最基本的技术之一。通过允许资源由一个实体使用一小段时间,然后由另一个实体使用一小段时间,如此下去。所谓资源,如 CPU 或网络链接。
空分共享:与时分共享对应的自然是空分共享。资源在空间上被划为给希望使用它的人。
在这些机制之上,操作系统中有一些智能以【策略】(policy)的形式存在。策略是在操作系统内做出的某种决定的算法。比如操作系统中的【调度】策略(scheduing policy)
分离策略和机制:在许多操作系统中,一个通用的设计范式是将高级策略与其低级机制分开。可以将【机制】看成 为系统的“how”问题提供答案。例如操作系统如何进行上下文切换?【策略】为“which”问题提供答案。例如操作系统该运行哪个进程?将两者分开可以轻松的改变策略,而不必重新考虑机制,因此,这是一种模块化的形式,一种通用软件的设计原则。
2.2进程机器状态
为了理解构成进程是什么,我们必须理解它的机器状态(machine state):程序正在运行时可以读取或更新的内容。在任何时刻,机器的哪些部分对执行该程序很重要?
内存:进程的机器状态一个组成部分。指令存在内存中。正在运行的程序读取和写入数据也在内存中。因此进程可以访问的内存(称为地址空间)是该进程的一部分。
寄存器:许多指令明确的读取或更新寄存器。因此,显然,它们对于执行该进程很重要。
特殊寄存器:构成了进程机器状态的一部分。【程序计数器】(PC)告诉我们当前程序正在执行哪个指令;类似的【栈指针】(stack pointer)和相关的【帧指针】(frame pointer)用于管理函数参数栈、局部变量和返回地址。
2.3进程 API
限于篇幅,本文暂不介绍具体 API 接口,只介绍通用功能。
- 创建(create):操作系统必须包含一些创建新进程的方法。在 shell 中键入命令或者双击应用程序图标,会调用操作系统来创建新进程,运行指定的程序。
- 销毁(destroy):由于存在创建进程的接口,因此操作系统还提供一个强制销毁进程的接口。当然,很多进程会在运行完成后自行退出。但是,如果他们不退出,用户可能希望终止它们,因此停止进程失控的接口非常有用。
- 等待(wait):有时候等待进程停止运行是有用的,因此经常提供某种等待接口。
- 其他控制:除了杀死或者等待进程外,有时还可能有其他进程控制。例如,大多数操作系统提供某种方法来暂停进程,然后恢复(继续运行)。
- 状态(status):通常也有一些接口可以获取进程的状态信息。
2.4进程创建的细节
程序是如何转换为进程,具体来说,操作系统如何启动并运行一个程序?进程的创建实际如何进行?
操作系统运行程序必须做的第一件事是将代码和所有静态数据(例如初始化变量)【加载】(load)到内存中,加载到进程的地址空间中【1】。
程序最初以某种可执行文件格式驻留在磁盘上(disk,或者 ssd,对于嵌入式系统就是 flash 上)。因此,将程序和静态数据加载到内存的过程,需要操作系统读取这些字节,并将它们放到内存的某处。如下图:
在早期的(或者简单的操作系统)中,加载过程尽早(eagerly)完成,即在运行程序之前全部完成。
现代操作系统惰性(lazily)执行该过程。即仅在程序执行期间需要加载的代码或数据片段,才会加载。要真正理解惰性加载是如何工作的,必须更多的了解分页和交换机制,这个后续展开更新一篇单独介绍。
将代码和静态数据加载到内存后【2】,操作系统在运行此进程之前还需要执行其他的一些操作:
- 必须为程序的运行时栈(run time stack)分配一些内存。(C 程序使用栈存放局部变量、函数参数和返回地址)操作系统分配这些内存,并且提供给进程 。操作系统也可能为程序的堆(heap)分配一些内存,数据结构(链表、散列表、树和其他有趣的数据结构)需要堆。
- 操作系统还将执行一些其他初始化任务,特别是输入输出(I/O)相关的任务。比如标准输入、标准输出、标准错误。
通过将代码和静态数据【加载】到内存中,创建和【初始化】栈以及执行 I/O 设置的其他工作,终于为程序运行搭好了舞台。然后它有最后一项任务:【启动程序】【3】,在入口处运行,即 main()。通过跳转到 main(),OS 将 CPU 的控制权转移到新创建的进程中,从而程序开始执行。
2.5进程状态
进程在操作系统给定的时间片内,可能处于的不同状态如下:
- 运行(runnig):在运行状态下,进程正在处理器上运行。这意味着它正在执行指令。
- 就绪(ready):在就绪状态,进程已准备好运行,但是由于某种原因,操作系统选择不在此时运行。
- 阻塞(blocked):在阻塞状态下,一个进程执行了某种操作,直到发生其他事件时才会准备运行。比如进程向 I/O 发起请求时,它会被阻塞,因此其他进程可以使用处理器。
3.总结
本文主要介绍了操作系统虚拟化概念和进程,由虚拟化技术引出进程的基本概念。我们常说进程独享自己的虚拟地址空间,这个独享到底是怎么回事?
事实上,就是虚拟化实现的。虚拟化是操作系统中重要的概念,理解虚拟化,对我们理解操作系统和进程有很大的帮助。
本文只是引出了虚拟化的概念,没有解答虚拟化是怎么实现的,最常见的疑问:物理内存和虚拟地址空间之间到底是怎样的关系?这个留到后续更新。感兴趣的朋友可以阅读《操作系统导论》,这本书有 1/3 的篇幅在讲【虚拟化】