一、进程
进程 / 任务:process / task
什么是进程?
进程是操作系统对一个正在运行的程序的一种抽象,换言之,可以把进程看做程序的一次运行过程。
通俗地说,在我们平时使用电脑的过程中,进程实际上就是一个正在运行的程序。
而要想让进程跑起来,就得给这个进程分配一定的系统硬件资源:CPU,内存,磁盘,网络带宽。
这也就是说:进程是系统分配资源的基本单位。
二、管理进程
进程在操作系统中是如何被管理的呢?
管理进程:PCB + 组织
1. PCB + 组织
(1) PCB
PCB:进程控制块 (Process Control Block)
进程控制块其实是一个抽象出来的东西,由于计算机内部要管理任何现实事物,所以都需要将其抽象成一组有关联的、互为一体的数据。接着,每一个 PCB 对象,就代表着一个实实在在运行着的程序,也就是进程。操作系统再通过这种数据结构将 PCB 对象组织起来,方便管理时进行增删查改的操作。
在 C 语言中,我们可以通过结构体来描述这个 PCB,这就对应着某一个进程。
在 Java 中,我们可以通过类或对象来描述这个 PCB,这就对应着某一个进程。
(2) 组织
组织:使用一定的数据结构来进行将 PCB 组织起来,常用双向链表。
查看进程列表,本质上就是遍历操作系统内核中的这个链表,并显示其中的属性。
所以,我们必须明确:
创建一个进程,本质上就是创建一个 PCB 对象,加入到内核的链表中。
销毁一个进程,本质上就是把这个 PCB 对象,从内核链表中删除掉。
2. PCB 中大概都有哪些东西呢?
PCB:( PID,内存指针,文件描述符表,进程的状态,优先级,上下文,记账信息…)
实际上这个 PCB 是一个非常大的结构体,属性非常多,我们主要说明下面几个属性。
(1) PID
PI:Process Identifier (进程控制符)
PID:操作系统里每打开一个程序都会创建一个进程ID,即 PID. 它代表着一个进程的唯一身份标识,一个机器在同一时刻,不可能有两个进程的 PID 相同。
如下,我们可以在 Windows 系统上的任务管理器中,打开 PID.
注意:
① PID 是进程运行时系统随机分配的,可以理解其为进程的代号。
② 只要一个程序被操作系统运行起来,系统就会自动为其分配一个 PID. 此标识暂时唯一,只有当前进程中止后,此 PID 才会被回收,并可能被分配给另一个新进程。
(2) 内存指针
内存指针:描述了这个进程使用的内存空间是处于哪个范围。这在本篇博客中后面会提到虚拟地址空间。
(3) 文件描述符表
文件描述符表:描述了这个进程都打开了哪些文件。
在我们日常使用的系统中,如果打开了一个文件,其实就得到了一个 " 文件描述符 ",这个文件描述符就像一个 " 遥控器 " 一样,由于文件数据是在磁盘上的,所以代码中操作磁盘数据不像操作内存数据那么方便,所以往往是借助这种 " 遥控器 " 的方式来操作。
(4) 进程的状态
进程的状态完全可以按照其字面意思理解。
进程的三种基本状态:就绪状态、睡眠状态、结束状态。
(5) 进程的优先级
进程的优先级也完全可以按照其字面意思理解。
比方说:大一的学生放暑假了,学生可以列出暑假两个月的日程安排,是以学习优先,还是以锻炼优先,还是以去公司实习优先…
列出了优先所做的事项,就相当于 CPU 在进行进程调度中,优先考虑哪个进程。
(6) 进程的上下文
进程的上下文是一个比较关键的属性,它的存在体现了 CPU 在进程调度时,记住上次运行到哪个指令了,方便下次调度的时候还能够继续从上次的位置来进行。所以进程的上下文主要是存储 CPU 调度之前,寄存器中的信息。
这就相当于游戏的存档和读档。比方说:我们在打那种冒险游戏,刷副本的时候,通常需要闯关,或者说进行到了游戏的哪个环节。那么下次再次进入游戏的时候,由于存档的原因,就不会再从第一关开始了。
(7) 进程的记账信息
进程的记账信息实际上记录这个进程在 CPU 上执行多久了。
三、进程调度
上面的 PCB ,它的 【(4) (5) (6) (7) ,即进程的状态,优先级,上下文,记账信息】这几个属性很关键,它们是用来辅助进行进程调度的。
1. 什么是进程调度
举个例子,不管是我们使用 Windows 系统,还是 IOS 系统,我们都能一边开着 QQ 音乐,一边编辑文档,又能一边使用浏览器…所以它们都是支持多任务的系统。
而我们当前的这个 " 多任务系统 " 其实就是基于 " 进程调度 " 这样的机制来完成的。
我们可以打开 Windows 操作系统下的任务管理器,会发现电脑在某时刻运行的时候,有几十甚至上百个进程正在运行,而我们的 CPU 只有一个。
这个时候,CPU 肯定是需要合理地进行各个进程之间的调度,否则就会乱成一锅粥。那么计算机究竟是采取什么方法,让一个 CPU 来兼顾各个不同的进程呢?
2. 计算机怎么进行进程调度
真实的计算机在进行进程调度的时候,是对并发式和并行式两种策略综合使用。
(1) 并发式运行
并发式运行:从微观上,CPU 其实一直在切换各个进程,以此来管理进程。比方说,进程A 被 CPU真实的计算机在进行进程调度的时候,是对并发式和并行式两种策略综合使用。
(1) 并发式运行
并发式运行:从微观上,CPU 其实一直在切换各个进程,以此来管理进程。比方说,进程A 被 CPU
并行式运行:由于高精度的 CPU 在物理结构上很难进行继续升级,所以现在很多计算机都采取了多核 CPU 的策略,比方说现在的一个 8核 的计算机,就相当 CPU 有 8个 分身,能够同时实现计算机的各个功能。所以并行式运行就相当于:多个 CPU ,运行多个进程,CPU1 运行进程1,CPU2 运行进程2…
所以无论从宏观还是微观的角度来看,并行式运行时,各个进程都是同时执行的。
四、进程的虚拟地址空间
1. 什么是进程的虚拟地址空间
一个进程想要运行,就需要给它分配一些系统资源,其中,内存就是一个最核心的资源。
我们在学习 C语言的时候,都知道,内存是连续的一块地址,这也就是真实的内存。它就像酒店的长廊中对应的房间号一样,物理逻辑是连着的。如下图所示:
而进程地址是操作系统抽象出来的虚拟地址,系统会自动将这个虚拟地址转换成真实的物理地址。如下图所示:
在上图,我们可以发现进程1 和 进程2 的虚拟地址是相同的,但我们通过页表映射过后,进程1 和 进程2 对应的真实内存是不相同的。这就好像,学生A 在 1班,学生B 在 2班,他们在班级中对应的号码都是1 号,但在全校的学号里,不可能存在两个学号相同的情况。
2. 为什么需要虚拟的地址空间?
在看完了图解之后,我们会思考一个问题:为什么不让进程直接访问真实的物理地址呢?
目的其实就是为了一定程度上减少内存访问越界而带来的严重后果。
假设我们现在让进程直接访问传统的真实内存,也就是进程之间的内存是挨着的。假设进程1 的内存是 0x111 - 0x114,进程2 的内存是0x115 - 0x130,当我们在进程1 中运行时,我们访问内存 0x116,这样相对于进程1 来说,就会造成内存越界,而对于连续地址来说,此时我们就突然访问到了进程2,可想而知,进程2 很大可能出现 bug. 进程2 就在想:我明明运行的好好的,莫名其妙地就出错了。在我们日常使用软件的时候,假设你在写 word 文档,写着写着,你后台 QQ音乐突然崩了,这是什么感受…
而当我们通过虚拟内存转换成真实内存的时候,当我们在 进程1 中越界的时候,系统针对你给出的地址查询页表,若是越界或非法地址,进程1 直接就出错并被系统提示出来,这时并不会影响到其他的进程,因为其他的进程与你当前使用的进程可以说是毫无关联。
因此,我们就明白了,进程的虚拟地址空间存在的意义:让进程与进程之间相互影响的几率变小了,隔离性增加了,某个进程在运行过程中是独立的,自然就稳定了。
这样做的好处是:进程与进程之间的独立性确实增加了。当然也有坏处:进程与进程之间的配合、沟通、通信就很困难了。但也有一些特殊手段可以让进程与进程之间来交互。(例如:文件、socket、信号量、管道、消息队列)
这在我们后面的博客会介绍到。