3.1.概述
数据不一致问题:
程序的并发执行会造成数据一致问题:
假设程序A去内存中读取了一个数据i,将这个数据改为i=100,在程序A的打印语句执行之前,程序B去读取了i并将这个数据改为了i=200,那么就会出现程序A期望打印的时候数据i是100,但实际上打印出来是1=200。这就是程序并发,造作内存中的共享变量带来的数据不一致的问题。
为了解决这个问题提出了临界资源、临界区的概念。
3.2.临界
临界资源:一次只允许一个进程单独访问(使用)的资源。临界区:进程中访问临界资源的程序片段。
临界区是一种理念,本质上是为保证并发环境下数据一致性,其核心思想为:
将各进程数据操作部分做成“封闭模块”。这些“封闭模块”具有原子性,在各程序执行时同一时间内,所有“封闭模块”中只能一个有正在被执行,也就是说“封闭模块”只能被串行执行,不能并行执行。这些“封闭模块”称为临界区。临界区中需要的资源称为“临界资源”,如此处的i。
3.3.锁
临界区是一种用于保证数据一致性的理念,锁时这个理念的具体实现。
具体实现为:
为临界资源设置一个标志位,进入临界区前检查此标志位。若“可用”则访问临界区且将此标志位修改为“不可用”,退出临界区后将此标志位修改为“可用”;若“不可用”则等待。
3.4.进程间的关系
3.4.1.同步、互斥
进程间的关系有两种:
- 互斥
- 同步
互斥:
多进程共享了具有独占性的资源,必须协调各进程对资源的存取顺序,确保没有任何两个或者两个以上的进程同时进行存取操作。说白了,资源,即临界资源,对资源的存取,即访问临界区,互斥关系可以用锁来实现。
同步:
完成一个任务,需要多个进程相互合作,一个进程开始某个操作之前,需要另一个进程完成操作,否则该进程只能等待。互斥关系属于特殊的同步。比如进程B需要进程A的运算结果,在A的运算结果出来之前,B一直会处于等待状态。
此处以一个经典的司机与售票员问题为例,来方便理解同步关系:
司机的操作:起步、行驶、停车
售票员的操作:关门、售票、开门
司机和售票员之间存在的同步关系:
司机起步钱售票员先关门,否则司机等待。
售票员开门前司机先停车,否则售票员等待。
3.4.2.P-V操作
什么是PV操作:
P-V操作用于阻塞、唤醒进程。主要实现依赖于信号灯机制。信号灯机制,为每组进程设置一个状态标志(也就是说对于一组需要相同资源的进程来说,这个标志是全局变量)信号灯的状态可以控制进程,进程也可以改变信号灯状态。
信号灯的数据结构:
信号灯定义为一个二元矢量(S,q)
S:整数,初值非负。
q:PCB队列,初值为空。
用伪代码描述即为:
struct SEMAPHORE { int S;//整数,初始值为非负数 pointer_PCB;//队列,存放进程的PCB指针,初始值为空 }
对信号灯的操作有两种:
- P操作,又称P(S,q)或者简称为P(S)
- V操作,又称V(S,q)或者简称为V(S)
P操作:
用于阻塞进程,具体的操作为:
S值减1,若结果大于等于0,该进程继续;若结果小于0,该进程阻塞并加入到队列q中。
用伪代码描述就是:
P(S,q) { S=S-1; if(S<0){ Block()//阻塞 Insert()//入队 } }
V操作:
用于唤醒进程,具体操作为:
S值加1,若结果大于0,则该进程继续;若和小于0,该进程继续并且从q中唤醒一个进程。
用伪代码描述就是:
V(S,q) { S=S-1; if(S<0) { Remove()//从队列中移除一个进程出队列 WakeUp()//唤醒出队进程 } }
用PV操作实现互斥:
假设三个进程想访问临界资源:
首先设置信号量i=1,
Pa想要进入临界区,进入前,执行P操作,信号量-1,将信号量变为0,满足判断条件,进入临界区。
Pb在Pa未离开临界区时段内想访问临界区,执行P操作,信号量-1,将信号量变为-1,被阻塞。
Pc在Pa未离开临界区时段内想访问临界区,执行P操作,信号量-1,将信号量变为-2,被阻塞。
Pa在离开临界区以后,执行V操作,信号量+1,将信号量变为-1,去唤醒阻塞队列中的一个进程。
因为阻塞队列是队列的数据结构,所以一般唤醒的会是先入队列的一个进程,会唤醒Pb。
Pb进入临界区,从临界区出来后执行V操作,信号量由-1变为0,去唤醒阻塞队列中的一个进程,Pc被唤醒,进入临界区,从临界区离开后执行V操作,信号量+1,变为1。
整个流程完成,信号量回到初始值1。
可以看到通过PV操作可以很好的控制进行的执行顺序,保证了进程之间的互斥,也能很好的保证数据的一致性。
3.4.3.生产者、消费者问题
生产者、消费者问题属于经典的同步问题,类似的经典同步问题还有诸如读者写者问题、哲学家问题等,此类问题都旨在用同步和互斥操作来保证场景的有序运行。此处以生产者、消费者问题为例,其余的经典同步问题的解题方法是类似的。
假设有m个生产者向缓冲区生产数据,k个消费者去缓冲区中消费数据,那么可能出现以下问题:
m个生产者,生产太快,缓冲区中老数据还没来得及被消费者消费处理就被新来的数据覆盖.
k个消费者,消费太快,消费者读取缓冲区中数据时,新数据还没有覆盖老数据,造成老数据被重复处理。
为了避免上面的情况做出以下规定:
不能向满缓冲区存数据
不能从空缓冲区取数据
单个生产者或消费者,每次只能允许消费或生产一个数据。
除此以上三点以外,缓冲区还应该是个临界区,以保证数据的一致性。
将上面的逻辑总结抽象一下就是:
缓冲区满的时候阻塞生产者进程
缓冲区空的时候阻塞消费者进程
除以上情况外,生产者、消费者正常生产消费
P-V操作来实现生产者消费者问题的伪代码:
int dataCount=0;//缓冲区中数据的个数 int indexCount=5;//缓冲区中空位的个数 int i=1;缓冲区的互斥标志位 //生产者 producer_i(){//i=1......m while(true){ 生产一个数据 p(dataCount); p(i); 存一个数据到缓冲区 V(i); V(dataCount); } } //消费者 consumer_j(){//j=1......j while(true){ P(dataCount); P(i); 从缓冲区读取一个数据 V(i); V(dataCount);; } }