线程与进程的相关概念
关于线程和进程的话题,大部分的书只是微微提下,读者学完云里雾里,不知所以。本章会对Python中的多线程和多进程进行详解。大部分都是概念性的东西,不要去死记硬背,学完了解有个大概印象就好。
1、程序,进程,线程,多进程,多线程
关于程序,进程和线程的一些名词概念如图所示:
有句非常经典的话:“进程是资源分配的最小单位,线程则是CPU调度的最小单位”。
先说说「多进程」:从普通用户的视角:
如果你的电脑是Windows的话,Ctrl+Alt+Del打开任务管理器,可以看到电脑运行着很多的进程,比如QQ,微信,网易云音乐等。这就是多进程,每个进程各司其职完成对应的功能,互不干扰,你聊天的时候音乐照常播放。
再说说开发仔的视角:
多进程的概念更倾向于:多个进程协同地区完成同一项工作。
问题:为什么要在应用里使用多进程?
笔者观点:摆脱系统的一些限制和为自己的应用获取更多的资源,举个例子:
在Android系统中会为每个应用(进程)限制最大内容,单个进程超过这个阈值会引起OOM,而使用多进程技术可以规避这个内存溢出的问题。再举个例子:Python在实现Python解析器(CPython)时引入了GIL锁,使得任何时候仅有一个线程在执行,多线程的效率可能还比不上单线程,使用多进程技术可以规避这个限制。
再说说「多线程」,首先为什么会引入线程的概念呢?举个例子:
你有一个文本程序,三个功能组成部分:接收用户的输入,显示到屏幕上,保存到硬盘里,如果由三个进程组成:输入接收进程A,显示内容进程B,写入硬盘进程C,而他们之间共同需要拥有的东西——文本内容,而进程A,B,C运行在不同的内存空间,这就涉及到
进程通信问题
了,而频繁的进程切换势必导致性能上的损失。有没有一种机制使得做这三个任务时共享资源呢?这个时候线程(轻量级的进程)就派上用场了,多个线程共享进程数据。相信读者看到这里,对于多进程和多线程的概念应该有个初步的了解了,接下来简单比较下两者的优劣和使用场景:
对比内容 | 多进程 | 多线程 |
内存与CPU | 内存占用多,切换复杂, CPU利用率低 |
内存占用少,切换简单, CPU利用率高 |
数据共享与同步 | 数据共享复杂,需要通过IPC, 因为数据是分开的,同步简单 |
共享进程数据,数据共享简单,但也因为 这个原因导致同步复杂 |
创建销毁和切换 | 创建销毁和切换复杂,速度慢 | 创建销毁和切换简单,速度很快 |
编程和调试 | 编程简单,调试简单 | 编程复杂,调试复杂 |
可靠性 | 进程间不会互相影响 | 一个线程挂掉将导致整个进程挂掉 |
分布式 | 适应于多核、多机分布式;如果一台 机器不够,扩展到多台机器比较简单 |
适应于多核分布式 |
2、线程的生命周期
线程的生命周期如图所示:
各个状态说明:
- New(新建),新创建的线程进过初始化,进入Runnable(就绪)状态。
- Runnable(就绪),等待线程调度,调度后进入Running(运行)状态。
- Running(运行),线程正常运行,期间可能会因为某些情况进入Blocked
(同步锁;调用了sleep()和join()方法进入Sleeping状态;执行wait()方法进入
Waiting状态,等待其他线程notify通知唤醒)。
- Blocked(堵塞),线程暂停运行,解除堵塞后进入Runnable(就绪)状态重新等待调度。
- Dead(死亡):线程完成了它的任务正常结束或因异常导致终止。
3、并行与并发,同步与异步
并行与并发的区别:
并行是同时处理多个任务,而并发则是处理多个任务,而不一定要同时,并行可以说是并发的子集。
同步与异步的区别:
- 同步:线程执行某个请求,如果该请求需要一段时间才能返回信息,那么这个线程会一直等待,直到收到返回信息才能继续执行下去。
- 异步:线程执行完某个请求,不需要一直等,直接继续执行后续操作,当有消息
返回时系统会通知线程进程处理,这样可以提高执行的效率;异步在网络请求
的应用非常常见。