注:本文是廖大的教程文章,本人也在学习,因为老是记不住,自己手打一边,代码也是亲自测试。
廖大传送门
多进程
多个任务可以由多进程完成,也可以由一个进程内的多线程完成。
一个线程由多个进程组成,一个进程至少有一个线程。
由于线程是操作系统直接支持的单元,因此,高级语言都内置多线程的支持,python 也不例外,并且,python 的线程是真正的 Posix Thread ,不是模拟出来的线程。
python 的标准库提供了两个模块:_thread 和 threading ,_thread 是低级模块,threading 是高级模块。绝大多数的情况下,我们只用 threading 就可以了。
启动一个线程就是把函数传入并创建 Thread 实例,然后调用 start() 函开始执行就可以了。
import time
import threading
#线程执行的代码
def loop():
print('thread %s is running' % threading.current_thread().name)
n = 0
while n < 5:
n += 1
print('thread %s >>> %s' % (threading.current_thread().name,n))
time.sleep(1)
print('thread %s end' % threading.current_thread().name)
print('thread %s is running...' % threading.current_thread().name)
t = threading.Thread(target=loop,name='LoopTread')
t.start()
t.join()
print('thread %s end' % threading.current_thread().name)
运行结果
thread MainThread is running...
thread LoopTread is running
thread LoopTread >>> 1
thread LoopTread >>> 2
thread LoopTread >>> 3
thread LoopTread >>> 4
thread LoopTread >>> 5
thread LoopTread end
thread MainThread end
由于任何进程都会默认开启一个线程,我们把该线程称为主线程,主线程又可以开启新的线程,Python 的 threading 模块有个 current_thread() 函数,它永远返回当前线程的实例。主线程实例的名字叫 MainThread ,子线程的名字在创建时指定,我们用 LoopThread 命名子线程。名字仅仅在打印时用来显示,完全没有其他意义,如果不起名字 Python 就自动给线程命名为 Thread-1,Thread-2……
Lock
多进程和多线程最大的不同在于,多进程中,同一个变量,各自有一份拷贝到每个进程,互不影响,而线程中,所有变量都是又所有线程共享所有,任何一个变量都可以被任何一个线程修改,因此,线程之间共享数据最大的危险在于多线程同时修改同一个变量,把内容给改乱了。
举个例子
#假定这是你的银行存款
balance = 0
def change_it(n):
#先存后取
global balance
balance += n
balance -= n
def run_thread(n):
for i in range(100000):
change_it(n)
t1 = threading.Thread(target=run_thread,args=(5,))
t2 = threading.Thread(target=run_thread,args=(8,))
t1.start()
t2.start()
t1.join()
t2.join()
print(balance)
我们定义了一个共享变量balance,初始值为0,并且启动两个线程,先存后取,理论上结果应该为0,但是,由于线程的调度是由操作系统决定的,当t1、t2交替执行时,只要循环次数足够多,balance的结果就不一定是0了。
运行结果:
5
原因是因为高级语言的一条语句在 CPU 执行时是若干条语句,即使一个简单的计算
balance += n
也要分两步
- 计算 balance + n 结果存到临时变量中,
- 将临时变量的值赋给 balance
究其原因,是因为修改 balance 需要多条语句,而执行这几条语句时,线程可能中断,从而导致多个线程把同一个对象的内容改乱了。
两个线程同时一存一取,就可能导致余额不对,你肯定不希望你的银行存款莫名其妙地变成了负数,所以,我们必须确保一个线程在修改 balance的时候,别的线程一定不能改。
如果我们要确保 balance 计算正确,就要给 change_it() 上一把锁,当某个线程开始执行 change_it() 时,我们说,该线程因为获得了锁,因此其他线程不能同时执行 change_it(),只能等待,直到锁被释放后,获得该锁以后才能改。由于锁只有一个,无论多少线程,同一时刻最多只有一个线程持有该锁,所以,不会造成修改的冲突。创建一个锁就是通过threading.Lock() 来实现:
lock = threading.Lock()
def run_thread(n):
for i in range(100000):
#先要获取锁
lock.acquire()
try:
#放心改吧
change_it(n)
finally:
#改完记得释放锁哦
lock.release()
当多个线程同时执行 lock.acquire() 时,只有一个线程能成功地获取锁,然后继续执行代码,其他线程就继续等待直到获得锁为止。
获得锁的线程用完后一定要释放锁,否则那些苦苦等待锁的线程将永远等待下去,成为死线程。所以我们用 try...finally 来确保锁一定会被释放。
- 锁的好处就是确保了某段关键代码只能由一个线程从头到尾完整地执行。
- 坏处当然也很多,首先是阻止了多线程并发执行,包含锁的某段代码实际上只能以单线程模式执行,效率就大大地下降了。
- 其次,由于可以存在多个锁,不同的线程持有不同的锁,并试图获取对方持有的锁时,可能会造成死锁,导致多个线程全部挂起,既不能执行,也无法结束,只能靠操作系统强制终止。
多核CPU
如果你不幸拥有一个多核CPU,你肯定在想,多核应该可以同时执行多个线程。
如果写一个死循环的话,会出现什么情况呢?
打开Mac OS X的Activity Monitor,或者Windows的Task Manager,都可以监控某个进程的CPU使用率。
我们可以监控到一个死循环线程会100%占用一个CPU。
如果有两个死循环线程,在多核CPU中,可以监控到会占用200%的CPU,也就是占用两个CPU核心。
要想把N核CPU的核心全部跑满,就必须启动N个死循环线程。
试试用Python写个死循环:
import threading, multiprocessing
def loop():
x = 0
while True:
x = x ^ 1
for i in range(multiprocessing.cpu_count()):
t = threading.Thread(target=loop)
t.start()
启动与CPU核心数量相同的N个线程,在4核CPU上可以监控到CPU占用率仅有102%,也就是仅使用了一核。
但是用C、C++或Java来改写相同的死循环,直接可以把全部核心跑满,4核就跑到400%,8核就跑到800%,为什么Python不行呢?
因为Python的线程虽然是真正的线程,但解释器执行代码时,有一个GIL锁:Global Interpreter Lock,任何Python线程执行前,必须先获得GIL锁,然后,每执行100条字节码,解释器就自动释放GIL锁,让别的线程有机会执行。这个GIL全局锁实际上把所有线程的执行代码都给上了锁,所以,多线程在Python中只能交替执行,即使100个线程跑在100核CPU上,也只能用到1个核。
GIL是Python解释器设计的历史遗留问题,通常我们用的解释器是官方实现的CPython,要真正利用多核,除非重写一个不带GIL的解释器。
所以,在Python中,可以使用多线程,但不要指望能有效利用多核。如果一定要通过多线程利用多核,那只能通过C扩展来实现,不过这样就失去了Python简单易用的特点。
不过,也不用过于担心,Python虽然不能利用多线程实现多核任务,但可以通过多进程实现多核任务。多个Python进程有各自独立的GIL锁,互不影响。