多线程与多进程(一)

简介: 多线程与多进程

顺序执行任务(串行)

想象一下,你有100张图片,你需要将每一张图片压缩一下,那么这个任务可以使用下面的代码来进行执行

def compress(picture_id):
 print('压缩图片')
tasks = [1,2,3,4,5,6]
for picture_id in tasks:
    compress(picture_id)

我们可以使用一个for循环,来每次迭代一张图片,然后使用compress来进行压缩。假设压缩一张图片需要2s,那么100张图片将需要200s。可能200s对你而言还没有那么长。但如果你有一万张图片呢?这种顺序执行的方式将会带来极大的时间成本。

并行执行任务

在python中,有下面几种方式可以加速你的代码

  • 多线程(threading
  • 多进程(multiprocessing
  • 协程(asyncio

线程和进程是通过操作系统来进行调度的。所谓调度,简单理解就是操作系统可以告诉哪个线程/进程可以使用CPU来进行计算,哪些需要暂时休眠的过程。而协程则是是一种并行的编程模型,它不需要操作系统来参与调度,而是由不同的语言来进行实现,他没有调度成本,比如Golang语言可以被大量的使用,其中有一个很重要的因素就是Golang中优秀的协程。这篇文章主要介绍python中的线程和进程的使用。在python中由于存在GIL锁的缘故,在任一时刻,一个进程下面,程序只能存在一个正在执行的线程,而进程则没有限制。这样听来,是不是突然觉得python中的线程好像没有那么大用,其实不然。线程一般处理一个IO密集型的数据,虽然当前线程不能使用CPU,但是他仍然可以从硬盘中读取/写入内容,这样一来,也可以达到多个线程同时运行的效果。在操作系统层面,进程和线程存在下面的关系,每个CPU核上面只能同时运行一个进程,而一个进程中可以同时运行多个线程。不同的进程之间的数据是相互隔绝的,所以不同进程之间数据是相互隔绝的,不能直接相互通信;而同一进程下面的不同线程之间是共享数据的。

ac09d90b5d73f659ee78f86081b03e35_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

线程

线程的创建

python中线程的使用需要threading这个官方库。使用方法有三种

  • 直接使用Thread类来进行创建线程
  • 重写Thread类的run方法
  • 继承Thread类,在初始化的时候,进行改写
def compress(picture_id):
    """ 压缩图片 """
    if type(picture_id) is tuple:
        picture_id = picture_id[0]
    print('压缩图片 % d' % picture_id)

直接使用Thread

from threading import Thread
# target即为线程内部要运行的函数
# args为函数所需要的参数,要以tuple类型传入
thread = Thread(target=compress, args=(picture_id, ))

使用继承Thread

import threading
class MyThread1(threading.Thread):
    """ 通过继承,来重写init方法来启动线程 """
    def __init__(self, func, picture_id):
        if type(picture_id) is int:
            picture_id = (picture_id, )
        super().__init__(target=func, args=picture_id)
thread = MyThread1(compress, picture_id)

重写run方法

class MyThread2(threading.Thread):
    """ 通过重写run方法,来启动线程 """
    def __init__(self, picture_id):
        self.picture_id = picture_id
        super().__init__()
    def run(self):
        # 在这里直接使用compress函数,而不是通过传参的方式
        compress(self.picture_id)
thread = MyThread2(picture_id)

线程的启动与等待

无论使用上面三种的哪一种方法去创建线程,都可以得到一个threading.Thread类型的对象。通过调用start方法可以启动线程。

thread: threading.Target = MyThread2(picture_id)
# 启动线程
thread.start()
# 等待,直到线程运行结束(即内部的函数运行结束)
# 阻塞,即等待当前线程运行结束,才会继续往下执行
thread.join()
# 直到压缩完成,才会打印
print('压缩完成')

守护线程

线程之中分为主线程和子线程,子线程由主线程启动。非守护线程:当主线程启动一个子线程时,如果子线程仍在运行,则主线程会等待子线程运行结束,然后一起结束 守护线程:当主线程启动一个子线程时,同时子线程设置为守护线程,那么当主线程运行结束时,不会等待子线程,而是子线程随着主线程一起结束。

import time
def need_exec_long_time():
    time.sleep(10)
    print('执行结束')
thread = threading.Thread(target=need_exec_long_time)
thread.daemon = True  # 设置为守护线程
thread.start()
# 此时主线程已经运行结束
# 因为子线程需要sleep 10s,
# 但因为子线程是守护线程,所以子线程会跟着主线程直接结束
# 上面这段代码不会打印  执行结束

修改一下上面的代码,就可以让主线程一直等着子线程运行结束,而不会直接退出

thread.daemon = False  # 将子线程设置为非守护线程

同步

前面我们讲到,由于线程之间可以共享数据,那么这就引入了一个新问题——资源竞争 看下面的例子

import threading
import time
tasks = list(range(4))
def pop():
    global tasks
    while tasks:
        time.sleep(2)
        print(tasks.pop())
if __name__ == '__main__':
    threads = []
    for _ in range(2):
        threads.append(threading.Thread(target=pop))
    for t in threads:
        t.start()
    for t in threads:
        t.join()

61720f85405b2791ea0fc299f30632b9_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

在运行上面的代码后,可能会出现图片中所出现的错误。前面我们讲过,进程和线程是操作系统来进行调度的,也就是说,任何一个正在运行的线程,都可能被操作系统暂时中断,然后启动其他线程或进程。

db7076c9601e75658dd29b73b947e739_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

在while循环判断后,由于存在线程切换,所以并不能保证进入while循环后,tasks中仍存在值,我们需要保证在pop的时候,tasks中一定要含有值,这样才能正常地调用pop函数。


相关文章
|
28天前
|
UED 开发者 Python
探索操作系统的心脏:理解进程与线程
【8月更文挑战第31天】在数字世界的海洋中,操作系统犹如一艘巨轮,其稳定航行依赖于精密的进程与线程机制。本文将揭开这一机制的神秘面纱,通过深入浅出的语言和直观的代码示例,引领读者从理论到实践,体验进程与线程的魅力。我们将从基础概念出发,逐步深入到它们之间的联系与区别,最后探讨如何在编程实践中高效运用这些知识。无论你是初学者还是有经验的开发者,这篇文章都将为你的技术之旅增添新的航标。
|
1月前
|
Java 程序员 调度
【JAVA 并发秘籍】进程、线程、协程:揭秘并发编程的终极武器!
【8月更文挑战第25天】本文以问答形式深入探讨了并发编程中的核心概念——进程、线程与协程,并详细介绍了它们在Java中的应用。文章不仅解释了每个概念的基本原理及其差异,还提供了实用的示例代码,帮助读者理解如何在Java环境中实现这些并发机制。无论你是希望提高编程技能的专业开发者,还是准备技术面试的求职者,都能从本文获得有价值的见解。
42 1
|
13天前
|
开发者 Python
深入浅出操作系统:进程与线程的奥秘
【8月更文挑战第46天】在数字世界的幕后,操作系统扮演着至关重要的角色。本文将揭开进程与线程这两个核心概念的神秘面纱,通过生动的比喻和实际代码示例,带领读者理解它们的定义、区别以及如何在编程中运用这些知识来优化软件的性能。无论你是初学者还是有一定经验的开发者,这篇文章都将为你提供新的视角和实用技巧。
|
1月前
|
数据采集 存储 安全
如何确保Python Queue的线程和进程安全性:使用锁的技巧
本文探讨了在Python爬虫技术中使用锁来保障Queue(队列)的线程和进程安全性。通过分析`queue.Queue`及`multiprocessing.Queue`的基本线程与进程安全特性,文章指出在特定场景下使用锁的重要性。文中还提供了一个综合示例,该示例利用亿牛云爬虫代理服务、多线程技术和锁机制,实现了高效且安全的网页数据采集流程。示例涵盖了代理IP、User-Agent和Cookie的设置,以及如何使用BeautifulSoup解析HTML内容并将其保存为文档。通过这种方式,不仅提高了数据采集效率,还有效避免了并发环境下的数据竞争问题。
如何确保Python Queue的线程和进程安全性:使用锁的技巧
|
21天前
|
存储 Java 数据处理
进程中的线程调度
进程是应用程序运行的基本单位,包括主线程、用户线程和守护线程。计算机由存储器和处理器协同操作,操作系统设计为分时和分任务模式。在个人PC普及后,基于用户的时间片异步任务操作系统确保了更好的体验和性能。线程作为进程的调度单元,通过覆写`Thread`类的`run`方法来处理任务数据,并由系统调度框架统一管理。微服务架构进一步将应用分解为多个子服务,在不同节点上执行,提高数据处理效率与容错性,特别是在大规模数据存储和处理中表现显著。例如,利用微服务框架可以优化算法,加速业务逻辑处理,并在不同区块间分配海量数据存储任务。
|
3天前
|
存储 算法 Java
关于python3的一些理解(装饰器、垃圾回收、进程线程协程、全局解释器锁等)
该文章深入探讨了Python3中的多个重要概念,包括装饰器的工作原理、垃圾回收机制、进程与线程的区别及全局解释器锁(GIL)的影响等,并提供了详细的解释与示例代码。
10 0
|
6天前
|
并行计算 API 调度
探索Python中的并发编程:线程与进程的对比分析
【9月更文挑战第21天】本文深入探讨了Python中并发编程的核心概念,通过直观的代码示例和清晰的逻辑推理,引导读者理解线程与进程在解决并发问题时的不同应用场景。我们将从基础理论出发,逐步过渡到实际案例分析,旨在揭示Python并发模型的内在机制,并比较它们在执行效率、资源占用和适用场景方面的差异。文章不仅适合初学者构建并发编程的基础认识,同时也为有经验的开发者提供深度思考的视角。
|
30天前
|
调度
深入理解操作系统:进程与线程的管理
【8月更文挑战第29天】在数字世界的每一次点击和滑动背后,都隐藏着操作系统的精妙运作。本文将带你探索操作系统的核心概念之一——进程与线程的管理。我们将从基础定义出发,逐步深入到它们在内存中的表示、状态变迁以及它们之间错综复杂的关系。通过简洁明了的语言和直观的比喻,即便是没有计算机背景的读者也能轻松理解这一主题。准备好了吗?让我们一起揭开操作系统神秘的面纱,探索那些看似晦涩却无比精彩的知识吧!
|
1月前
|
调度 Python
深入理解操作系统:进程与线程的奥秘
【8月更文挑战第27天】本文将带你走进操作系统的核心,探索进程和线程这两个基本概念。我们将从它们的定义开始,逐步深入到它们之间的联系和区别,以及在操作系统中的作用。通过本文,你将了解到进程和线程不仅仅是编程中的两个术语,它们是操作系统管理资源、实现并发和并行的关键。最后,我们还将通过一个代码示例,展示如何在Python中创建和管理线程。
|
1月前
|
算法 调度 开发者
深入理解操作系统:进程与线程管理
【8月更文挑战第28天】在数字世界的心脏跳动着的是操作系统,它是计算机硬件与软件之间的桥梁。本文将带你探索操作系统的核心概念——进程与线程,揭示它们如何协同工作以支持多任务处理和并发执行。通过实际代码示例,我们将深入了解这些抽象概念是如何在真实系统中实现的。无论你是编程新手还是资深开发者,这篇文章都将为你提供新的视角,让你对操作系统有更深刻的认识。