Python爬虫-进程间通信

简介: Python爬虫-进程间通信

Python爬虫-进程间通信
进程概述
进程(Process)是计算机中已运行程序的实体。进程与程序不同,程序本身只是指令、数据及器组织形式的描述,进程才是程序(那些指令和数据)的真正运行实体。例如在没有打开QQ时,QQ只是程序。打开以后,操作系统为QQ开启一个进程。再打开一个QQ,则又开启一个进程。

那么在多进程中,每个进程之间是什么关系呢?其实每个进程都有自己的地址空间、内存、数据栈以及其他记录其运行状态的辅助数据。下通过一个例子验证一下进程间是否能直接共享信息。示例代码如下:

#_*_coding:utf-8_*_
# 作者      :liuxiaowei
# 创建时间   :2/13/22 10:04 AM
# 文件      :验证进程之间能否直接共享信息.py
# IDE      :PyCharm

from multiprocessing import Process

def plus():
    print('-------子进程1开始------')
    global g_num
    g_num += 50
    print('g_num is %d'%g_num)
    print('-------子进程1结束------')

def minus():
    print('-------子进程2开始------')
    global g_num
    g_num -= 50
    print('g_num is %d'%g_num)
    print('-------子进程2结束------')

g_num = 100 # 定义一个全局变量
if __name__ == '__main__':
    print('-------主进程开始------')
    print('g_num is %d'%g_num)
    p1 = Process(target=plus)   # 实例化进程p1
    p2 = Process(target=minus)  # 实例化进程p2
    p1.start()                  # 开启进程p1
    p2.start()                  # 开启进程p2
    p1.join()                   # 等待p1进程结束
    p2.join()                   # 等待p2进程结束
    print('-------主进程结束------')

示例代码中定义一个全局变量g_num,分别创建2个子进程对g_num变量执行不同的操作,并输出操作后的结果。运行结果如下:

-------主进程开始------
g_num is 100
-------子进程1开始------
g_num is 150
-------子进程1结束------
-------子进程2开始------
g_num is 50
-------子进程2结束------
-------主进程结束------

Process finished with exit code 0

上述代码中,分别创建了2个子进程,一个子进程中令g_num变量加50,另一个子进程令g_num变量减50。但是从运行结果看,g_num变量在父进程和2个子进程中的初识值都是100,也就是说全局变量g_num在一个进程中的结果并没有传到下一个进程中,即进程之间并没有共享信息。

要如何才能实现进程间的通信呢?Python的multiprocessing模块包装了底层的机制,提供了Queue(队列)、Pipes(管道)等多种方式来交换数据。

队列简介
队列(Queue)就是模仿现实中的排队。举个栗子(非网上购票方式,曾经的买电影票的方式),例如排队买电影票,新来的人排到队伍最后,最前面的人买完票走开,后面的人跟上。由此可见队列的两个特点:

§ 新来的都排在队尾

§ 最前面的完成后离队,后面一个跟上

image.png

多进程队列的使用
进程间有时需要通信,操作系统提供了很多机制来实现进程间的通信,如可以使用multiprocessing模块的Queue队列实现多进程之间的数据传递。Queue本身是一个消息队列程序,下面介绍一下它的使用。

初始化Queue()对象时(例如:q=Queue(num)),若括号中没有指定最大可接收的消息数量,或数量为负值,那么就代表可接受的消息数量没有上限(直到内存的尽头)。Queue常用方法如下:

§ Queue.qsize():返回当前队列包含的消息数量

§ Queue.empty():如果队列为空,返回True,否则返回False

§ Queue.full():如果队列满了,返回True,否则返回False

§ Queue.get([block[,timeout]]):获取队列中的一条消息,然后将其从队列中移除,block默认值为True

如果block使用默认值,且没有设置timeout(单位秒),消息队列为空,此时程序将被阻塞(停在读取状态),直到从消息队列中读到消息为止,如果设置了timeou,则会等待timeout秒,若还没有读取到任何消息,则抛出“Queue.Empty“异常
如果block值为False,消息队列为空,则会立刻抛出“Queue.Empty“异常
§ Queue.get_nowait():相当Queue.get(Flase)

§ Queue.put(item,[block[,timeout]]):将item消息写入队列,block默认值为True

如果block使用默认值,且没有设置timeout(单位秒),当消息队列已经没有空间可写入时,程序将被阻塞(停在写入状态),直到从消息队列腾出空间为止,如果设置了timeout,则会等待timeout秒,若还没有空间,则抛出“Queue.Full“异常
如果block值为False,当消息队列没有空间可写入时,则会立刻抛出“Queue.Full“异常
Queue.put_nowait(item):相当Queue.put(item,False)
示例代码如下:

#_*_coding:utf-8_*_
# 作者      :liuxiaowei
# 创建时间   :2/13/22 3:33 PM
# 文件      :使用processing.Queue实现多进程队列.py
# IDE      :PyCharm


#coding=utf-8
from multiprocessing import Queue

if __name__ == '__main__':
    q=Queue(3) # 初始化一个Queue对象,最多可接收三条put消息
    q.put("消息1")
    q.put("消息2")
    print(q.full())  # 返回False
    q.put("消息3")
    print(q.full()) # 返回True

    # 因为消息队列已满,下面的try会抛出异常,
    # 第一个try会等待2秒后再抛出异常,第二个try会立刻抛出异常
    try:
        q.put("消息4",True,2)
    except:
        print("消息队列已满,现有消息数量:%s"%q.qsize())

    try:
        q.put_nowait("消息4")
    except:
        print("消息队列已满,现有消息数量:%s"%q.qsize())

    # 读取消息时,先判断消息队列是否为空,为空时再读取
    if not q.empty():
        print('----从队列中获取消息---')
        for i in range(q.qsize()):
            print(q.get_nowait())
    # 先判断消息队列是否已满,不为满时再写入
    if not q.full():
        q.put_nowait("消息4")

程序运行结果如下:

False
True
消息队列已满,现有消息数量:3
消息队列已满,现有消息数量:3
----从队列中获取消息---
消息1
消息2
消息3

备 注

此程序只能在Windows环境下运行成功,mac系统会报错。不知道什么原因?而且单独的print(q.qsize())都报错。

使用队列在进程间通信
我们知道使用multiprocessing.Process可以创建多进程,使用multiprocessing.Queue可以实现队列的操作。结合Process和Queue实现进程间的通信。示例代码如下:

#_*_coding:utf-8_*_
# 作者      :liuxiaowei
# 创建时间   :2/13/22 1:09 PM
# 文件      :使用队列实现在进程间通信.py
# IDE      :PyCharm

from multiprocessing import Process, Queue
import  time

# 向队列中写入数据
def write_task(q):
    if not q.full():
        for i in range(5):
            message = "消息" + str(i)
            q.put(message)
            print("写入:%s"%message)
# 从队列读取数据
def read_task(q):
    time.sleep(1)                      # 休眠1while not q.empty():
        print("读取:%s" % q.get(True,2))     # 等待2秒,如果还没读取到任何消息,
                                           # 则抛出"Queue.Empty"异常

if __name__ == "__main__":
    print("-----父进程开始-----")
    q = Queue()  # 父进程创建Queue,并传给各个子进程
    pw = Process(target=write_task, args=(q,)) # 实例化写入队列的子进程,并且传递队列
    pr = Process(target=read_task, args=(q,))  # 实例化读取队列的子进程,并且传递队列
    pw.start()   # 启动子进程 pw,写入
    pr.start()   # 启动子进程 pr,读取
    pw.join()    # 等待 pw 结束
    pr.join()    # 等待 pr 结束
    print("-----父进程结束-----")

上述代码中创建2个子进程,一个子进程负责向队列中写入数据,另一个子进程负责从队列中读取数据。为保证能够正确从队列中读取数据,设置读取数据的进程等待时间为2秒。如果2秒后仍然无法读取数据,则抛出异常。运行结果如下:

-----父进程开始-----
写入:消息0
写入:消息1
写入:消息2
写入:消息3
写入:消息4
读取:消息0
读取:消息1
读取:消息2
读取:消息3
读取:消息4
-----父进程结束-----

Process finished with exit code 0
相关文章
|
6天前
|
数据采集 存储 JavaScript
构建你的第一个Python网络爬虫
【9月更文挑战第34天】在数字信息泛滥的时代,快速有效地获取和处理数据成为一项重要技能。本文将引导读者通过Python编写一个简易的网络爬虫,实现自动化地从网页上抓取数据。我们将一步步走过代码的编写过程,并探讨如何避免常见陷阱。无论你是编程新手还是想扩展你的技术工具箱,这篇文章都将为你提供有价值的指导。
46 18
|
6天前
|
数据采集 存储 数据挖掘
深入探索 Python 爬虫:高级技术与实战应用
本文介绍了Python爬虫的高级技术,涵盖并发处理、反爬虫策略(如验证码识别与模拟登录)及数据存储与处理方法。通过asyncio库实现异步爬虫,提升效率;利用tesseract和requests库应对反爬措施;借助SQLAlchemy和pandas进行数据存储与分析。实战部分展示了如何爬取电商网站的商品信息及新闻网站的文章内容。提醒读者在实际应用中需遵守法律法规。
121 66
|
10天前
|
数据采集 存储 XML
构建高效的Python爬虫系统
【9月更文挑战第30天】在数据驱动的时代,掌握如何快速高效地获取网络信息变得至关重要。本文将引导读者了解如何构建一个高效的Python爬虫系统,从基础概念出发,逐步深入到高级技巧和最佳实践。我们将探索如何使用Python的强大库如BeautifulSoup和Scrapy,以及如何应对反爬措施和提升爬取效率的策略。无论你是初学者还是有经验的开发者,这篇文章都将为你提供宝贵的知识和技能,帮助你在信息收集的海洋中航行得更远、更深。
30 6
|
8天前
|
数据采集 数据挖掘 数据处理
Python中实现简单爬虫并处理数据
【9月更文挑战第31天】本文将引导读者理解如何通过Python创建一个简单的网络爬虫,并展示如何处理爬取的数据。我们将讨论爬虫的基本原理、使用requests和BeautifulSoup库进行网页抓取的方法,以及如何使用pandas对数据进行清洗和分析。文章旨在为初学者提供一个易于理解的实践指南,帮助他们快速掌握网络数据抓取的基本技能。
20 3
|
12天前
|
数据采集 JSON 数据格式
Python:南京地铁每日客流数据的爬虫实现
Python:南京地铁每日客流数据的爬虫实现
26 1
|
1天前
|
数据采集 存储 数据处理
Python爬虫-数据处理与存储(一)
Python爬虫-数据处理与存储(一)
12 0
|
1天前
|
SQL 关系型数据库 MySQL
Python爬虫-数据处理与存储(二)
Python爬虫-数据处理与存储(二)
|
10天前
|
数据采集 Linux 网络安全
python 爬虫遇到的aiohttp证书错误解决办法
python 爬虫遇到的aiohttp证书错误解决办法
35 0
|
10天前
|
数据采集 Linux 调度
Python之多线程与多进程
Python之多线程与多进程
19 0
|
2月前
|
数据采集 存储 中间件
Python进行网络爬虫:Scrapy框架的实践
【8月更文挑战第17天】网络爬虫是自动化程序,用于从互联网收集信息。Python凭借其丰富的库和框架成为构建爬虫的首选语言。Scrapy作为一款流行的开源框架,简化了爬虫开发过程。本文介绍如何使用Python和Scrapy构建简单爬虫:首先安装Scrapy,接着创建新项目并定义爬虫,指定起始URL和解析逻辑。运行爬虫可将数据保存为JSON文件或存储到数据库。此外,Scrapy支持高级功能如中间件定制、分布式爬取、动态页面渲染等。在实践中需遵循最佳规范,如尊重robots.txt协议、合理设置爬取速度等。通过本文,读者将掌握Scrapy基础并了解如何高效地进行网络数据采集。
160 6