Python爬虫-进程间通信

简介: Python爬虫-进程间通信

Python爬虫-进程间通信
进程概述
进程(Process)是计算机中已运行程序的实体。进程与程序不同,程序本身只是指令、数据及器组织形式的描述,进程才是程序(那些指令和数据)的真正运行实体。例如在没有打开QQ时,QQ只是程序。打开以后,操作系统为QQ开启一个进程。再打开一个QQ,则又开启一个进程。

那么在多进程中,每个进程之间是什么关系呢?其实每个进程都有自己的地址空间、内存、数据栈以及其他记录其运行状态的辅助数据。下通过一个例子验证一下进程间是否能直接共享信息。示例代码如下:

#_*_coding:utf-8_*_
# 作者      :liuxiaowei
# 创建时间   :2/13/22 10:04 AM
# 文件      :验证进程之间能否直接共享信息.py
# IDE      :PyCharm

from multiprocessing import Process

def plus():
    print('-------子进程1开始------')
    global g_num
    g_num += 50
    print('g_num is %d'%g_num)
    print('-------子进程1结束------')

def minus():
    print('-------子进程2开始------')
    global g_num
    g_num -= 50
    print('g_num is %d'%g_num)
    print('-------子进程2结束------')

g_num = 100 # 定义一个全局变量
if __name__ == '__main__':
    print('-------主进程开始------')
    print('g_num is %d'%g_num)
    p1 = Process(target=plus)   # 实例化进程p1
    p2 = Process(target=minus)  # 实例化进程p2
    p1.start()                  # 开启进程p1
    p2.start()                  # 开启进程p2
    p1.join()                   # 等待p1进程结束
    p2.join()                   # 等待p2进程结束
    print('-------主进程结束------')

示例代码中定义一个全局变量g_num,分别创建2个子进程对g_num变量执行不同的操作,并输出操作后的结果。运行结果如下:

-------主进程开始------
g_num is 100
-------子进程1开始------
g_num is 150
-------子进程1结束------
-------子进程2开始------
g_num is 50
-------子进程2结束------
-------主进程结束------

Process finished with exit code 0

上述代码中,分别创建了2个子进程,一个子进程中令g_num变量加50,另一个子进程令g_num变量减50。但是从运行结果看,g_num变量在父进程和2个子进程中的初识值都是100,也就是说全局变量g_num在一个进程中的结果并没有传到下一个进程中,即进程之间并没有共享信息。

要如何才能实现进程间的通信呢?Python的multiprocessing模块包装了底层的机制,提供了Queue(队列)、Pipes(管道)等多种方式来交换数据。

队列简介
队列(Queue)就是模仿现实中的排队。举个栗子(非网上购票方式,曾经的买电影票的方式),例如排队买电影票,新来的人排到队伍最后,最前面的人买完票走开,后面的人跟上。由此可见队列的两个特点:

§ 新来的都排在队尾

§ 最前面的完成后离队,后面一个跟上

image.png

多进程队列的使用
进程间有时需要通信,操作系统提供了很多机制来实现进程间的通信,如可以使用multiprocessing模块的Queue队列实现多进程之间的数据传递。Queue本身是一个消息队列程序,下面介绍一下它的使用。

初始化Queue()对象时(例如:q=Queue(num)),若括号中没有指定最大可接收的消息数量,或数量为负值,那么就代表可接受的消息数量没有上限(直到内存的尽头)。Queue常用方法如下:

§ Queue.qsize():返回当前队列包含的消息数量

§ Queue.empty():如果队列为空,返回True,否则返回False

§ Queue.full():如果队列满了,返回True,否则返回False

§ Queue.get([block[,timeout]]):获取队列中的一条消息,然后将其从队列中移除,block默认值为True

如果block使用默认值,且没有设置timeout(单位秒),消息队列为空,此时程序将被阻塞(停在读取状态),直到从消息队列中读到消息为止,如果设置了timeou,则会等待timeout秒,若还没有读取到任何消息,则抛出“Queue.Empty“异常
如果block值为False,消息队列为空,则会立刻抛出“Queue.Empty“异常
§ Queue.get_nowait():相当Queue.get(Flase)

§ Queue.put(item,[block[,timeout]]):将item消息写入队列,block默认值为True

如果block使用默认值,且没有设置timeout(单位秒),当消息队列已经没有空间可写入时,程序将被阻塞(停在写入状态),直到从消息队列腾出空间为止,如果设置了timeout,则会等待timeout秒,若还没有空间,则抛出“Queue.Full“异常
如果block值为False,当消息队列没有空间可写入时,则会立刻抛出“Queue.Full“异常
Queue.put_nowait(item):相当Queue.put(item,False)
示例代码如下:

#_*_coding:utf-8_*_
# 作者      :liuxiaowei
# 创建时间   :2/13/22 3:33 PM
# 文件      :使用processing.Queue实现多进程队列.py
# IDE      :PyCharm


#coding=utf-8
from multiprocessing import Queue

if __name__ == '__main__':
    q=Queue(3) # 初始化一个Queue对象,最多可接收三条put消息
    q.put("消息1")
    q.put("消息2")
    print(q.full())  # 返回False
    q.put("消息3")
    print(q.full()) # 返回True

    # 因为消息队列已满,下面的try会抛出异常,
    # 第一个try会等待2秒后再抛出异常,第二个try会立刻抛出异常
    try:
        q.put("消息4",True,2)
    except:
        print("消息队列已满,现有消息数量:%s"%q.qsize())

    try:
        q.put_nowait("消息4")
    except:
        print("消息队列已满,现有消息数量:%s"%q.qsize())

    # 读取消息时,先判断消息队列是否为空,为空时再读取
    if not q.empty():
        print('----从队列中获取消息---')
        for i in range(q.qsize()):
            print(q.get_nowait())
    # 先判断消息队列是否已满,不为满时再写入
    if not q.full():
        q.put_nowait("消息4")

程序运行结果如下:

False
True
消息队列已满,现有消息数量:3
消息队列已满,现有消息数量:3
----从队列中获取消息---
消息1
消息2
消息3

备 注

此程序只能在Windows环境下运行成功,mac系统会报错。不知道什么原因?而且单独的print(q.qsize())都报错。

使用队列在进程间通信
我们知道使用multiprocessing.Process可以创建多进程,使用multiprocessing.Queue可以实现队列的操作。结合Process和Queue实现进程间的通信。示例代码如下:

#_*_coding:utf-8_*_
# 作者      :liuxiaowei
# 创建时间   :2/13/22 1:09 PM
# 文件      :使用队列实现在进程间通信.py
# IDE      :PyCharm

from multiprocessing import Process, Queue
import  time

# 向队列中写入数据
def write_task(q):
    if not q.full():
        for i in range(5):
            message = "消息" + str(i)
            q.put(message)
            print("写入:%s"%message)
# 从队列读取数据
def read_task(q):
    time.sleep(1)                      # 休眠1while not q.empty():
        print("读取:%s" % q.get(True,2))     # 等待2秒,如果还没读取到任何消息,
                                           # 则抛出"Queue.Empty"异常

if __name__ == "__main__":
    print("-----父进程开始-----")
    q = Queue()  # 父进程创建Queue,并传给各个子进程
    pw = Process(target=write_task, args=(q,)) # 实例化写入队列的子进程,并且传递队列
    pr = Process(target=read_task, args=(q,))  # 实例化读取队列的子进程,并且传递队列
    pw.start()   # 启动子进程 pw,写入
    pr.start()   # 启动子进程 pr,读取
    pw.join()    # 等待 pw 结束
    pr.join()    # 等待 pr 结束
    print("-----父进程结束-----")

上述代码中创建2个子进程,一个子进程负责向队列中写入数据,另一个子进程负责从队列中读取数据。为保证能够正确从队列中读取数据,设置读取数据的进程等待时间为2秒。如果2秒后仍然无法读取数据,则抛出异常。运行结果如下:

-----父进程开始-----
写入:消息0
写入:消息1
写入:消息2
写入:消息3
写入:消息4
读取:消息0
读取:消息1
读取:消息2
读取:消息3
读取:消息4
-----父进程结束-----

Process finished with exit code 0
相关文章
|
1月前
|
数据采集 存储 XML
Python爬虫:深入探索1688关键词接口获取之道
在数字化经济中,数据尤其在电商领域的价值日益凸显。1688作为中国领先的B2B平台,其关键词接口对商家至关重要。本文介绍如何通过Python爬虫技术,合法合规地获取1688关键词接口,助力商家洞察市场趋势,优化营销策略。
|
9天前
|
数据采集 存储 缓存
如何使用缓存技术提升Python爬虫效率
如何使用缓存技术提升Python爬虫效率
|
10天前
|
数据采集 Web App开发 监控
Python爬虫:爱奇艺榜单数据的实时监控
Python爬虫:爱奇艺榜单数据的实时监控
|
19天前
|
数据采集 JSON API
如何利用Python爬虫淘宝商品详情高级版(item_get_pro)API接口及返回值解析说明
本文介绍了如何利用Python爬虫技术调用淘宝商品详情高级版API接口(item_get_pro),获取商品的详细信息,包括标题、价格、销量等。文章涵盖了环境准备、API权限申请、请求构建和返回值解析等内容,强调了数据获取的合规性和安全性。
|
24天前
|
数据采集 存储 API
利用Python爬虫获取1688关键词接口全攻略
本文介绍如何使用Python爬虫技术合法合规地获取1688关键词接口数据,包括环境准备、注册1688开发者账号、获取Access Token、构建请求URL、发送API请求、解析HTML及数据处理存储等步骤,强调遵守法律法规和合理使用爬虫技术的重要性。
|
1月前
|
数据采集 JSON 开发者
Python爬虫京东商品详情数据接口
京东商品详情数据接口(JD.item_get)提供商品标题、价格、品牌、规格、图片等详细信息,适用于电商数据分析、竞品分析等。开发者需先注册账号、创建应用并申请接口权限,使用时需遵循相关规则,注意数据更新频率和错误处理。示例代码展示了如何通过 Python 调用此接口并处理返回的 JSON 数据。
|
2月前
|
XML 数据采集 数据格式
Python 爬虫必备杀器,xpath 解析 HTML
【11月更文挑战第17天】XPath 是一种用于在 XML 和 HTML 文档中定位节点的语言,通过路径表达式选取节点或节点集。它不仅适用于 XML,也广泛应用于 HTML 解析。基本语法包括标签名、属性、层级关系等的选择,如 `//p` 选择所有段落标签,`//a[@href='example.com']` 选择特定链接。在 Python 中,常用 lxml 库结合 XPath 进行网页数据抓取,支持高效解析与复杂信息提取。高级技巧涵盖轴的使用和函数应用,如 `contains()` 用于模糊匹配。
|
2月前
|
数据采集 XML 存储
构建高效的Python网络爬虫:从入门到实践
本文旨在通过深入浅出的方式,引导读者从零开始构建一个高效的Python网络爬虫。我们将探索爬虫的基本原理、核心组件以及如何利用Python的强大库进行数据抓取和处理。文章不仅提供理论指导,还结合实战案例,让读者能够快速掌握爬虫技术,并应用于实际项目中。无论你是编程新手还是有一定基础的开发者,都能在这篇文章中找到有价值的内容。
|
2月前
|
数据采集 JavaScript 前端开发
Python爬虫能处理动态加载的内容吗?
Python爬虫可处理动态加载内容,主要方法包括:使用Selenium模拟浏览器行为;分析网络请求,直接请求API获取数据;利用Pyppeteer控制无头Chrome。这些方法各有优势,适用于不同场景。
|
2月前
|
数据采集 监控 搜索推荐
python爬虫的基本使用
本文介绍了Python爬虫的基本概念及其广泛应用,包括搜索引擎、数据挖掘、网络监控、舆情分析和信息聚合等领域。通过安装`urllib`和`BeautifulSoup`库,展示了如何编写简单代码实现网页数据的抓取与解析。爬虫技术在大数据时代的重要性日益凸显,为各行业提供了高效的数据获取手段。
45 1