Python多线程爬虫编程中queue.Queue和queue.SimpleQueue的区别和应用

简介: 在Python中,queue模块提供了多种队列类,用于在多线程编程中安全地交换信息。其中,queue.Queue 和queue.SimpleQueue 是两个常用的先进先出(FIFO)的队列类,它们有以下区别和优缺点:queue.Queue 是一个更复杂的队列类实现涉及到多个锁和条件变量,因此可能会影响性能和内存效率。SimpleQueue 是一个更简单的队列类它只提供了put()和get()两个方法,并且不支持maxsize参数

247047476.jpg


在Python中,queue模块提供了多种队列类,用于在多线程编程中安全地交换信息。其中,queue.Queue 和queue.SimpleQueue 是两个常用的先进先出(FIFO)的队列类,它们有以下区别和优缺点:

  1. 1、queue.Queue 是一个更复杂的队列类,它提供了一些方法和功能,如限制队列大小、等待队列中的任务完成、检查队列是否为空或满等。这些功能可以方便地在多线程环境中同步生产者和消费者的行为,并且使得代码更易于设计、阅读和维护。
  • 2、queue.Queue 的缺点是它的实现涉及到多个锁和条件变量,因此可能会影响性能和内存效率。另外,它不能处理重入性的问题,即如果在同一线程中调用put()或get()方法时被打断,可能会导致死锁或数据丢失。
  • 3、queue.SimpleQueue 是一个更简单的队列类,它只提供了put()和get()两个方法,并且可以处理重入性的问题。因此,它有更好的性能和内存效率,并且可以在一些特殊情况下安全地调用put()或get()方法,如del方法、weakref回调或信号处理器。
  • 4、queue.SimpleQueue 的缺点是它只提供了put()和get()两个方法,并且不支持maxsize参数。因此,它不能限制队列大小,也不能等待队列中的任务完成。如果需要这些功能,可以使用queue.Queue 或者queue.JoinableQueue。

下面分别用Queue和queue.SimpleQueue,根据多线程网络请求的需求进行实现。

importqueueimportthreadingimportrequests# 定义一个队列对象,用于在多线程中传递数据q=queue.Queue()
# 定义一个函数,用于在子线程中发送请求,并使用代理IPdefsend_request():
# 从队列中获取数据,如果队列为空,则阻塞等待data=q.get()
# 获取代理IP地址、用户名和密码,以及目标URLproxy_ip=data["proxy_ip"]    
username=data["username"]
password=data["password"]
url=data["url"]
# 设置代理参数,包括代理IP、用户名和密码proxies= {
"http": f"http://{username}:{password}@{proxy_ip}",
"https": f"http://{username}:{password}@{proxy_ip}"    }
# 发送请求,并打印响应状态码和内容try:
response=requests.get(url, proxies=proxies)
print(f"Response status: {response.status_code}")
print(f"Response content: {response.text}")
exceptExceptionase:
print(f"Error: {e}")
# 通知队列任务已完成,并释放资源q.task_done()
# 在主线程中创建三个子线程对象,并传入send_request函数作为参数,并设置为守护线程(daemon)threads= []
foriinrange(3):
thread=threading.Thread(target=send_request, daemon=True)
threads.append(thread)
# 启动三个子线程,并将它们加入到主线程的等待列表中forthreadinthreads:
thread.start()
# 在主线程中向队列中放入数据,这里假设有三组代理IP和URL的组合data_list= [
    {"proxy_ip": "www.16yun.cn:3100", "username": "16YUN", "password": "16IP-ps1", "url": "http://example.com/1.html"},
    {"proxy_ip": "www.16yun.cn:3100", "username": "16YUN", "password": "16IP-ps2", "url": "http://example.com/2.html"},
    {"proxy_ip": "www.16yun.cn:3100", "username": "16YUN", "password": "16IP-ps3", "url": "http://example.com/3.html"}
]
fordataindata_list:
q.put(data)
# 等待队列中的所有任务完成,并阻塞主线程直到所有子线程结束q.join()

上面代码使用Queue实现了一个多线程的爬虫程序,通过3个线程采集不同的url,然后等待队列中的所有任务完成,并阻塞主线程直到所有子线程结束。

importqueueimportthreadingimportrequests# 定义一个SimpleQueue对象,用于在多线程中传递数据q=queue.SimpleQueue()
# 定义一个函数,用于在子线程中发送请求,并使用代理IPdefsend_request():
# 从队列中获取数据,如果队列为空,则阻塞等待data=q.get()
# 获取代理IP地址和目标URLproxy_ip=data["proxy_ip"]
url=data["url"]
# 获取用户名和密码username=data["username"]
password=data["password"]
# 设置代理参数,并添加认证信息proxies= {
"http": f"http://{proxy_ip}",
"https": f"http://{proxy_ip}"    }
auth=requests.auth.HTTPProxyAuth(username, password)
# 发送请求,并打印响应状态码和内容try:
response=requests.get(url, proxies=proxies, auth=auth)
print(f"Response status: {response.status_code}")
print(f"Response content: {response.text}")
exceptExceptionase:
print(f"Error: {e}")
# 在主线程中创建三个子线程对象,并传入send_request函数作为参数,并设置为守护线程(daemon)threads= []
foriinrange(3):
thread=threading.Thread(target=send_request, daemon=True)
threads.append(thread)
# 启动三个子线程,并将它们加入到主线程的等待列表中forthreadinthreads:
thread.start()
# 在主线程中向队列中放入数据,这里假设有三组代理IP和URL的组合,以及对应的用户名和密码data_list= [
    {"proxy_ip": "www.16yun.cn:3100", "url": "http://example.com/1.html", "username": "16YUN", "password": "16IP-ps1"},
    {"proxy_ip": "www.16yun.cn:3100", "url": "http://example.com/2.html", "username": "16YUN", "password": "16IP-ps2"},
    {"proxy_ip": "www.16yun.cn:3100", "url": "http://example.com/3.html", "username": "16YUN", "password": "16IP-ps3"}
]
fordataindata_list:
q.put(data)
# 等待所有子线程结束(由于是守护线程,所以当主线程结束时会自动结束)

上面代码使用SimpleQueue对象,实现了一个生产者-消费者模式的多线程爬虫程序程序。它的功能是在多个子线程中使用代理IP向目标URL发送HTTP请求,并打印响应状态码和内容,等待所有子线程结束。由于子线程设置为守护线程,所以当主线程结束时,子线程也会自动结束。

通过上述示例,可以分别根据目前的应用场景和需求选择适合的方式。

相关文章
|
4月前
|
数据采集 Web App开发 数据安全/隐私保护
实战:Python爬虫如何模拟登录与维持会话状态
实战:Python爬虫如何模拟登录与维持会话状态
|
4月前
|
Python
Python编程:运算符详解
本文全面详解Python各类运算符,涵盖算术、比较、逻辑、赋值、位、身份、成员运算符及优先级规则,结合实例代码与运行结果,助你深入掌握Python运算符的使用方法与应用场景。
347 3
|
4月前
|
数据处理 Python
Python编程:类型转换与输入输出
本教程介绍Python中输入输出与类型转换的基础知识,涵盖input()和print()的使用,int()、float()等类型转换方法,并通过综合示例演示数据处理、错误处理及格式化输出,助你掌握核心编程技能。
574 3
|
4月前
|
并行计算 安全 计算机视觉
Python多进程编程:用multiprocessing突破GIL限制
Python中GIL限制多线程性能,尤其在CPU密集型任务中。`multiprocessing`模块通过创建独立进程,绕过GIL,实现真正的并行计算。它支持进程池、队列、管道、共享内存和同步机制,适用于科学计算、图像处理等场景。相比多线程,多进程更适合利用多核优势,虽有较高内存开销,但能显著提升性能。合理使用进程池与通信机制,可最大化效率。
374 3
|
4月前
|
Java 调度 数据库
Python threading模块:多线程编程的实战指南
本文深入讲解Python多线程编程,涵盖threading模块的核心用法:线程创建、生命周期、同步机制(锁、信号量、条件变量)、线程通信(队列)、守护线程与线程池应用。结合实战案例,如多线程下载器,帮助开发者提升程序并发性能,适用于I/O密集型任务处理。
444 0
|
10月前
|
数据采集 测试技术 C++
无headers爬虫 vs 带headers爬虫:Python性能对比
无headers爬虫 vs 带headers爬虫:Python性能对比
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
609 6
|
10月前
|
数据采集 存储 监控
Python 原生爬虫教程:网络爬虫的基本概念和认知
网络爬虫是一种自动抓取互联网信息的程序,广泛应用于搜索引擎、数据采集、新闻聚合和价格监控等领域。其工作流程包括 URL 调度、HTTP 请求、页面下载、解析、数据存储及新 URL 发现。Python 因其丰富的库(如 requests、BeautifulSoup、Scrapy)和简洁语法成为爬虫开发的首选语言。然而,在使用爬虫时需注意法律与道德问题,例如遵守 robots.txt 规则、控制请求频率以及合法使用数据,以确保爬虫技术健康有序发展。
1398 31
|
9月前
|
数据采集 存储 NoSQL
分布式爬虫去重:Python + Redis实现高效URL去重
分布式爬虫去重:Python + Redis实现高效URL去重
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
941 4

推荐镜像

更多