Python多线程爬虫编程中queue.Queue和queue.SimpleQueue的区别和应用

简介: 在Python中,queue模块提供了多种队列类,用于在多线程编程中安全地交换信息。其中,queue.Queue 和queue.SimpleQueue 是两个常用的先进先出(FIFO)的队列类,它们有以下区别和优缺点:queue.Queue 是一个更复杂的队列类实现涉及到多个锁和条件变量,因此可能会影响性能和内存效率。SimpleQueue 是一个更简单的队列类它只提供了put()和get()两个方法,并且不支持maxsize参数

247047476.jpg


在Python中,queue模块提供了多种队列类,用于在多线程编程中安全地交换信息。其中,queue.Queue 和queue.SimpleQueue 是两个常用的先进先出(FIFO)的队列类,它们有以下区别和优缺点:

  1. 1、queue.Queue 是一个更复杂的队列类,它提供了一些方法和功能,如限制队列大小、等待队列中的任务完成、检查队列是否为空或满等。这些功能可以方便地在多线程环境中同步生产者和消费者的行为,并且使得代码更易于设计、阅读和维护。
  • 2、queue.Queue 的缺点是它的实现涉及到多个锁和条件变量,因此可能会影响性能和内存效率。另外,它不能处理重入性的问题,即如果在同一线程中调用put()或get()方法时被打断,可能会导致死锁或数据丢失。
  • 3、queue.SimpleQueue 是一个更简单的队列类,它只提供了put()和get()两个方法,并且可以处理重入性的问题。因此,它有更好的性能和内存效率,并且可以在一些特殊情况下安全地调用put()或get()方法,如del方法、weakref回调或信号处理器。
  • 4、queue.SimpleQueue 的缺点是它只提供了put()和get()两个方法,并且不支持maxsize参数。因此,它不能限制队列大小,也不能等待队列中的任务完成。如果需要这些功能,可以使用queue.Queue 或者queue.JoinableQueue。

下面分别用Queue和queue.SimpleQueue,根据多线程网络请求的需求进行实现。

importqueueimportthreadingimportrequests# 定义一个队列对象,用于在多线程中传递数据q=queue.Queue()
# 定义一个函数,用于在子线程中发送请求,并使用代理IPdefsend_request():
# 从队列中获取数据,如果队列为空,则阻塞等待data=q.get()
# 获取代理IP地址、用户名和密码,以及目标URLproxy_ip=data["proxy_ip"]    
username=data["username"]
password=data["password"]
url=data["url"]
# 设置代理参数,包括代理IP、用户名和密码proxies= {
"http": f"http://{username}:{password}@{proxy_ip}",
"https": f"http://{username}:{password}@{proxy_ip}"    }
# 发送请求,并打印响应状态码和内容try:
response=requests.get(url, proxies=proxies)
print(f"Response status: {response.status_code}")
print(f"Response content: {response.text}")
exceptExceptionase:
print(f"Error: {e}")
# 通知队列任务已完成,并释放资源q.task_done()
# 在主线程中创建三个子线程对象,并传入send_request函数作为参数,并设置为守护线程(daemon)threads= []
foriinrange(3):
thread=threading.Thread(target=send_request, daemon=True)
threads.append(thread)
# 启动三个子线程,并将它们加入到主线程的等待列表中forthreadinthreads:
thread.start()
# 在主线程中向队列中放入数据,这里假设有三组代理IP和URL的组合data_list= [
    {"proxy_ip": "www.16yun.cn:3100", "username": "16YUN", "password": "16IP-ps1", "url": "http://example.com/1.html"},
    {"proxy_ip": "www.16yun.cn:3100", "username": "16YUN", "password": "16IP-ps2", "url": "http://example.com/2.html"},
    {"proxy_ip": "www.16yun.cn:3100", "username": "16YUN", "password": "16IP-ps3", "url": "http://example.com/3.html"}
]
fordataindata_list:
q.put(data)
# 等待队列中的所有任务完成,并阻塞主线程直到所有子线程结束q.join()

上面代码使用Queue实现了一个多线程的爬虫程序,通过3个线程采集不同的url,然后等待队列中的所有任务完成,并阻塞主线程直到所有子线程结束。

importqueueimportthreadingimportrequests# 定义一个SimpleQueue对象,用于在多线程中传递数据q=queue.SimpleQueue()
# 定义一个函数,用于在子线程中发送请求,并使用代理IPdefsend_request():
# 从队列中获取数据,如果队列为空,则阻塞等待data=q.get()
# 获取代理IP地址和目标URLproxy_ip=data["proxy_ip"]
url=data["url"]
# 获取用户名和密码username=data["username"]
password=data["password"]
# 设置代理参数,并添加认证信息proxies= {
"http": f"http://{proxy_ip}",
"https": f"http://{proxy_ip}"    }
auth=requests.auth.HTTPProxyAuth(username, password)
# 发送请求,并打印响应状态码和内容try:
response=requests.get(url, proxies=proxies, auth=auth)
print(f"Response status: {response.status_code}")
print(f"Response content: {response.text}")
exceptExceptionase:
print(f"Error: {e}")
# 在主线程中创建三个子线程对象,并传入send_request函数作为参数,并设置为守护线程(daemon)threads= []
foriinrange(3):
thread=threading.Thread(target=send_request, daemon=True)
threads.append(thread)
# 启动三个子线程,并将它们加入到主线程的等待列表中forthreadinthreads:
thread.start()
# 在主线程中向队列中放入数据,这里假设有三组代理IP和URL的组合,以及对应的用户名和密码data_list= [
    {"proxy_ip": "www.16yun.cn:3100", "url": "http://example.com/1.html", "username": "16YUN", "password": "16IP-ps1"},
    {"proxy_ip": "www.16yun.cn:3100", "url": "http://example.com/2.html", "username": "16YUN", "password": "16IP-ps2"},
    {"proxy_ip": "www.16yun.cn:3100", "url": "http://example.com/3.html", "username": "16YUN", "password": "16IP-ps3"}
]
fordataindata_list:
q.put(data)
# 等待所有子线程结束(由于是守护线程,所以当主线程结束时会自动结束)

上面代码使用SimpleQueue对象,实现了一个生产者-消费者模式的多线程爬虫程序程序。它的功能是在多个子线程中使用代理IP向目标URL发送HTTP请求,并打印响应状态码和内容,等待所有子线程结束。由于子线程设置为守护线程,所以当主线程结束时,子线程也会自动结束。

通过上述示例,可以分别根据目前的应用场景和需求选择适合的方式。

相关文章
|
1天前
|
存储 数据处理 开发者
深入浅出:Python编程基础与实战技巧
【9月更文挑战第32天】本文将引导读者从零开始,掌握Python编程语言的核心概念,并通过实际代码示例深入理解。我们将逐步探索变量、数据结构、控制流、函数、类和异常处理等基本知识,并结合实用案例,如数据处理、文件操作和网络请求,提升编程技能。无论您是初学者还是有一定经验的开发者,这篇文章都能帮助您巩固基础,拓展视野。
|
23小时前
|
数据采集 机器学习/深度学习 人工智能
Python编程之旅:从基础到精通
【9月更文挑战第32天】本文将带你进入Python的世界,从基础语法到高级特性,再到实战项目,让你全面掌握Python编程技能。无论你是初学者还是有一定基础的开发者,都能在这篇文章中找到适合自己的学习路径和方法。让我们一起踏上Python编程之旅,开启一段充满挑战和乐趣的学习历程吧!
|
4天前
|
存储 开发者 Python
探索Python编程的奥秘
【9月更文挑战第29天】本文将带你走进Python的世界,通过深入浅出的方式,解析Python编程的基本概念和核心特性。我们将一起探讨变量、数据类型、控制结构、函数等基础知识,并通过实际代码示例,让你更好地理解和掌握Python编程。无论你是编程新手,还是有一定基础的开发者,都能在这篇文章中找到新的启示和收获。让我们一起探索Python编程的奥秘,开启编程之旅吧!
|
3天前
|
NoSQL 网络协议 Unix
1)Redis 属于单线程还是多线程?不同版本之间有什么区别?
1)Redis 属于单线程还是多线程?不同版本之间有什么区别?
10 0
|
3天前
|
存储 编译器 Linux
Cython 和 Python 的区别
Cython 和 Python 的区别
9 0
|
3天前
|
数据采集 Linux 调度
Python之多线程与多进程
Python之多线程与多进程
10 0
|
4天前
|
算法 Python
Python编程的函数—内置函数
Python编程的函数—内置函数
|
4天前
|
存储 索引 Python
Python编程的常用数据结构—列表
Python编程的常用数据结构—列表
|
4天前
|
数据挖掘 Python
Python数据挖掘编程基础8
在Python中,默认环境下并不会加载所有功能,需要手动导入库以增强功能。Python内置了诸多强大库,例如`math`库可用于复杂数学运算。导入库不仅限于`import 库名`,还可以通过别名简化调用,如`import math as m`;也可指定导入库中的特定函数,如`from math import exp as e`;甚至直接导入库中所有函数`from math import *`。但需注意,后者可能引发命名冲突。读者可通过`help('modules')`查看已安装模块。
9 0
|
4天前
|
人工智能 数据挖掘 Serverless
Python数据挖掘编程基础
函数式编程中的`reduce`函数用于对可迭代对象中的元素进行累积计算,不同于逐一遍历的`map`函数。例如,在Python3中,计算n的阶乘可以使用`reduce`(需从`funtools`库导入)实现,也可用循环命令完成。另一方面,`filter`函数则像一个过滤器,用于筛选列表中符合条件的元素,同样地功能也可以通过列表解析来实现。使用这些函数不仅使代码更加简洁,而且由于其内部循环机制,执行效率通常高于普通的`for`或`while`循环。
9 0
下一篇
无影云桌面