Python多进程:如何在不依赖Queue的情况下传递结果

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 本文探讨了在Python中使用多进程技术采集抖音短视频数据时,如何在不依赖队列(Queue)的情况下传递结果。文章首先介绍了多进程提高数据采集效率的背景,然后指出了队列在处理大量数据时可能成为性能瓶颈,并增加了系统复杂性。作为解决方案,提出了使用管道、共享内存和临时文件等替代方法。文章通过一个实战案例,详细演示了如何配置爬虫代理、设置请求头、实现定时器装饰器、抓取视频数据以及通过管道在子进程间传递结果。最后,文章总结了使用这些替代方案可以有效提高数据采集的效率和可靠性。

爬虫代理.jpg

随着数据的爆炸式增长,网络爬虫成为获取信息的强大工具。在爬取大量数据时,多进程技术可以显著提高效率。然而,如何在多进程中传递结果,而不依赖Queue,成为了一个值得探讨的问题。本文将以采集抖音短视频为案例,详尽讲解如何在Python中实现这一目标。

文章目录

  1. 简介
  2. 多进程与Queue的局限性
  3. 替代方案:使用管道、共享内存和临时文件
  4. 实战案例:采集抖音短视频
  5. 结论

1. 简介

在爬虫技术中,多进程可以显著提高数据采集效率。然而,传统的Queue在某些场景下存在局限性。本文将探讨如何在不依赖Queue的情况下,实现多进程间的数据传递。

2. 多进程与Queue的局限性

Queue是Python多进程模块提供的一种进程间通信机制,但它有以下局限性:

  • 性能瓶颈:在大量数据传递时,Queue可能成为性能瓶颈。
  • 复杂性:在复杂的多进程架构中,Queue的管理和维护较为复杂。

3. 替代方案

为了解决这些问题,我们可以使用以下替代方案:

  • 管道(Pipe):用于进程间的双向通信。
  • 共享内存(Shared Memory):通过共享变量实现数据传递。
  • 临时文件:将数据写入临时文件,由主进程读取。

4. 实战案例:采集抖音短视频

环境配置

在开始之前,我们需要配置爬虫代理IP和设置useragent及cookie,以提高爬虫的成功率。本文使用的爬虫代理服务为亿牛云。

代码实现

import multiprocessing
import requests
import json
import time
from multiprocessing import Pipe, Process
from bs4 import BeautifulSoup

# 代理配置 亿牛云爬虫代理加强版
proxy_host = "代理域名"
proxy_port = "代理端口"
proxy_user = "代理用户名"
proxy_pass = "代理密码"
proxy = {
   
   
    "http": f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}",
    "https": f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}"
}

# User-Agent 和 Cookie
headers = {
   
   
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
    "Cookie": "your_cookie_here"
}

def timer(func):
    def wrapper(*args, **kwargs):
        start_time = time.time()
        result = func(*args, **kwargs)
        end_time = time.time()
        elapsed_time = end_time - start_time
        return result, elapsed_time
    return wrapper

@timer
def fetch_video_data(video_url):
    response = requests.get(video_url, headers=headers, proxies=proxy)
    soup = BeautifulSoup(response.content, 'html.parser')
    video_data = soup.find('script', {
   
   'type': 'application/json'}).string
    return json.loads(video_data)

def worker(video_url, conn):
    result, elapsed_time = fetch_video_data(video_url)
    conn.send((result, elapsed_time))
    conn.close()

def main():
    video_urls = ["https://www.douyin.com/video/1", "https://www.douyin.com/video/2"]
    processes = []
    parent_connections = []

    for url in video_urls:
        parent_conn, child_conn = Pipe()
        p = Process(target=worker, args=(url, child_conn))
        processes.append(p)
        parent_connections.append(parent_conn)
        p.start()

    for p in processes:
        p.join()

    for parent_conn in parent_connections:
        result, elapsed_time = parent_conn.recv()
        print(f"Video Data: {result}")
        print(f"Elapsed Time: {elapsed_time}")

if __name__ == '__main__':
    main()

代码详解

  1. 代理配置:设置爬虫代理IP,保证爬虫能够顺利访问目标网站。
  2. 请求头设置:通过设置User-Agent和Cookie,提高请求的成功率。
  3. 定时器装饰器:测量函数执行时间。
  4. 数据抓取函数:使用requests库抓取视频数据,并解析HTML内容。
  5. 子进程函数:每个子进程独立抓取视频数据,并通过管道发送结果。
  6. 主进程函数:创建多个子进程,并收集每个子进程的结果。

5. 结论

通过本文的示例,我们展示了如何在Python中使用多进程技术,并在不依赖Queue的情况下传递结果。采用管道、共享内存或临时文件等替代方案,可以有效地解决Queue的局限性。在实际应用中,根据具体需求选择合适的方案,能够显著提高数据采集的效率和可靠性。

相关文章
|
16天前
|
数据采集 存储 安全
如何确保Python Queue的线程和进程安全性:使用锁的技巧
本文探讨了在Python爬虫技术中使用锁来保障Queue(队列)的线程和进程安全性。通过分析`queue.Queue`及`multiprocessing.Queue`的基本线程与进程安全特性,文章指出在特定场景下使用锁的重要性。文中还提供了一个综合示例,该示例利用亿牛云爬虫代理服务、多线程技术和锁机制,实现了高效且安全的网页数据采集流程。示例涵盖了代理IP、User-Agent和Cookie的设置,以及如何使用BeautifulSoup解析HTML内容并将其保存为文档。通过这种方式,不仅提高了数据采集效率,还有效避免了并发环境下的数据竞争问题。
如何确保Python Queue的线程和进程安全性:使用锁的技巧
|
3天前
|
消息中间件 网络协议 Python
工具人逆袭!掌握Python IPC,让你的进程从此告别单打独斗
【9月更文挑战第9天】你是否曾遇到多个Python程序像孤岛般无法通信,导致数据孤立、任务难协同的问题?掌握进程间通信(IPC)技术,可助你打破这一僵局。IPC是不同进程间传递数据或信号的机制,在Python中常用的方法有管道、消息队列、共享内存及套接字等。其中,管道适用于父子或兄弟进程间简单数据传递;套接字则不仅限于本地,还能在网络间实现复杂的数据交换。通过学习IPC,你将能设计更健壮灵活的系统架构,成为真正的编程高手。
11 3
|
4天前
|
安全 开发者 Python
揭秘Python IPC:进程间的秘密对话,让你的系统编程更上一层楼
【9月更文挑战第8天】在系统编程中,进程间通信(IPC)是实现多进程协作的关键技术。IPC机制如管道、队列、共享内存和套接字,使进程能在独立内存空间中共享信息,提升系统并发性和灵活性。Python提供了丰富的IPC工具,如`multiprocessing.Pipe()`和`multiprocessing.Queue()`,简化了进程间通信的实现。本文将从理论到实践,详细介绍各种IPC机制的特点和应用场景,帮助开发者构建高效、可靠的多进程应用。掌握Python IPC,让系统编程更加得心应手。
12 4
|
4天前
|
消息中间件 数据库 Python
深度剖析!Python IPC的奥秘,带你走进进程间通信的微观世界
【9月更文挑战第8天】在编程世界中,进程间通信(IPC)是连接不同程序或进程的关键技术,使数据在独立进程间自由流动,构建复杂软件系统。本文将深入探讨Python中的IPC机制,包括管道、消息队列、套接字等,并通过具体示例展示如何使用Socket实现网络IPC。Python的`multiprocessing`模块还提供了队列、管道和共享内存等多种高效IPC方式。通过本文,你将全面了解Python IPC的核心概念与应用技巧,助力开发高效协同的软件系统。
14 2
|
5天前
|
消息中间件 数据采集 数据库
庆祝吧!Python IPC让进程间的合作,比团队游戏还默契
【9月更文挑战第7天】在这个数字化时代,软件系统日益复杂,单进程已难以高效处理海量数据。Python IPC(进程间通信)技术应运而生,使多进程协作如同训练有素的电竞战队般默契。通过`multiprocessing`模块中的Pipe等功能,进程间可以直接传递数据,无需依赖低效的文件共享或数据库读写。此外,Python IPC还提供了消息队列、共享内存和套接字等多种机制,适用于不同场景,使进程间的合作更加高效、精准。这一技术革新让开发者能轻松应对复杂挑战,构建更健壮的软件系统。
15 1
|
21天前
|
消息中间件 JSON 自然语言处理
Python多进程日志以及分布式日志的实现方式
python日志模块logging支持多线程,但是在多进程下写入日志文件容易出现下面的问题: PermissionError: [WinError 32] 另一个程序正在使用此文件,进程无法访问。 也就是日志文件被占用的情况,原因是多个进程的文件handler对日志文件进行操作产生的。
|
22天前
|
数据采集 并行计算 安全
Python并发编程:多进程(multiprocessing模块)
在处理CPU密集型任务时,Python的全局解释器锁(GIL)可能会成为瓶颈。为了充分利用多核CPU的性能,可以使用Python的multiprocessing模块来实现多进程编程。与多线程不同,多进程可以绕过GIL,使得每个进程在自己的独立内存空间中运行,从而实现真正的并行计算。
|
2天前
|
消息中间件 安全 数据库
动手实操!Python IPC机制,打造高效协同的进程军团
【9月更文挑战第10天】在软件开发领域,进程间的高效协作对应用性能与稳定性至关重要。Python提供了多种进程间通信(IPC)机制,如管道、消息队列、套接字、共享内存等,帮助开发者构建高效协同的系统。本文将通过动手实践,使用`multiprocessing`模块演示如何利用队列实现进程间通信。示例代码展示了如何创建一个工作进程从队列接收并处理数据,从而实现安全高效的进程交互。通过实际操作,读者可以深入了解Python IPC的强大功能,提升系统的并发处理能力。
9 0
|
1月前
|
Python
python Process 多进程编程
python Process 多进程编程
27 1
|
14天前
|
数据可视化 JavaScript 前端开发
Python中的数据可视化:从基础到进阶深入理解操作系统:进程调度与优先级
【8月更文挑战第29天】数据可视化是现代数据分析不可或缺的一环。本文将引导读者通过Python这一强大的编程语言,利用其丰富的库和工具,探索数据可视化的奥秘。我们将从最基础的图表开始,逐步深入到更复杂的可视化技术,最终实现高级定制和交互式可视化。无论你是数据科学新手还是希望提升可视化技能的开发者,这篇文章都将为你打开一扇通往数据美学的大门。