Python爬取知乎评论:多线程与异步爬虫的性能优化

简介: Python爬取知乎评论:多线程与异步爬虫的性能优化
  1. 知乎评论爬取的技术挑战
    知乎的评论数据通常采用动态加载(Ajax),这意味着直接使用requests+BeautifulSoup无法获取完整数据。此外,知乎还设置了反爬机制,包括:
    ● 请求头(Headers)验证(如User-Agent、Referer)
    ● Cookie/Session 校验(未登录用户只能获取部分数据)
    ● 频率限制(频繁请求可能导致IP被封)
    因此,我们需要:
  2. 模拟浏览器请求(携带Headers和Cookies)
  3. 解析动态API接口(而非静态HTML)
  4. 优化爬取速度(多线程/异步)
  5. 获取知乎评论API分析
    (1)查找评论API
    打开知乎任意一个问题(如 https://www.zhihu.com/question/xxxxxx),按F12进入开发者工具,切换到Network选项卡,筛选XHR请求
    (2)解析评论数据结构
    评论通常嵌套在data字段中,结构如下:
    "data": [
     {
       "content": "评论内容",
       "author": { "name": "用户名" },
       "created_time": 1620000000
     }
    ],
    "paging": { "is_end": false, "next": "下一页URL" }
    }
    
    我们需要递归翻页(paging.next)爬取所有评论。
  6. Python爬取知乎评论的三种方式
    (1)单线程爬虫(基准测试)
    使用requests库直接请求API,逐页爬取:
    ```import requests
    import time

def fetch_comments(question_id, max_pages=5):
base_url = f"https://www.zhihu.com/api/v4/questions/{question_id}/answers"
headers = {
"User-Agent": "Mozilla/5.0",
"Cookie": "你的Cookie" # 登录后获取
}
comments = []
for page in range(max_pages):
url = f"{base_url}?offset={page * 10}&limit=10"
resp = requests.get(url, headers=headers).json()
for answer in resp["data"]:
comments.append(answer["content"])
time.sleep(1) # 避免请求过快
return comments

start_time = time.time()
comments = fetch_comments("12345678") # 替换为知乎问题ID
print(f"单线程爬取完成,耗时:{time.time() - start_time:.2f}秒")

缺点:逐页请求,速度慢(假设每页1秒,10页需10秒)。
(2)多线程爬虫(ThreadPoolExecutor)
使用concurrent.futures实现多线程并发请求:
```from concurrent.futures import ThreadPoolExecutor

def fetch_page(page, question_id):
    url = f"https://www.zhihu.com/api/v4/questions/{question_id}/answers?offset={page * 10}&limit=10"
    headers = {"User-Agent": "Mozilla/5.0"}
    resp = requests.get(url, headers=headers).json()
    return [answer["content"] for answer in resp["data"]]

def fetch_comments_multi(question_id, max_pages=5, threads=4):
    with ThreadPoolExecutor(max_workers=threads) as executor:
        futures = [executor.submit(fetch_page, page, question_id) for page in range(max_pages)]
        comments = []
        for future in futures:
            comments.extend(future.result())
    return comments

start_time = time.time()
comments = fetch_comments_multi("12345678", threads=4)
print(f"多线程爬取完成,耗时:{time.time() - start_time:.2f}秒")

优化点:
● 线程池控制并发数(避免被封)
● 比单线程快约3-4倍(4线程爬10页仅需2-3秒)
(3)异步爬虫(Asyncio + aiohttp)
使用aiohttp实现异步HTTP请求,进一步提高效率:
```import aiohttp
import asyncio
import time

代理配置

proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"

async def fetch_page_async(session, page, question_id):
url = f"https://www.zhihu.com/api/v4/questions/{question_id}/answers?offset={page * 10}&limit=10"
headers = {"User-Agent": "Mozilla/5.0"}
async with session.get(url, headers=headers) as resp:
data = await resp.json()
return [answer["content"] for answer in data["data"]]

async def fetch_comments_async(question_id, max_pages=5):

# 设置代理连接器
proxy_auth = aiohttp.BasicAuth(proxyUser, proxyPass)
connector = aiohttp.TCPConnector(
    limit=20,  # 并发连接数限制
    force_close=True,
    enable_cleanup_closed=True,
    proxy=f"http://{proxyHost}:{proxyPort}",
    proxy_auth=proxy_auth
)

async with aiohttp.ClientSession(connector=connector) as session:
    tasks = [fetch_page_async(session, page, question_id) for page in range(max_pages)]
    comments = await asyncio.gather(*tasks)
return [item for sublist in comments for item in sublist]

if name == "main":
start_time = time.time()
comments = asyncio.run(fetch_comments_async("12345678")) # 替换为知乎问题ID
print(f"异步爬取完成,耗时:{time.time() - start_time:.2f}秒")
print(f"共获取 {len(comments)} 条评论")
```
优势:
● 无GIL限制,比多线程更高效
● 适合高并发IO密集型任务(如爬虫)

  1. 性能对比与优化建议
    爬取方式 10页耗时(秒) 适用场景
    单线程 ~10 少量数据,简单爬取
    多线程(4线程) ~2.5 中等规模,需控制并发
    异步(Asyncio) ~1.8 大规模爬取,高并发需求
    优化建议
  2. 控制并发数:避免触发反爬(建议10-20并发)。
  3. 随机延迟:time.sleep(random.uniform(0.5, 2)) 模拟人类操作。
  4. 代理IP池:防止IP被封(如使用requests+ProxyPool)。
  5. 数据存储优化:异步写入数据库(如MongoDB或MySQL)。
相关文章
|
4月前
|
数据采集 Web App开发 数据安全/隐私保护
实战:Python爬虫如何模拟登录与维持会话状态
实战:Python爬虫如何模拟登录与维持会话状态
|
4月前
|
数据采集 监控 数据库
Python异步编程实战:爬虫案例
🌟 蒋星熠Jaxonic,代码为舟的星际旅人。从回调地狱到async/await协程天堂,亲历Python异步编程演进。分享高性能爬虫、数据库异步操作、限流监控等实战经验,助你驾驭并发,在二进制星河中谱写极客诗篇。
Python异步编程实战:爬虫案例
|
4月前
|
数据采集 人工智能 JSON
Prompt 工程实战:如何让 AI 生成高质量的 aiohttp 异步爬虫代码
Prompt 工程实战:如何让 AI 生成高质量的 aiohttp 异步爬虫代码
|
4月前
|
数据采集 存储 JSON
Python爬虫常见陷阱:Ajax动态生成内容的URL去重与数据拼接
Python爬虫常见陷阱:Ajax动态生成内容的URL去重与数据拼接
|
4月前
|
Java 调度 数据库
Python threading模块:多线程编程的实战指南
本文深入讲解Python多线程编程,涵盖threading模块的核心用法:线程创建、生命周期、同步机制(锁、信号量、条件变量)、线程通信(队列)、守护线程与线程池应用。结合实战案例,如多线程下载器,帮助开发者提升程序并发性能,适用于I/O密集型任务处理。
437 0
|
4月前
|
数据采集 存储 JavaScript
解析Python爬虫中的Cookies和Session管理
Cookies与Session是Python爬虫中实现状态保持的核心。Cookies由服务器发送、客户端存储,用于标识用户;Session则通过唯一ID在服务端记录会话信息。二者协同实现登录模拟与数据持久化。
|
安全 Java 数据处理
Python网络编程基础(Socket编程)多线程/多进程服务器编程
【4月更文挑战第11天】在网络编程中,随着客户端数量的增加,服务器的处理能力成为了一个重要的考量因素。为了处理多个客户端的并发请求,我们通常需要采用多线程或多进程的方式。在本章中,我们将探讨多线程/多进程服务器编程的概念,并通过一个多线程服务器的示例来演示其实现。
|
数据采集 数据库 C++
python并发编程:并发编程中是选择多线程呢?还是多进程呢?还是多协程呢?
python并发编程:并发编程中是选择多线程呢?还是多进程呢?还是多协程呢?
479 0
聊聊python多线程与多进程
为什么要使用多进程与多线程呢? 因为我们如果按照流程一步步执行任务实在是太慢了,假如一个任务就是10秒,两个任务就是20秒,那100个任务呢?况且cpu这么贵,时间长了就是浪费生命啊!一个任务比喻成一个人,别个做高铁,你做绿皮火车,可想而知!接下来我们先看个例子:
|
12月前
|
数据采集 Java 数据处理
Python实用技巧:轻松驾驭多线程与多进程,加速任务执行
在Python编程中,多线程和多进程是提升程序效率的关键工具。多线程适用于I/O密集型任务,如文件读写、网络请求;多进程则适合CPU密集型任务,如科学计算、图像处理。本文详细介绍这两种并发编程方式的基本用法及应用场景,并通过实例代码展示如何使用threading、multiprocessing模块及线程池、进程池来优化程序性能。结合实际案例,帮助读者掌握并发编程技巧,提高程序执行速度和资源利用率。
621 0

推荐镜像

更多