Python HTTP请求库对比,以实战请求豆瓣排行榜为例

简介: 对比了Python的几个HTTP请求库,包括`requests`、`http.client`、`aiohttp`、`urllib`、`httpx`、`treq`和`requests-toolbelt`,各有特点和优缺点。选择时应考虑项目需求(如异步支持)、易用性、社区支持、性能和兼容性。示例展示了如何使用`requests`和`aiohttp`库发送豆瓣电影排行榜的GET请求。

Python HTTP请求库对比

库名称 特点 优点 缺点
requests 简单易用的HTTP库,基于urllib3 - 语法简洁
- 社区支持强大
- 易于上手和维护
- 阻塞式调用,不支持异步操作
- 相比aiohttp体积较大
http.client Python标准库中的低级HTTP库。 - 无需安装第三方库
- 提供底层访问,可自定义程度高
- API使用相对复杂
- 缺少高级HTTP功能
aiohttp 异步的HTTP网络通信库,支持HTTP/1.1和HTTP/2。 - 支持异步操作,适合高并发
- 支持WebSockets
- 异步编程模型学习曲线陡峭
- 较新,社区支持不如requests
urllib Python标准库,提供URL处理。 - 无需安装第三方库
- 功能全面,包括请求和错误处理
- 易用性不如requests
- 不支持异步操作
httpx 支持HTTP/1.1和HTTP/2的异步HTTP库。 - 支持同步和异步请求
- 支持HTTP/2
- 可扩展性好
- 相对于requests,知名度和社区支持较小
treq 基于Twisted的异步HTTP客户端,使用requests的API风格。 - 异步操作
- 与requests类似的API
- 适用于Twisted用户
- 依赖于Twisted框架
- 社区支持有限
requests-toolbelt requests的官方扩展,提供额外功能。 - 增加requests没有的功能
- 流式上传下载支持
- 作为扩展,需要与requests结合使用
- 功能较为特定

在选择库时,应该考虑以下因素:

  • 项目需求:是否需要异步支持,是否处理大量并发请求。
  • 易用性:API的简洁性和学习曲线。
  • 社区和文档:活跃的社区和详尽的文档可以加快开发速度。
  • 性能:不同库在不同场景下的性能表现。
  • 兼容性:是否支持需要的HTTP特性,如HTTP/2或WebSockets。

实战请求豆瓣排行榜

curl ^"https://movie.douban.com/j/chart/top_list_count?type=11&interval_id=100^%^3A90&action=^"  ^
  -H "Accept: */*" ^
  -H "Accept-Language: zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7" ^
  -H "Connection: keep-alive" ^
  -H ^"Cookie: ll=^\^"118282^\^"; bid=p6VTwxlhQxU; _pk_id.100001.4cf6=1960560bd6f348cf.1717555113.; __utmc=30149280; __utmc=223695111; __yadk_uid=vu9yRywnfgofYdkNxlDGN1LGZumZZlP3; _vwo_uuid_v2=DB54A160968C09D586B65593E774AC10A^|93b3f99adf2e8bfe6ce4a84c068e3f82; _pk_ref.100001.4cf6=^%^5B^%^22^%^22^%^2C^%^22^%^22^%^2C1717727676^%^2C^%^22https^%^3A^%^2F^%^2Fwww.heywhale.com^%^2F^%^22^%^5D; push_noty_num=0; push_doumail_num=0; __utmv=30149280.19806; __utma=30149280.912128761.1717555113.1717725025.1717728345.3; __utmz=30149280.1717728345.3.2.utmcsr=google^|utmccn=(organic)^|utmcmd=organic^|utmctr=(not^%^20provided); __utma=223695111.1475293929.1717555113.1717727676.1717728345.4; __utmz=223695111.1717728345.4.2.utmcsr=google^|utmccn=(organic)^|utmcmd=organic^|utmctr=(not^%^20provided)^" ^
  -H ^"Referer: https://movie.douban.com/typerank?type_name=^%^E5^%^89^%^A7^%^E6^%^83^%^85&type=11&interval_id=100:90&action=^"  ^
  -H "Sec-Fetch-Dest: empty" ^
  -H "Sec-Fetch-Mode: cors" ^
  -H "Sec-Fetch-Site: same-origin" ^
  -H "User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36" ^
  -H "X-Requested-With: XMLHttpRequest" ^
  -H ^"sec-ch-ua: ^\^"Google Chrome^\^";v=^\^"125^\^", ^\^"Chromium^\^";v=^\^"125^\^", ^\^"Not.A/Brand^\^";v=^\^"24^\^"^" ^
  -H "sec-ch-ua-mobile: ?0" ^
  -H ^"sec-ch-ua-platform: ^\^"Windows^\^"^"

这个curl命令包含了一个HTTP GET请求,它发送到豆瓣电影的某个API端点,请求某种类型的电影排行数据。请求中包含了多个HTTP头,例如AcceptAccept-LanguageConnectionCookieRefererSec-Fetch-*User-AgentX-Requested-Withsec-ch-ua等。这些头信息通常用于控制请求的行为,或者提供客户端环境的额外信息。

以下是使用几种不同的Python HTTP请求库来模拟这个curl请求的示例:

1. 使用 requests

import requests

url = "https://movie.douban.com/j/chart/top_list_count?type=11&interval_id=100:90&action="
headers = {
   
    "Accept": "*/*",
    "Accept-Language": "zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7",
    "Connection": "keep-alive",
    # Cookie 头过长,需要按实际值填充
    # ...
    "Referer": "https://movie.douban.com/typerank?type_name=剧情&type=11&interval_id=100:90&action=",
    # 其他 headers 按需填充
    # ...
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36"
}

response = requests.get(url, headers=headers)
print(response.text)

2. 使用 aiohttp 库(异步)

import aiohttp
import asyncio

async def fetch(url, headers):
    async with aiohttp.ClientSession() as session:
        async with session.get(url, headers=headers) as response:
            return await response.text()

url = "https://movie.douban.com/j/chart/top_list_count?type=11&interval_id=100:90&action="
headers = {
   ...}  # 同上

loop = asyncio.get_event_loop()
html = loop.run_until_complete(fetch(url, headers))
print(html)

3. 使用 http.client(Python 标准库)

import http.client
import urllib.parse

conn = http.client.HTTPSConnection("movie.douban.com")

# 将参数编码为URL
params = urllib.parse.urlencode({
   
    'type': '11',
    'interval_id': '100:90',
    'action': ''
})
url = f"/j/chart/top_list_count?{params}"

headers = {
   
    # 同上
}

conn.request("GET", url, headers=headers)

response = conn.getresponse()
data = response.read()

print(data.decode('utf-8'))

conn.close()

注意事项

  • 由于Cookie和其他一些headers可能非常长,这里没有完全展示它们的值。在实际使用中,你需要将它们完整地填入headers字典中。
  • requests示例中,我们使用同步方式发送请求并打印响应内容。
  • aiohttp示例中,我们使用异步方式发送请求。aiohttp是处理并发请求的好选择,特别是在需要处理大量网络I/O操作时。
  • http.client示例中,我们使用了Python标准库中的低级HTTP客户端。这种方式比较繁琐,但它不依赖于任何外部库。

根据你的需求和偏好,选择最适合你的库来执行HTTP请求。如果你需要处理大量并发请求,可能会倾向于使用aiohttp。如果你需要简单快速地发起请求,并且不想引入额外的依赖,可能会选择requests。如果你正在编写一个需要精细控制网络层面的底层应用,可能会选择http.client

目录
相关文章
|
3天前
|
监控 前端开发 API
实战指南:使用Python Flask与WebSocket实现高效的前后端分离实时系统
【7月更文挑战第18天】构建实时Web应用,如聊天室,可借助Python的Flask和WebSocket。安装Flask及Flask-SocketIO库,创建Flask应用,处理WebSocket事件。前端模板通过Socket.IO库连接服务器,发送和接收消息。运行应用,实现实时通信。此示例展现了Flask结合WebSocket实现前后端实时交互的能力。
|
1天前
|
机器学习/深度学习 编解码 算法
常用的Python库介绍
Python作为一种功能强大的编程语言,拥有众多的第三方库和框架,这些库和框架覆盖了从数据处理、网络编程、Web开发到人工智能等多个领域。
28 15
|
2天前
|
分布式计算 大数据 Java
如何使用Python的pyodps库来进行跨项目空间重命名表名?
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
28 12
|
1天前
|
存储 监控 数据可视化
【Bokeh 库】Python 中的动态数据可视化
【7月更文挑战第15天】Python的Bokeh库是用于动态数据可视化的利器,它能创建交互式、现代Web浏览器兼容的图表。安装Bokeh只需`pip install bokeh`。基础概念包括Plot、Glyph、数据源和工具。通过示例展示了如何用Bokeh创建动态折线图,包括添加HoverTool。Bokeh还支持散点图、柱状图,可自定义样式和布局,添加更多交互工具,并能构建交互式应用和实时数据流更新。适用于数据探索和实时监控。
18 5
|
4天前
|
算法 数据挖掘 计算机视觉
Python并查集实战宝典:从入门到精通,让你的数据结构技能无懈可击!
【7月更文挑战第17天】并查集,如同瑞士军刀,是解决元素分组问题的利器,应用于好友关系、像素聚类、碰撞检测和连通性分析等场景。本文从基础到实战,介绍并查集的初始化、查找与路径压缩、按秩合并,以及在Kruskal算法中的应用。通过并查集,实现高效动态集合操作,对比哈希表和平衡树,其在合并与查找上的性能尤为突出。学习并查集,提升算法解决复杂问题的能力。
|
2天前
|
大数据 UED 开发者
实战演练:利用Python的Trie树优化搜索算法,性能飙升不是梦!
【7月更文挑战第19天】Trie树,又称前缀树,是优化字符串搜索的高效数据结构。通过利用公共前缀,Trie树能快速插入、删除和查找字符串。
16 2
|
4天前
|
数据采集 搜索推荐 机器人
Python 神器:wxauto 库
Python 神器:wxauto 库
38 1
|
1天前
|
缓存 中间件 网络架构
Python Web开发实战:高效利用路由与中间件提升应用性能
【7月更文挑战第20天】在Python Web开发中,路由与中间件是构建高效应用的核心。路由通过装饰器如`@app.route()`在Flask中映射请求至处理函数;中间件(如`@app.before_request`, `@app.after_request`)则在请求流程中插入自定义逻辑。优化路由包括减少冲突、利用动态参数及蓝图;中间件可用于缓存响应、请求验证和异常处理,显著提升性能和可维护性。良好设计是关键,示例代码展示了如何在Flask中实现这些策略。
8 0
|
Web App开发 存储 前端开发
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"> <html><head><meta http-equiv="Cont
      前段时间公司hadoop集群宕机,发现是namenode磁盘满了, 清理出部分空间后,重启集群时,重启失败。 又发现集群Secondary namenode 服务也恰恰坏掉,导致所有的操作log持续写入edits.new 文件,等集群宕机的时候文件大小已经达到了丧心病狂的70G+..重启集群报错 加载edits文件失败。
879 0