比 requests 更强大 Python 库,让你的爬虫效率提高一倍!

简介: 比 requests 更强大 Python 库,让你的爬虫效率提高一倍!

什么是协程?

简单来说,协程是一种基于线程之上,但又比线程更加轻量级的存在。对于系统内核来说,协程具有不可见的特性,所以这种由 程序员自己写程序来管理 的轻量级线程又常被称作 "用户空间线程"。

协程比多线程好在哪呢?

1. 线程的控制权在操作系统手中,而 协程的控制权完全掌握在用户自己手中,因此利用协程可以减少程序运行时的上下文切换,有效提高程序运行效率。2. 建立线程时,系统默认分配给线程的 栈 大小是 1 M,而协程更轻量,接近 1 K 。因此可以在相同的内存中开启更多的协程。3. 由于协程的本质不是多线程而是单线程,所以不需要多线程的锁机制。因为只有一个线程,也不存在同时写变量而引起的冲突。在协程中控制共享资源不需要加锁,只需要判断状态即可。所以协程的执行效率比多线程高很多,同时也有效避免了多线程中的竞争关系。

协程的适用 & 不适用场景

适用场景:协程适用于被阻塞的,且需要大量并发的场景。不适用场景:协程不适用于存在大量计算的场景(因为协程的本质是单线程来回切换),如果遇到这种情况,还是应该使用其他手段去解决。

初探异步 http 框架 httpx

至此我们对 "协程" 应该有了个大概的了解,但故事说到这里,相信有朋友还是满脸疑问:"协程" 对于接口测试有什么帮助呢?不要着急,答案就在下面。相信用过 Python 做接口测试的朋友都对 requests 库不陌生。requests 中实现的 http 请求是同步请求,但其实基于 http 请求 IO 阻塞的特性,非常适合用协程来实现 "异步" http 请求从而提升测试效率。 相信早就有人注意到了这点,于是在 Github 经过了一番探索后,果不其然,最终寻找到了支持协程 "异步" 调用 http 的开源库: httpx

什么是 httpx

httpx 是一个几乎继承了所有 requests 的特性并且支持 "异步" http 请求的开源库。简单来说,可以认为 httpx 是强化版 requests。下面大家可以跟着我一起见识一下 httpx 的强大

安装

httpx 的安装非常简单,在 Python 3.6 以上的环境执行

pip install httpx

最佳实践

俗话说得好,效率决定成败。我分别使用了 httpx 异步 和 同步 的方式对批量 http 请求进行了耗时比较,来一起看看结果吧~首先来看看同步 http 请求的耗时表现:


import asyncioimport httpximport threadingimport time
def sync_main(url, sign):    response = httpx.get(url).status_code    print(f'sync_main: {threading.current_thread()}: {sign}2 + 1{response}')
sync_start = time.time()[sync_main(url='http://www.baidu.com', sign=i) for i in range(200)]sync_end = time.time()print(sync_end - sync_start)

代码比较简单,可以看到在 sync_main 中则实现了同步 http 访问百度 200 次。运行后输出如下(截取了部分关键输出...):

sync_main: <_MainThread(MainThread, started 4471512512)>: 192: 200sync_main: <_MainThread(MainThread, started 4471512512)>: 193: 200sync_main: <_MainThread(MainThread, started 4471512512)>: 194: 200sync_main: <_MainThread(MainThread, started 4471512512)>: 195: 200sync_main: <_MainThread(MainThread, started 4471512512)>: 196: 200sync_main: <_MainThread(MainThread, started 4471512512)>: 197: 200sync_main: <_MainThread(MainThread, started 4471512512)>: 198: 200sync_main: <_MainThread(MainThread, started 4471512512)>: 199: 20016.56578803062439

可以看到在上面的输出中, 主线程没有进行切换(因为本来就是单线程啊喂!)请求按照顺序执行(因为是同步请求)。程序运行共耗时 16.6 秒下面我们试试 "异步" http 请求:

import asyncioimport httpximport threadingimport time
client = httpx.AsyncClient()
async def async_main(url, sign):    response = await client.get(url)    status_code = response.status_code    print(f'async_main: {threading.current_thread()}: {sign}:{status_code}')
loop = asyncio.get_event_loop()tasks = [async_main(url='http://www.baidu.com', sign=i) for i in range(200)]async_start = time.time()loop.run_until_complete(asyncio.wait(tasks))async_end = time.time()loop.close()print(async_end - async_start)

上述代码在 async_main 中用 async await 关键字实现了"异步" http,通过 asyncio ( 异步 io 库请求百度首页 200 次并打印出了耗时。运行代码后可以看到如下输出(截取了部分关键输出...)

async_main: <_MainThread(MainThread, started 4471512512)>: 56: 200async_main: <_MainThread(MainThread, started 4471512512)>: 99: 200async_main: <_MainThread(MainThread, started 4471512512)>: 67: 200async_main: <_MainThread(MainThread, started 4471512512)>: 93: 200async_main: <_MainThread(MainThread, started 4471512512)>: 125: 200async_main: <_MainThread(MainThread, started 4471512512)>: 193: 200async_main: <_MainThread(MainThread, started 4471512512)>: 100: 2004.518340110778809

可以看到顺序虽然是乱的(56,99,67...) (这是因为程序在协程间不停切换) 但是主线程并没有切换 (协程本质还是单线程 )。程序共耗时 4.5 秒比起同步请求耗时的 16.6 秒 缩短了接近 73 %!俗话说得好,一步快,步步快。 在耗时方面,"异步" http 确实比同步 http 快了很多。当然,"协程" 不仅仅能在请求效率方面赋能接口测试, 掌握 "协程"后,相信小伙伴们的技术水平也能提升一个台阶,从而设计出更优秀的测试框架。

目录
相关文章
|
10天前
|
数据采集 Web App开发 自然语言处理
新闻热点一目了然:Python爬虫数据可视化
新闻热点一目了然:Python爬虫数据可视化
|
29天前
|
存储 人工智能 测试技术
如何使用LangChain的Python库结合DeepSeek进行多轮次对话?
本文介绍如何使用LangChain结合DeepSeek实现多轮对话,测开人员可借此自动生成测试用例,提升自动化测试效率。
246 125
如何使用LangChain的Python库结合DeepSeek进行多轮次对话?
|
21天前
|
监控 数据可视化 数据挖掘
Python Rich库使用指南:打造更美观的命令行应用
Rich库是Python的终端美化利器,支持彩色文本、智能表格、动态进度条和语法高亮,大幅提升命令行应用的可视化效果与用户体验。
76 0
|
22天前
|
数据采集 Web App开发 前端开发
处理动态Token:Python爬虫应对AJAX授权请求的策略
处理动态Token:Python爬虫应对AJAX授权请求的策略
|
22天前
|
数据采集 网络协议 API
协程+连接池:高并发Python爬虫的底层优化逻辑
协程+连接池:高并发Python爬虫的底层优化逻辑
|
1月前
|
数据采集 存储 Web App开发
处理Cookie和Session:让Python爬虫保持连贯的"身份"
处理Cookie和Session:让Python爬虫保持连贯的"身份"
|
1月前
|
数据采集 监控 Shell
无需Python:Shell脚本如何成为你的自动化爬虫引擎?
Shell脚本利用curl/wget发起请求,结合文本处理工具构建轻量级爬虫,支持并行加速、定时任务、增量抓取及分布式部署。通过随机UA、异常重试等优化提升稳定性,适用于日志监控、价格追踪等场景。相比Python,具备启动快、资源占用低的优势,适合嵌入式或老旧服务器环境,复杂任务可结合Python实现混合编程。
|
1月前
|
数据采集 存储 XML
Python爬虫入门(1)
在互联网时代,数据成为宝贵资源,Python凭借简洁语法和丰富库支持,成为编写网络爬虫的首选。本文介绍Python爬虫基础,涵盖请求发送、内容解析、数据存储等核心环节,并提供环境配置及实战示例,助你快速入门并掌握数据抓取技巧。
|
2月前
|
数据采集 存储 数据可视化
Python网络爬虫在环境保护中的应用:污染源监测数据抓取与分析
在环保领域,数据是决策基础,但分散在多个平台,获取困难。Python网络爬虫技术灵活高效,可自动化抓取空气质量、水质、污染源等数据,实现多平台整合、实时更新、结构化存储与异常预警。本文详解爬虫实战应用,涵盖技术选型、代码实现、反爬策略与数据分析,助力环保数据高效利用。
127 0
|
JSON 测试技术 数据格式
python接口自动化测试 - requests库的post请求进行文件上传
python接口自动化测试 - requests库的post请求进行文件上传
945 0
python接口自动化测试 - requests库的post请求进行文件上传

推荐镜像

更多