第102天: Python异步之aiohttp

简介: 第102天: Python异步之aiohttp

什么是 aiohttp?一个异步的 HTTP 客户端\服务端框架,基于 asyncio 的异步模块。可用于实现异步爬虫,更快于 requests 的同步爬虫。


安装


pip install aiohttp


aiohttp 和 requests


requests 版爬虫


requests 同步方式连续 30 次简单爬取 http://httpbin.org 网站


import requestsfrom datetime import datetime
def fetch(url):    r = requests.get(url)    print(r.text)
start = datetime.now()
for i in range(30):    fetch('http://httpbin.org/get')
end = datetime.now()
print("requests版爬虫花费时间为:")print(end - start)


示例结果


# 打印网站返回的内容....requests版爬虫花费时间为:0:00:43.248761


从爬取结果可以看出,同步爬取 30 次网站将花费 43 秒左右的时间,耗时非常长。


aiohttp 版爬虫


使用 aiohttp 和 asyncio 异步方式简单爬取 30 次网站


import aiohttpimport asynciofrom datetime import datetime
async def fetch(client):    async with client.get('http://httpbin.org/get') as resp:        assert resp.status == 200        return await resp.text()
async def main():    async with aiohttp.ClientSession() as client:        html = await fetch(client)        print(html)
loop = asyncio.get_event_loop()
tasks = []for i in range(30):    task = loop.create_task(main())    tasks.append(task)
start = datetime.now()
loop.run_until_complete(main())
end = datetime.now()
print("aiohttp版爬虫花费时间为:")print(end - start)


示例结果


# 打印网站返回的内容....aiohttp版爬虫花费时间为:0:00:00.539416


从爬取时间可以看出,aiohttp 异步爬取网站只用了 0.5 秒左右的时间,比 requests 同步方式快了 80 倍左右,速度非常之快。


同一个 session


aiohttp.ClientSession() 中封装了一个 session 的连接池,并且在默认情况下支持 keepalives,官方建议在程序中使用单个 ClientSession 对象,而不是像上面示例中的那样每次连接都创建一个 ClientSession 对象,除非在程序中遇到大量的不同的服务。


将上面的示例修改为:


import aiohttpimport asynciofrom datetime import datetime
async def fetch(client):    print("打印 ClientSession 对象")    print(client)    async with client.get('http://httpbin.org/get') as resp:        assert resp.status == 200        return await resp.text()
async def main():    async with aiohttp.ClientSession() as client:       tasks = []       for i in range(30):           tasks.append(asyncio.create_task(fetch(client)))       await asyncio.wait(tasks)
loop = asyncio.get_event_loop()
start = datetime.now()
loop.run_until_complete(main())
end = datetime.now()print("aiohttp版爬虫花费时间为:")print(end - start)


示例结果


# 重复30遍打印 ClientSession 对象<aiohttp.client.ClientSession object at 0x1094aff98>aiohttp版爬虫花费时间为:0:00:01.778045


从上面爬取的时间可以看出单个 ClientSession 对象比多个 ClientSession 对象多花了 3 倍时间。ClientSession 对象一直是同一个 0x1094aff98。


返回值


Json 串


在上面的示例中使用 response.text() 函数返回爬取到的内容,aiohttp 在处理 Json 返回值的时候,可以直接将字符串转换为 Json。


async def fetch(client):    async with client.get('http://httpbin.org/get') as resp:        return await resp.json()

示例结果


{'args': {}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate', 'Host': 'httpbin.org', 'User-Agent': 'Python/3.7 aiohttp/3.6.2'}, 'origin': '49.80.42.33, 49.80.42.33', 'url': 'https://httpbin.org/get'}


当返回的 Json 串不是一个标准的 Json 时,resp.json() 函数可以传递一个函数对 json 进行预处理,如:resp.json(replace(a, b)),replace()函数表示 a 替换为 b。


字节流


aiohttp 使用 response.read() 函数处理字节流,使用 with open() 方式保存文件或者图片


async def fetch(client):    async with client.get('http://httpbin.org/image/png') as resp:        return await resp.read()
async def main():    async with aiohttp.ClientSession() as client:        image = await fetch(client)        with open("/Users/xxx/Desktop/image.png", 'wb') as f:            f.write(image)


response.read() 函数可以传递数字参数用于读取多少个字节,如:response.read(3)读取前 3 个字节。


参数


aiohttp 可以使用 3 种方式在 URL 地址中传递参数


async def fetch(client):    params = [('a', 1), ('b', 2)]    async with client.get('http://httpbin.org/get',params=params) as resp:        return await resp.text()

示例 URL 地址


http://httpbin.org/get?a=1&b=2


async def fetch(client):    params = {"a": 1,"b": 2}    async with client.get('http://httpbin.org/get',params=params) as resp:        return await resp.text()

示例 URL 地址


http://httpbin.org/get?a=1&b=2


async def fetch(client):    async with client.get('http://httpbin.org/get',params='q=aiohttp+python&a=1') as resp:        return await resp.text()

示例 URL 地址


http://httpbin.org/get?q=aiohttp+python&a=1


请求头


aiohttp 在自定义请求头时,类似于向 URL 传递参数的方式


async def fetch(client):    headers = {'content-type': 'application/json', 'User-Agent': 'Python/3.7 aiohttp/3.7.2'}    async with client.get('http://httpbin.org/get',headers=headers) as resp:        return await resp.text()


COOKIES


cookies 是整个会话共用的,所以应该在初始化 ClientSession 对象时传递



async def fetch(client):    async with client.get('http://httpbin.org/get') as resp:        return await resp.text()
async def main():    cookies = {'cookies': 'this is cookies'}    async with aiohttp.ClientSession(cookies=cookies) as client:        html = await fetch(client)        print(html)


POST 方式


在前面的示例中都是以 GET 方式提交请求,下面用 POST 方式请求


async def fetch(client):    data = {'a': '1', 'b': '2'}    async with client.post('http://httpbin.org/post', data = data) as resp:        return await resp.text()


示例结果


{  "args": {},  "data": "",  "files": {},  "form": {    "a": "1",    "b": "2"  },  "headers": {    "Accept": "*/*",    "Accept-Encoding": "gzip, deflate",    "Content-Length": "7",    "Content-Type": "application/x-www-form-urlencoded",    "Host": "httpbin.org",    "User-Agent": "Python/3.7 aiohttp/3.6.2"  },  "json": null,  "origin": "49.80.42.33, 49.80.42.33",  "url": "https://httpbin.org/post"}
aiohttp版爬虫花费时间为:0:00:00.514402


在示例结果中可以看到 form 中的内容就是模拟 POST 方式提交的内容


超时


在请求网站时,有时会遇到超时问题,aiohttp 中使用 timeout 参数设置,单位为秒数,aiohttp 默认超时时间为 5 分钟


async def fetch(client):    async with client.get('http://httpbin.org/get', timeout=60) as resp:        return await resp.text()


总结


aiohttp 以异步的方式爬取网站耗时远小于 requests 同步方式,这里列举了一些 aiohttp 常用功能,希望对大家有所帮助。


代码地址

示例代码:https://github.com/JustDoPython/python-100-day/tree/master/day-102


系列文章


第101天:Python asyncio

从 0 学习 Python 0 - 100 大合集总结



目录
相关文章
|
1月前
|
数据库 开发者 Python
实战指南:用Python协程与异步函数优化高性能Web应用
【7月更文挑战第15天】Python的协程与异步函数优化Web性能,通过非阻塞I/O提升并发处理能力。使用aiohttp库构建异步服务器,示例代码展示如何处理GET请求。异步处理减少资源消耗,提高响应速度和吞吐量,适用于高并发场景。掌握这项技术对提升Web应用性能至关重要。
57 10
|
1月前
|
数据采集 数据库 Python
Python并发编程新篇章:asyncio库使用全攻略,轻松驾驭异步世界!
【7月更文挑战第11天】Python的asyncio开启异步编程时代,通过案例展示如何用它和aiohttp构建并发爬虫。安装aiohttp后,定义异步函数`fetch`进行HTTP请求,返回状态码和内容长度。在`main`中,并发执行多个`fetch`任务,利用`asyncio.gather`收集结果。使用`async with`管理HTTP会话资源,确保释放。通过这种方式,爬虫性能大幅提升,适用于高并发场景。学习asyncio是提升并发性能的关键。
51 14
|
1月前
|
并行计算 数据处理 Python
Python并发编程迷雾:IO密集型为何偏爱异步?CPU密集型又该如何应对?
【7月更文挑战第17天】Python并发编程中,异步编程(如`asyncio`)在IO密集型任务中提高效率,利用等待时间执行其他任务。但对CPU密集型任务,由于GIL限制,多线程效率不高,此时应选用`multiprocessing`进行多进程并行计算以突破限制。选择合适的并发策略是关键:异步适合IO,多进程适合CPU。理解这些能帮助构建高效并发程序。
32 6
|
1月前
|
开发框架 并行计算 .NET
从菜鸟到大神:Python并发编程深度剖析,IO与CPU的异步战争!
【7月更文挑战第18天】Python并发涉及多线程、多进程和异步IO(asyncio)。异步IO适合IO密集型任务,如并发HTTP请求,能避免等待提高效率。多进程在CPU密集型任务中更优,因可绕过GIL限制实现并行计算。通过正确选择并发策略,开发者能提升应用性能和响应速度。
40 3
|
1月前
|
算法 Java 程序员
解锁Python高效之道:并发与异步在IO与CPU密集型任务中的精准打击策略!
【7月更文挑战第17天】在数据驱动时代,Python凭借其优雅语法和强大库支持成为并发处理大规模数据的首选。并发与异步编程是关键,包括多线程、多进程和异步IO。对于IO密集型任务,如网络请求,可使用`concurrent.futures`和`asyncio`;CPU密集型任务则推荐多进程,如`multiprocessing`;`asyncio`适用于混合任务,实现等待IO时执行CPU任务。通过这些工具,开发者能有效优化资源,提升系统性能。
52 4
|
1月前
|
数据处理 Python
深入探索:Python中的并发编程新纪元——协程与异步函数解析
【7月更文挑战第15天】Python 3.5+引入的协程和异步函数革新了并发编程。协程,轻量级线程,由程序控制切换,降低开销。异步函数是协程的高级形式,允许等待异步操作。通过`asyncio`库,如示例所示,能并发执行任务,提高I/O密集型任务效率,实现并发而非并行,优化CPU利用率。理解和掌握这些工具对于构建高效网络应用至关重要。
34 6
|
1月前
|
开发框架 并行计算 算法
揭秘Python并发神器:IO密集型与CPU密集型任务的异步革命,你竟还傻傻分不清?
【7月更文挑战第18天】Python并发编程中,异步IO适合IO密集型任务,如异步HTTP请求,利用`asyncio`和`aiohttp`实现并发抓取,避免等待延迟。而对于CPU密集型任务,如并行计算斐波那契数列,多进程通过`multiprocessing`库能绕过GIL限制实现并行计算。选择正确的并发模型能显著提升性能。
45 2
|
1月前
|
大数据 数据处理 API
性能飞跃:Python协程与异步函数在数据处理中的高效应用
【7月更文挑战第15天】在大数据时代,Python的协程和异步函数解决了同步编程的性能瓶颈问题。同步编程在处理I/O密集型任务时效率低下,而Python的`asyncio`库支持的异步编程利用协程实现并发,通过`async def`和`await`避免了不必要的等待,提升了CPU利用率。例如,从多个API获取数据,异步方式使用`aiohttp`并发请求,显著提高了效率。掌握异步编程对于高效处理大规模数据至关重要。
31 4
|
1月前
|
开发框架 数据挖掘 .NET
显微镜下的Python并发:细说IO与CPU密集型任务的异步差异,助你精准施策!
【7月更文挑战第16天】在Python并发编程中,理解和区分IO密集型与CPU密集型任务至关重要。IO密集型任务(如网络请求)适合使用异步编程(如`asyncio`),以利用等待时间执行其他任务,提高效率。CPU密集型任务(如计算)则推荐使用多进程(如`multiprocessing`),绕过GIL限制,利用多核CPU。正确选择并发策略能优化应用性能。
32 2
|
1月前
|
调度 Python
揭秘Python并发编程核心:深入理解协程与异步函数的工作原理
【7月更文挑战第15天】Python异步编程借助协程和async/await提升并发性能,减少资源消耗。协程(async def)轻量级、用户态,便于控制。事件循环,如`asyncio.get_event_loop()`,调度任务执行。异步函数内的await关键词用于协程间切换。回调和Future对象简化异步结果处理。理解这些概念能写出高效、易维护的异步代码。
25 2