python异步爬虫的实现过程

简介: python异步爬虫的实现过程

在日常爬虫中我们会涉及到同步与异步问题,一般异步编程可以大幅度的提高系统的吞吐量,提高单位时间内发出的请求数目。之前的文章分享了些同步的知识,就是对aurl发起请求,等待响应。然后再访问burl,等待响应。。。
大量的时间消耗在等待上,如果能近似的同时对多个网址发起请求,等待响应,速度回快很多倍。其实所谓的同时也是有先后顺序的,所以叫异步。
异步爬虫的方式有以下2种
1、多线程,多进程(不建议):
好处:可以为相关阻塞的操作单独开启线程,阻塞操作就可以异步执行。弊端:无法无限制的开启多线程或者多进程。
2、线程池、进程池(适当的使用):好处:可以降低系统对进程或者线程创建和销毁的一个频率,从而很好的降低系统的开销。弊端:池中线程或进程的数量是有上限。
接下来我们通过aiohttp异步爬虫来爬取一个书籍网站的数据, https://spa5.scrape.center/,通过简单的网站分析,反爬机制不是很严,为了爬取顺利这里添加了代理IP,由于这个网站的数据量多一些,所以选择用异步方式来爬取,代码实例如下:
``# 导入相关库
import asyncio
import aiohttp
from aiohttp_socks import ProxyConnector
from bs4 import BeautifulSoup

定义目标网站和代理服务器的参数

url = "https://spa5.scrape.center/"
proxy = "socks5://16yun:16ip@www.16yun.cn:11111"

定义异步函数来发送GET请求,并使用代理服务器来连接目标网站

async def fetch(session, url):
try:
async with session.get(url) as response:

        # 检查响应状态码是否为200,否则抛出异常
        if response.status != 200:
            raise Exception(f"Bad status code: {response.status}")
        # 返回响应内容的文本格式
        return await response.text()
except Exception as e:
    # 打印异常信息,并返回None
    print(e)
    return None

定义异步函数来处理响应结果,并解析HTML内容

async def parse(html):

# 如果响应结果不为空,则进行解析操作
if html is not None:
    # 使用bs4库来创建BeautifulSoup对象,并指定解析器为html.parser
    soup = BeautifulSoup(html, "html.parser")
    # 提取网页中的标题标签,并打印其文本内容
    title = soup.find("title")
    print(title.text)
else:
    # 否则打印None表示无效结果
    print(None)

定义异步函数来统计成功次数,并打印结果

async def count(results):

# 初始化成功次数为0
success = 0
# 遍历所有的结果,如果不为空,则增加成功次数,否则跳过
for result in results:
    if result is not None:
        success += 1
# 打印总共的请求数和成功次数    
print(f"Total requests: {len(results)}")
print(f"Success requests: {success}")

定义异步主函数来创建并运行多个协程任务,并控制并发数量和超时时间等参数

async def main():

# 创建一个aiohttp_socks.ProxyConnector对象,用来设置代理服务器的参数    
connector = ProxyConnector.from_url(proxy)
# 创建一个aiohttp.ClientSession对象,用来发送HTTP请求,并传入connector参数    
async with aiohttp.ClientSession(connector=connector) as session:
    # 创建一个空列表,用来存储所有的协程任务        
    tasks = []
    # 循环10000次,每次创建一个fetch函数的协程任务,并添加到列表中        
    for i in range(10000):
        task = asyncio.create_task(fetch(session, url))
        tasks.append(task)

    # 使用asyncio.gather函数来收集并执行所有的协程任务,并返回一个包含所有结果的列表        
    results = await asyncio.gather(*tasks)

    # 创建一个空列表,用来存储所有的解析任务        
    parse_tasks = []

     for result in results:
         parse_task = asyncio.create_task(parse(result))
         parse_tasks.append(parse_task)

     await asyncio.gather(*parse_tasks)   

     await count(results)

在程序入口处调用异步主函数,并启动事件循环

if name == "main":
asyncio.run(main())
```

相关文章
|
5天前
|
数据采集 存储 C++
单线程 vs 多进程:Python网络爬虫效率对比
本文探讨了Python网络爬虫中的单线程与多进程应用。单线程爬虫实现简单,但处理速度慢,无法充分利用多核CPU。而多进程爬虫通过并行处理提高效率,更适合现代多核架构。代码示例展示了如何使用代理IP实现单线程和多进程爬虫,显示了多进程在效率上的优势。实际使用时还需考虑代理稳定性和反爬策略。
单线程 vs 多进程:Python网络爬虫效率对比
|
6天前
|
数据采集 存储 中间件
Python高效爬虫——scrapy介绍与使用
Scrapy是一个快速且高效的网页抓取框架,用于抓取网站并从中提取结构化数据。它可用于多种用途,从数据挖掘到监控和自动化测试。 相比于自己通过requests等模块开发爬虫,scrapy能极大的提高开发效率,包括且不限于以下原因: 1. 它是一个异步框架,并且能通过配置调节并发量,还可以针对域名或ip进行精准控制 2. 内置了xpath等提取器,方便提取结构化数据 3. 有爬虫中间件和下载中间件,可以轻松地添加、修改或删除请求和响应的处理逻辑,从而增强了框架的可扩展性 4. 通过管道方式存储数据,更加方便快捷的开发各种数据储存方式
|
6天前
|
数据采集 XML 前端开发
Python爬虫:BeautifulSoup
这篇内容介绍了Python中BeautifulSoup库的安装和使用。首先,通过在命令行输入`pip install bs4`进行安装,或使用清华源加速。接着讲解BeautifulSoup的基本概念,它是一个用于数据解析的工具,便于处理HTML和XML文档。与正则表达式不同,BeautifulSoup提供更方便的方式来查找和操作标签及其属性。 文章详细阐述了BeautifulSoup的两个主要方法:`find`和`find_all`。`find`方法用于查找单个指定标签,可结合属性字典进行精确选择;`find_all`则返回所有匹配标签的列表。通过这些方法,可以方便地遍历和提取网页元素。
16 0
|
6天前
|
数据采集 前端开发 JavaScript
Python爬虫入门
网络爬虫是自动抓取网页数据的程序,通过URL获取网页源代码并用正则表达式提取所需信息。反爬机制是网站为防止爬取数据设置的障碍,而反反爬是对这些机制的对策。`robots.txt`文件规定了网站可爬取的数据。基础爬虫示例使用Python的`urllib.request`模块。HTTP协议涉及请求和响应,包括状态码、头部和主体。`Requests`模块是Python中常用的HTTP库,能方便地进行GET和POST请求。POST请求常用于隐式提交表单数据,适用于需要发送复杂数据的情况。
16 1
|
17天前
|
数据采集 数据挖掘 Python
使用Python构建简单网页爬虫的技术指南
【5月更文挑战第17天】使用Python构建简单网页爬虫的教程,涉及`requests`和`BeautifulSoup4`库。首先安装所需库,然后发送HTTP GET请求获取HTML内容。利用`BeautifulSoup`解析HTML,找到目标元素,如`<h2>`标签内的新闻标题。处理相对链接,将它们转化为绝对URL。添加异常处理以应对网络问题,同时遵循网站的`robots.txt`规则。此爬虫适用于数据分析和市场研究等场景。
|
19天前
|
数据采集 Web App开发 数据处理
Lua vs. Python:哪个更适合构建稳定可靠的长期运行爬虫?
Lua vs. Python:哪个更适合构建稳定可靠的长期运行爬虫?
|
19天前
|
数据采集 Web App开发 Java
Python 爬虫:Spring Boot 反爬虫的成功案例
Python 爬虫:Spring Boot 反爬虫的成功案例
|
19天前
|
数据采集 存储 JSON
Python爬虫面试:requests、BeautifulSoup与Scrapy详解
【4月更文挑战第19天】本文聚焦于Python爬虫面试中的核心库——requests、BeautifulSoup和Scrapy。讲解了它们的常见问题、易错点及应对策略。对于requests,强调了异常处理、代理设置和请求重试;BeautifulSoup部分提到选择器使用、动态内容处理和解析效率优化;而Scrapy则关注项目架构、数据存储和分布式爬虫。通过实例代码,帮助读者深化理解并提升面试表现。
30 0
|
9月前
|
数据采集 JSON 前端开发
Python爬虫进阶:使用Scrapy库进行数据提取和处理
在我们的初级教程中,我们介绍了如何使用Scrapy创建和运行一个简单的爬虫。在这篇文章中,我们将深入了解Scrapy的强大功能,学习如何使用Scrapy提取和处理数据。
|
9月前
|
数据采集 中间件 Shell