Python编程异步爬虫实战案例

简介: Python编程异步爬虫实战案例

aiohttp异步爬取实战
1.案例介绍
链接为https://spa5.scrape.center,页面如下图所示:

image.png

这是一个图书网站,整个网站包含数千本图书信息,网站数据是JavaScript渲染而得的,数据可以通过Ajax接口获取,并且接口没有设置反爬措施和加密参数。

完成目标:

  • 使用aiohttp爬取全站的图书数据;
  • 将数据通过异步的方式保存到MongoDB中。

准备工作

实现MonogDB异步存储,离不开异步实现的MongoDB存储卡motor,其安装命令为:
pip3 install motor

1.页面分析
这个页面加载方式都是Ajax,分析如下信息:
列表页的Ajax请求接口格式https://spa5.scrape.center/api/book/?limit=18&offset={offset}。其中limit的值为每页包含多少本书;offset的值为每一页的偏移量,计算公式为offset。limit*(page - 1),如第一页的offset值为0,第2页offset的值为18,依此类推。

在列表页Ajax接口返回的数据里,results字段包含当前页里18本图书的信息,其中每本书的数据里包含一个id字段,这个id就是图书本身的ID,可以用来进一步请求详情页。
详情页的Ajax请求接口格式为https://spa5.scrape.center/api/book/{id}。其中的id即为详情页对应图书的ID,可以从列表页Ajax接口的返回结果中获取此内容。
2.实现思路
一个完善的异步爬虫应该能够充分利用资源进行全速爬取,其实现思路是维护一个动态变化的爬取队列,每产生一个新的task,就将其放入爬取队列中,有专门的爬虫消费者从此队列中获取task并执行,能做到在最大并发量的前提下充分利用等待时间进行额外的爬取处理。
我们将爬取逻辑拆分成两部分,第一部分爬取列表页,第二部分为爬取详情页。因为异步爬虫的关键点在于并发执行,所以可以将爬取拆分为如下两个阶段。

  1. 第一阶段是异步爬取所有列表页,我们可以将所有列表页的爬取任务集合在一起,并将其声明为由task组成的列表,进行异步爬取。
  2. 第二阶段则是拿到上一步列表页的所有内容并解析,将所有图书的id信息组合为所有详情页的爬取任务集合,并将其声明为task组成的列表,进行异步爬取,同时爬取结果也以异步方式存储到MongoDB里面。

基本配置
首先,先配置一些基本的变量并引入一些必需的库,代码如下:

import asyncio
import aiohttp
import logging

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s:%(message)s')

INDEX_URL = 'https://spa5.scrape.center/api/book/?limit=18&offset={offset}'
DETAIL_URL = 'https://spa5.scrape.center/api/book/{id}'
PAGE_SIZE = 18
PAGE_NUMBER = 100
CONCURRENCY = 5

这里导入asyncio、aiohttp、logging这3个库,然后定义了logging的基本配置。接着定义了URL、爬取页码数量PAGE_NUMBER、并发量CONCURRENCY等信息。

爬取列表页面
第一阶段来爬取列表页,还是和之前一样,先定义一个通用的爬取方法,代码如下:

semaphore = asyncio.Semaphore(CONCURRENCY)
session = None

async def scrape_api(url):
    async with semaphore:
        try:
            logging.info('scraping %s', url)
            async with session.get(url) as response:
                return await response.json()
        except aiohttp.ClientError:
            logging.error('error occurred while scraping %s', url, exc_info=True)

这里声明一个信号量,用来控制最大并发量。接着定义scrape_api方法,接受一个参数url,该方法首先使用async with 语句引入信号量作为上下文,接着调用session的get方法请求这个url,然后返回响应的JSON格式的结果。另外,这里还进行了异常处理,捕获了ClientError,如果出现错误,就会输出异常信息。

然后,爬取列表页,实现代码如下:

async def scrape_index(page):
    url = INDEX_URL.format(offset=PAGE_SIZE * (page-1))
    return await scrape_api(url)

这里定义了scrape_index方法用于爬取列表页,它接受一个参数page。随后构造一个列表页的URL,将其传给scrape_api调用之后本身会返回一个协程对象。另外,由于scrape_api的返回结果就是JSON格式,因此这个结果已经是我们想要爬取的信息,不需要再额外解析了。

接下来定义main方法,将上面的方法串联起来调用,实现如下:

import json

async def main():
    global session
    session = aiohttp.ClientSession()
    scrape_index_tasks = [asyncio.ensure_future(scrape_index(page)) for page in range(1, PAGE_NUMBER + 1))]
    results = await asyncio.gather(*scrape_index_tasks)
    logging.info('results %s', json.dumps(results, ensure_ascii=False, indent=2))


if __name__ == '__main__':
    asyncio.get_event_loop().run_until_complete(main())

这里首先声明了session对象,即最初声明的全局变量。这样的话,就不需要在各个方法里面都传递session了,实现起来比较简单。

接着定义了scrape_index_tasks,这就是用于爬取列表页的所有task组成的列表。然后调用asyncio的gather方法,并将task列表传入其参数,将结果赋值为results,它是由所有task返回结果组成的列表。

最后,调用main方法,使用事件循环启动该main方法对应的协程即可。

运行结果如下:

image.png

爬取详情页
第二阶段爬取详情页并保存数据。每个详情页对应一本书,每本书都需要一个ID作为唯一标识,而这个ID又正好在results里面,所以需将所有详情页的ID获取出来。

在main方法里增加results的解析代码,如下:

ids = []
    for index_data in results:
        if not index_data:continue
        for item in index_data.get('results'):
            ids.append(item.get('id'))

这样ids就是所有书的id了,然后用所有的id构造所有详情页对应的task,进行异步爬取即可。

这里再定义两个方法,用于爬取详情页和保存数据,实现如下:

from motor.motor_asyncio import AsyncIOMotorClient

MONGO_CONNECTION_STRING = 'mongodb://localhost:27017'
MONGO_DB_NAME = 'books'
MONGO_CONNECTION_NAME = 'books'

client = AsyncIOMotorClient(MONGO_CONNECTION_STRING)
db = client[MONGO_DB_NAME]
collection = db[MONGO_CONNECTION_NAME]

async def save_data(data):
    logging.info('saving data %s', data)
    if data:
        return await collection.update_one({
   
            'id':data.get('id')
        },{
   
            '$set':data
        },upsert=True)

async def scrape_detail(id):
    url = DETAIL_URL.format(id=id)
    data = await scrape_api(url)
    await save_data(data)

这里定义了scrape_detail方法用于爬取详情页数据,并调用save_data方法保存数据。save_data方法可以将数据保存到MongoDB里面。

这里我们用到了支持异步的MongoDB存储库motor。motor的连接声明和pymongo是类似的,保存数据的调用方法也基本一致,不过整个都换成了异步方法。

接着在main方法里增加对scrape_detail方法的调用即可爬取详情页,实现如下:

scrape_detail_tasks = [asyncio.ensure_future(scrape_detail(id)) for id in ids]
await asyncio.wait(scrape_detail_tasks)
await session.close()

运行结果如下:

/usr/bin/python3 /Users/bruce_liu/PycharmProjects/崔庆才--爬虫/6章异步爬虫/aiohttp示例.py
2024-03-24 22:19:09,706 - INFO:scraping https://spa5.scrape.center/api/book/?limit=18&offset=0
2024-03-24 22:19:09,719 - INFO:scraping https://spa5.scrape.center/api/book/?limit=18&offset=18
2024-03-24 22:19:09,720 - INFO:scraping https://spa5.scrape.center/api/book/?limit=18&offset=36
...
2024-03-24 22:19:13,645 - INFO:results [
  {
   
    "count": 9040,
    "results": [
      {
   
        "id": "7952978",
        "name": "Wonder",
        "authors": [
          "R. J. Palacio"
        ],
        "cover": "https://cdn.scrape.center/book/s27252687.jpg",
        "score": "8.8"
      },

      }
    ]
  },
  {
   
    "count": 9040,
    "results": [
      {
   
        "id": "6814760",
        "name": "一個人暖呼呼",
        "authors": [
          "高木直子"
        ],
        "cover": "https://cdn.scrape.center/book/s32265782.jpg",
        "score": "8.3"
      },
      {
   
        "id": "6813394",
        "name": "曼珠沙华·彼岸花",
        "authors": [
          "\n            沧月",
          "鼎剑阁系列·沧月十周年珍藏版"
        ],
        "cover": "https://cdn.scrape.center/book/s6903111.jpg",
        "score": "7.6"
      },

      {
   
        "id": "6802423",
        "name": "哦!爸爸们",
        "authors": [
          "\n                [日]\n            伊坂幸太郎",
          "乐读文库"
        ],
        "cover": "https://cdn.scrape.center/book/s8353972.jpg",
        "score": "7.6"
      },
      {
   
        "id": "6802393",
        "name": "大漠荒颜·帝都赋",
        "authors": [
          "\n            沧月",
          "鼎剑阁系列·沧月十周年珍藏版"
        ],
        "cover": "https://cdn.scrape.center/book/s6902785.jpg",
        "score": "7.9"
      },
      {
   
        "id": "6802373",
        "name": "那些忧伤的年轻人",
        "authors": [
          "\n            许知远",
          "理想国",
          "理想国·许知远作品"
        ],
        "cover": "https://cdn.scrape.center/book/s6884382.jpg",
        "score": "7.5"
      },

      {
   
        "id": "6784039",
        "name": "你若安好便是晴天",
        "authors": [
          "\n            白落梅"
        ],
        "cover": "https://cdn.scrape.center/book/s6877731.jpg",
        "score": "5.7"
      }
    ]
  },

      {
   
        "id": "6758677",
        "name": "汉文学史纲要",
        "authors": [
          "鲁迅"

      }
    ]
  }
]
.....
2024-03-24 22:19:13,648 - INFO:scraping https://spa5.scrape.center/api/book/7952978
2024-03-24 22:19:13,649 - INFO:scraping https://spa5.scrape.center/api/book/7916054
2024-03-24 22:19:13,650 - INFO:scraping https://spa5.scrape.center/api/book/7698729
2024-03-24 22:19:13,651 - INFO:scraping https://spa5.scrape.center/api/book/7658805
56772', 'comments': [{'id': '1151612381', 'content': '嗯。有全套的书。碟。还有英文书。什么时候北京的某个电影院一天放完一遍的话,还是会去看。'}, {'id': '1151222346', 'content': '小时候书和电影是分开看的,这次每读完一本就看一部电影,就跟找不同样。'}, {'id': '1238066995', 'content': '太棒了~总有一天要读英文原版试试~'}, {'id': '1002081826', 'content': '包括那些番外'}, {'id': '1697423417', 'content': '结束   还挺失落'}, {'id': '2247572685', 'content': '哈哈哈小柠檬让我想起了小学时候熬夜读书的热情还有因为熬夜被爸爸大半夜批评的记忆'}, {'id': '2186418302', 'content': '终于没有经受住诱惑,虽更适合青少年,但也是大众读物。'}, {'id': '2140636956', 'content': '还需要犹豫几星?不给五星的人是什么心态?'}, {'id': '2122408930', 'content': '老版读了几遍'}, {'id': '2031971050', 'content': '第一本是从张一洋那里借的,还有一本五三班的坏小子。'}], 'name': '哈利·波特精装全集(套装全7册)', 'authors': ['\n                []\n            J·K·罗琳'], 'translators': ['苏农', '马爱农', '马爱新'], 'publisher': '人民文学出版社', 'tags': ['哈利波特', 'J.K.罗琳', '魔幻', '小说', '奇幻', '英国', '外国文学', 'HarryPotter'], 'url': 'https://book.douban.com/subject/6856772/', 'isbn': '9787020086627', 'cover': 'https://cdn.scrape.center/book/s6951249.jpg', 'page_number': 1687, 'price': '430.00', 'score': '9.4', 'introduction': '', 'catalog': None, 'published_at': '2011-01-20T16:00:00Z', 'updated_at': '2020-03-21T16:54:59.503224Z'}
2024-03-24 22:19:57,523 - INFO:scraping https://spa5.scrape.center/api/book/6847760
2024-03-24 22:19:58,009 - INFO:saving data {
   'id': '6854620', 'comments': [{
   'id': '905750233', 'content': '太拖沓,浪费时间'}, {
   'id': '932574876', 'content': '故事太拖沓,其实就是误会+错过,然后误会+错过,循环往复...囧'}, {
   'id': '676773490', 'content': '受不了女主。。。'}, {
   'id': '757656144', 'content': '就名字好一点。'}, {
   'id': '47香,直透人心扉。原来这就是爱。莫失莫忘的青春年华里,这样孤勇的爱,有生之年不会重来。当他的身边站着可堪比肩的校花,当他远在万里重洋之外,这份爱,她还有没有持续下去的希望?《你曾住在我心上(套装共2册)》倾情打造绵延数十年唯美纠结的虐心之作。书签:', 'catalog': '\n        楔子\t1\n        卷一 童年\t2\n        记得当时年纪小\t3\n        不是冤家不聚头\t11\n        韶华不为少年留\t20\n        西出阳关无故人\t30\n        卷二 花季\t40\n        新朋缘来也可庆\t40\n        又到绿杨曾折处\t50\n        黄花时节碧云天\t59\n        年少抛人容易去\t68\n        银汉红墙入望遥\t77\n        卷三 雨季\t88\n        未若柳絮因风起\t88\n        花明柳暗绕天愁\t98\n        不知迷路为花开\t107\n        风波不信菱枝弱\t116\n        桂花吹断月中香\t125\n        自今岐路各西东\t135\n        清声不远行人去\t143\n        一片幽情冷处浓\t153\n        又误心期到下弦\t162\n        卷四 大学\t1\n        春城何处不飞花\t1\n        良辰未必有佳期\t9\n        红楼隔雨相望冷\t19\n        不辞冰雪为卿热\t27\n        纵逢晴景如看雾\t35\n        不语还应彼此知……………………………………………………………………… ……43\n        遥听弦管暗看花\t1\n        行云归北又归南\t9\n        谁言千里自今夕\t17\n        一任南飞又北飞\t25\n        不将颜色托春风\t33\n        劳劳谁是怜君者\t40\n        萤在荒芜月在天\t49\n        卷五 工作\t59\n        归时休放烛花红\t59\n        长教碧玉藏深处\t67\n        无情有恨何人见\t76\n        又见桐花发旧枝\t84\n        别来几度春风换\t93\n        十一年前梦一场\t101\n        人生若只如初见\t109\n        十年一觉扬州梦\t119\n        当时只道是寻常\t127\n        盈盈自此隔银湾\t136\n        持向今朝照别离\t144\n        急雪乍翻香阁絮\t153\n        春云吹散湘帘雨\t161\n        莫向横塘问旧游\t170\n        旧时明月照扬州\t179\n        后记\t           191\n        精彩书评\t           191\n     · · · · · ·    ', 'published_at': '2011-10-20T16:00:00Z', 'updated_at': '2020-03-21T17:29:20.321848Z'}
2024-03-24 22:19:58,011 - INFO:scraping https://spa5.scrape.center/api/book/6835758
2024-03-24 22:19:58,546 - INFO:saving data {
   'id': '6854525', 'comments': [{
   'id': '958876319', 'content': '塔勒布的书,超5星。需要再多研究其它资料来好好理解,因为它太「实用」了:避免负面黑天鹅、抓住正面黑天鹅的机会是一辈子都需要考虑的事情。'},\n        第三部分\n        极端斯坦的灰天鹅\n        第十四章 从平均斯坦到极端斯坦,再回到平均斯坦\n        在极端斯坦,没有人是安全的。反过来也一样:也没人受到完全失败的威胁。我们现在的环境允许小人物在成功的希望前等待时机—活着就有希望。\n        第十五章 钟形曲线—智力大骗局\n        由于钟形曲线的不确定性计量方法忽视了跳跃性或者不连续变化发生的可能性及影响,因此无法适用于极端斯应对办法是在思维中避免从众。但在避免上当之外,这种态度受制于一种行为方式,不是思维方式,而是如何将知识转化为行动,并从中找出那些有价值的知识。\n        第十九章 一半对一半—如何与黑天鹅打成平手\n        当我受到正面黑天鹅事件的影响时,我会非常冒险,这时失败只有很小的影响;当我有可能受到负面黑天鹅事件的袭击时,我会非常保守。\n        后记1 从白天鹅到黑天鹅\n        后记2 强大与脆弱—更深层次的哲学与经验的反思\n     · · · · · ·    ', 'published_at': '2011-09-30T16:00:00Z', 'updated_at': '2020-03-21T17:40:30.176461Z'}
2024-03-24 22:19:58,548 - INFO:scraping https://spa5.scrape.center/api/book/6834237
....
Process finished with exit code 0

image.png

至此,我们就使用aiohttp完成了对图书网站的异步爬取。

相关文章
|
25天前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
2天前
|
人工智能 Rust Java
10月更文挑战赛火热启动,坚持热爱坚持创作!
开发者社区10月更文挑战,寻找热爱技术内容创作的你,欢迎来创作!
280 12
|
17天前
|
存储 关系型数据库 分布式数据库
GraphRAG:基于PolarDB+通义千问+LangChain的知识图谱+大模型最佳实践
本文介绍了如何使用PolarDB、通义千问和LangChain搭建GraphRAG系统,结合知识图谱和向量检索提升问答质量。通过实例展示了单独使用向量检索和图检索的局限性,并通过图+向量联合搜索增强了问答准确性。PolarDB支持AGE图引擎和pgvector插件,实现图数据和向量数据的统一存储与检索,提升了RAG系统的性能和效果。
|
5天前
|
JSON 自然语言处理 数据管理
阿里云百炼产品月刊【2024年9月】
阿里云百炼产品月刊【2024年9月】,涵盖本月产品和功能发布、活动,应用实践等内容,帮助您快速了解阿里云百炼产品的最新动态。
阿里云百炼产品月刊【2024年9月】
|
20天前
|
人工智能 IDE 程序员
期盼已久!通义灵码 AI 程序员开启邀测,全流程开发仅用几分钟
在云栖大会上,阿里云云原生应用平台负责人丁宇宣布,「通义灵码」完成全面升级,并正式发布 AI 程序员。
|
22天前
|
机器学习/深度学习 算法 大数据
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
2024“华为杯”数学建模竞赛,对ABCDEF每个题进行详细的分析,涵盖风电场功率优化、WLAN网络吞吐量、磁性元件损耗建模、地理环境问题、高速公路应急车道启用和X射线脉冲星建模等多领域问题,解析了问题类型、专业和技能的需要。
2583 22
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
|
4天前
|
存储 人工智能 搜索推荐
数据治理,是时候打破刻板印象了
瓴羊智能数据建设与治理产品Datapin全面升级,可演进扩展的数据架构体系为企业数据治理预留发展空间,推出敏捷版用以解决企业数据量不大但需构建数据的场景问题,基于大模型打造的DataAgent更是为企业用好数据资产提供了便利。
175 2
|
2天前
|
编译器 C#
C#多态概述:通过继承实现的不同对象调用相同的方法,表现出不同的行为
C#多态概述:通过继承实现的不同对象调用相同的方法,表现出不同的行为
101 65
|
5天前
|
Linux 虚拟化 开发者
一键将CentOs的yum源更换为国内阿里yum源
一键将CentOs的yum源更换为国内阿里yum源
273 2
|
21天前
|
机器学习/深度学习 算法 数据可视化
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
2024年中国研究生数学建模竞赛C题聚焦磁性元件磁芯损耗建模。题目背景介绍了电能变换技术的发展与应用,强调磁性元件在功率变换器中的重要性。磁芯损耗受多种因素影响,现有模型难以精确预测。题目要求通过数据分析建立高精度磁芯损耗模型。具体任务包括励磁波形分类、修正斯坦麦茨方程、分析影响因素、构建预测模型及优化设计条件。涉及数据预处理、特征提取、机器学习及优化算法等技术。适合电气、材料、计算机等多个专业学生参与。
1580 16
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码