Python编程—Ajax数据爬取(二)

简介: Python编程—Ajax数据爬取(二)

接上文 Python编程—Ajax数据爬取(一)https://developer.aliyun.com/article/1620694

4.爬取列表页
首先分析列表页的Ajax接口逻辑,打开浏览器开发者工具,切换到Network面板,勾选Preserve Log并切换到XHR选项卡,接着重新刷新页面,再单击第3页、第4页的按钮,开发者工具下方页也监听到了几个Ajax请求,如图所示:

image.png

每次翻页也出现了对应的Ajax请求,可以单击查看其请求详情,观察请求URL、参数和响应内容是怎么样的,如图所示:

image.png

点开最后一个结果,观察到Ajax接口的请求UR为https://spa1.scrape.center/api/movie/?limit=10&offset=30。

观察多个Ajax接口的参数,可以总结一个规律:limit一直为10,正好对应每页10条数据;offset在依次变大,页数每加1,offset就加10,因此其代表页面的数据偏移量。

接着观察一下响应内容,切换到Preview选项卡,如下图所示:

image.png

可以看到,结果就是一些JSON数据,其中有一个results字段,是一个列表,列表中每一个元素都是一个字典。观察一下字典的内容,正好是对应电影数据的字段,如name、alias、cover、categories。爬取详情页和爬取列表页的代码如下:

import logging

import requests

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s : %(message)s')

LIMIT = 10

# 定义一个通用爬取方法
def scrape_api(url):
    logging.info('scraping %s...', url)
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.json()
        logging.error('get invalid status code %s while scraping %s', response.status_code, url)

    except requests.RequestException:
        logging.error('error occurred while scraping %s', url, exc_info=True)

# 爬取列表页的方法
def scrape_index(page):
    url = f'<https://spa1.scrape.center/api/movie/?limit={LIMIT}&offset={LIMIT*(page-1)}>'
    return scrape_api(url)

5.爬取详情页
单击任意一部电影,如《肖申克的救赎》,进入其详情页,可以发现此时的页面URL已经变成了https://spa1.scrape.center/detail/3,页面也成功展示了《肖申克的救赎》详情页的信息,如下图所示:
image.png

另外,我们也可以观察到开发者工具中又出现了一个Ajax请求,其URL为 https://spa1.scrape.center/api/movie/3,通过Preview选项卡也能看到Ajax请求对应的响应信息,如图所示:

image.png

进一步观察发现,列表页原本返回数据中就带有id这个字段,所以只要拿列表页结果中的id来构 造详情页的Ajax请求的URL就好了。定义一个详情页的爬取逻辑,代码如下:

# 详情页爬取方法
def scrape_detail(id):
    url = f'<https://spa1.scrape.center/api/movie/{id}>'
    return scrape_api(url)
最后,定义一个总调用方法,对以上方法串联调用,代码如下:
def main():
    for page in range(1, TOTAL_PAGE+1):
        index_data = scrape_index(page)
        for item in index_data.get('results'):
            id = item.get('id')
            detail_data = scrape_detail(id)
            logging.info('detail data %s', detail_data)

if __name__ == '__main__':
    main()
   运行结果如下(省略部分内容):

….

2024-03-23 13:28:19,493 - INFO : detail data {
   ‘id’: 21, ‘name’: ‘黄金三镖客’, ‘alias’: ‘Il buono, il brutto, il cattivo., ‘cover’: ‘https://p0.meituan.net/movie/cd18ed2c5cda9e71e17e5e6ef61ced172912303.jpg@464w_644h_1e_1c’, ‘categories’: [‘西部’, ‘冒险’], ‘regions’: [‘意大利’, ‘西班牙’, ‘西德’], ‘actors’: [{
   ‘name’: ‘克林特·伊斯特伍德’, ‘role’: ‘布兰迪 Blondie’, ‘image’: ‘https://p1.meituan.net/moviemachine/d1156c14dd899ada7c2b98bc373021c852875.jpg@128w_170h_1e_1c’}, {
   ‘name’: ‘李·范·克里夫’, ‘role’: ‘桑坦萨 Sentenza’, ‘image’: ‘https://p0.meituan.net/movie/665eab6fdb7755138e0c8092f35ba39327553.jpg@128w_170h_1e_1c’}, {
   ‘name’: ‘埃里·瓦拉赫’, ‘role’: ‘图科 Tuco’, ‘image’: ‘https://p1.meituan.net/movie/275042f2bbe012263b8deed1c96e611b42623.jpg@128w_170h_1e_1c’}, {
   ‘name’: ‘路易吉·皮斯蒂利’, ‘role’: ‘Father Pablo Ramirez’, ‘image’: ‘https://p1.meituan.net/movie/3c91cd5186e89e927056adbc8a722f5014760.jpg@128w_170h_1e_1c’}, {
   ‘name’: ‘Claudio Scarchilli’, ‘role’: ‘Bounty Hunter in Ghost Town’, ‘image’: ‘https://p1.meituan.net/mmdb/3a2061d771d98566d3e5fa5c08c5e0b33685.png@128w_170h_1e_1c’}, {
   ‘name’: ‘John Bartha’, ‘role’: ‘Sheriff (as John Bartho), ‘image’: ‘https://p1.meituan.net/mmdb/3a2061d771d98566d3e5fa5c08c5e0b33685.png@128w_170h_1e_1c’}, {
   ‘name’: ‘Livio Lorenzon’, ‘role’: ‘Baker’, ‘image’: ‘https://p1.meituan.net/mmdb/3a2061d771d98566d3e5fa5c08c5e0b33685.png@128w_170h_1e_1c’}, {
   ‘name’: ‘贝尼托·斯特凡内利’, ‘role’: “Member of Angel Eyes’ Gang”, ‘image’: ‘https://p0.meituan.net/movie/69698bc0960b07e3acddd412f3b88ee821953.jpg@128w_170h_1e_1c’}, {
   ‘name’: ‘Angelo Novi’, ‘role’: ‘Monk’, ‘image’: ‘https://p1.meituan.net/mmdb/3a2061d771d98566d3e5fa5c08c5e0b33685.png@128w_170h_1e_1c’}, {
   ‘name’: ‘安东尼奥·卡萨斯’, ‘role’: ‘Stevens’, ‘image’: 'https://p1.meituan

……

至此,所有电影详情数据,都爬取到了。

6.保存数据
请确保有一个可以正常连接和使用的MongoDB数据库,这里以本地localhost的MongoDB数据库为例来进行操作,其运行在27017端口上,无用户名和密码。

将数据导入MongodDB需要用到PyMongo这个库,配置如下:

import pymongo

# 定义常量
MONGO_CONNECTION_STRING = 'mongodb://localhost:27017'
MONGO_DB_NAME = 'movies'
MONGO_COLLECTION_NAME = 'movies'

client = pymongo.MongoClient(MONGO_CONNECTION_STRING)
db = client['movies']
collection = db['movies']

定义一个将数据保存到MongoDB数据库的方法,代码如下:

# 定义保存数据到MongoDB的方法
def save_data(data):
    collection.update_one({
   
        'name':data.get('name')
    },{
   
        '$set':data
    }, upsert=True)

接下来改写一下main方法,如下所示:

def main():
    for page in range(1, TOTAL_PAGE + 1):
        index_data = scrape_index(page)
        for item in index_data.get('results'):
            id = item.get('id')
            detail_data = scrape_detail(id)
            logging.info('detail data %s', detail_data)
            save_data(detail_data)
            logging.info('data saved successfully')

其实就是增加了save_data方法调用,并添加一些日志信息。重新运行,看看输出结果:

image.png

可以看到,数据就是以JSON格式存储的,一条数据对应一部电影信息,各种嵌套关系也是一目了然。

相关文章
|
8月前
|
数据采集 Web App开发 数据可视化
Python零基础爬取东方财富网股票行情数据指南
东方财富网数据稳定、反爬宽松,适合爬虫入门。本文详解使用Python抓取股票行情数据,涵盖请求发送、HTML解析、动态加载处理、代理IP切换及数据可视化,助你快速掌握金融数据爬取技能。
6524 1
|
8月前
|
Java 数据挖掘 数据处理
(Pandas)Python做数据处理必选框架之一!(一):介绍Pandas中的两个数据结构;刨析Series:如何访问数据;数据去重、取众数、总和、标准差、方差、平均值等;判断缺失值、获取索引...
Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。 Pandas 是数据科学和分析领域中常用的工具之一,它使得用户能够轻松地从各种数据源中导入数据,并对数据进行高效的操作和分析。 Pandas 主要引入了两种新的数据结构:Series 和 DataFrame。
716 0
|
8月前
|
JSON 算法 API
Python采集淘宝商品评论API接口及JSON数据返回全程指南
Python采集淘宝商品评论API接口及JSON数据返回全程指南
|
8月前
|
JSON API 数据安全/隐私保护
Python采集淘宝拍立淘按图搜索API接口及JSON数据返回全流程指南
通过以上流程,可实现淘宝拍立淘按图搜索的完整调用链路,并获取结构化的JSON商品数据,支撑电商比价、智能推荐等业务场景。
|
8月前
|
Python
Python编程:运算符详解
本文全面详解Python各类运算符,涵盖算术、比较、逻辑、赋值、位、身份、成员运算符及优先级规则,结合实例代码与运行结果,助你深入掌握Python运算符的使用方法与应用场景。
501 3
|
8月前
|
数据处理 Python
Python编程:类型转换与输入输出
本教程介绍Python中输入输出与类型转换的基础知识,涵盖input()和print()的使用,int()、float()等类型转换方法,并通过综合示例演示数据处理、错误处理及格式化输出,助你掌握核心编程技能。
727 3
|
8月前
|
并行计算 安全 计算机视觉
Python多进程编程:用multiprocessing突破GIL限制
Python中GIL限制多线程性能,尤其在CPU密集型任务中。`multiprocessing`模块通过创建独立进程,绕过GIL,实现真正的并行计算。它支持进程池、队列、管道、共享内存和同步机制,适用于科学计算、图像处理等场景。相比多线程,多进程更适合利用多核优势,虽有较高内存开销,但能显著提升性能。合理使用进程池与通信机制,可最大化效率。
536 3
|
9月前
|
数据采集 关系型数据库 MySQL
python爬取数据存入数据库
Python爬虫结合Scrapy与SQLAlchemy,实现高效数据采集并存入MySQL/PostgreSQL/SQLite。通过ORM映射、连接池优化与批量提交,支持百万级数据高速写入,具备良好的可扩展性与稳定性。
|
9月前
|
JSON API 数据安全/隐私保护
Python采集淘宝评论API接口及JSON数据返回全流程指南
Python采集淘宝评论API接口及JSON数据返回全流程指南
|
8月前
|
Java 调度 数据库
Python threading模块:多线程编程的实战指南
本文深入讲解Python多线程编程,涵盖threading模块的核心用法:线程创建、生命周期、同步机制(锁、信号量、条件变量)、线程通信(队列)、守护线程与线程池应用。结合实战案例,如多线程下载器,帮助开发者提升程序并发性能,适用于I/O密集型任务处理。
744 0

推荐镜像

更多