Python + Chrome 爬虫:如何抓取 AJAX 动态加载数据?

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: Python + Chrome 爬虫:如何抓取 AJAX 动态加载数据?

在现代 Web 开发中,AJAX(Asynchronous JavaScript and XML) 技术被广泛应用于动态加载数据,使得网页能够在不刷新的情况下更新内容。然而,这也给传统爬虫带来了挑战——使用 requests + BeautifulSoup 只能获取初始 HTML,而无法捕获 AJAX 返回的动态数据。

解决方案:

  • Selenium + ChromeDriver:模拟浏览器行为,等待 AJAX 数据加载完成后再抓取。
  • 直接分析 AJAX 请求:通过 Chrome DevTools 捕获 API 接口,用 requests 直接请求数据(更高效)。

本文将详细介绍 Python + Chrome 如何抓取 AJAX 动态数据,并提供两种方法的完整实现代码。

1. 理解 AJAX 动态加载

1.1 AJAX 工作原理

  • 用户访问网页 → 浏览器加载初始 HTML。
  • JavaScript 发起 AJAX 请求(通常是 fetch XMLHttpRequest)。
  • 服务器返回 JSON/XML 数据 → 前端动态渲染到页面。

1.2 传统爬虫的问题

import requests
from bs4 import BeautifulSoup
response = requests.get("https://example.com")
soup = BeautifulSoup(response.text, "html.parser")
# 只能获取初始 HTML,无法得到 AJAX 数据!

2. 方法 1:使用 Selenium + Chrome 模拟浏览器

2.1 环境准备

安装必要的库

2.2 示例:爬取动态加载的新闻列表

假设目标网站(如新浪新闻)通过 AJAX 加载更多新闻。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
import time
# 设置代理信息
proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"
# 配置 Chrome 代理
chrome_options = Options()
chrome_options.add_argument(f"--proxy-server=http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}")
# 启动 Chrome
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=chrome_options)
driver.get("https://news.sina.com.cn/")
# 等待 AJAX 内容加载(假设新闻列表通过 AJAX 渲染)
try:
    WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, ".news-item"))
    )
except:
    print("超时,未找到新闻列表")
# 提取新闻标题和链接
news_items = driver.find_elements(By.CSS_SELECTOR, ".news-item")
for item in news_items:
    title = item.find_element(By.CSS_SELECTOR, "a").text
    link = item.find_element(By.CSS_SELECTOR, "a").get_attribute("href")
    print(f"标题: {title}\n链接: {link}\n")
# 关闭浏览器
driver.quit()

2.3 关键点说明

  • WebDriverWait:显式等待 AJAX 数据渲染完成。
  • EC.presence_of_element_located:检查目标元素是否已加载。
  • find_elements + CSS/XPath:定位动态生成的内容。

3. 方法 2:直接抓取 AJAX API 数据(更高效)

3.1 分析 AJAX 请求

  1. 打开 Chrome → F12(开发者工具) Network(网络) 标签页。
  2. 刷新页面,筛选 XHR/fetch 请求。
  3. 找到返回目标数据的 API 接口(通常是 json 格式)。

3.2 示例:爬取豆瓣电影 AJAX 数据

豆瓣电影首页通过 AJAX 加载热门电影列表。

步骤 1:分析 API

步骤 2:用 Python 直接请求 API

import requests
import json
# 豆瓣电影 AJAX API
url = "https://movie.douban.com/j/search_subjects?type=movie&tag=热门&sort=recommend&page_limit=20&page_start=0"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}
response = requests.get(url, headers=headers)
data = response.json()  # 直接解析 JSON
# 提取电影信息
for movie in data["subjects"]:
    print(f"电影名: {movie['title']}")
    print(f"评分: {movie['rate']}")
    print(f"链接: {movie['url']}\n")

3.3 优势与限制

  • 优势:速度快,无需加载完整页面。
  • 限制:需手动分析 API,部分接口可能有加密或鉴权。

7. 总结

方法

适用场景

优点

缺点

Selenium

复杂动态渲染页面

能模拟完整浏览器行为

速度慢,资源占用高

直接请求 API

结构化数据(如 JSON)

高效,速度快

需手动分析接口,可能受限

最佳实践建议

  1. 优先分析 AJAX API:如果目标网站有清晰的接口,直接请求更高效。
  2. Selenium 备用:适用于无法直接获取 API 或需要交互的页面。
  3. 遵守 Robots.txt:避免高频请求,防止被封禁。
相关文章
|
6月前
|
数据采集 Web App开发 数据可视化
Python零基础爬取东方财富网股票行情数据指南
东方财富网数据稳定、反爬宽松,适合爬虫入门。本文详解使用Python抓取股票行情数据,涵盖请求发送、HTML解析、动态加载处理、代理IP切换及数据可视化,助你快速掌握金融数据爬取技能。
3878 1
|
6月前
|
Java 数据挖掘 数据处理
(Pandas)Python做数据处理必选框架之一!(一):介绍Pandas中的两个数据结构;刨析Series:如何访问数据;数据去重、取众数、总和、标准差、方差、平均值等;判断缺失值、获取索引...
Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。 Pandas 是数据科学和分析领域中常用的工具之一,它使得用户能够轻松地从各种数据源中导入数据,并对数据进行高效的操作和分析。 Pandas 主要引入了两种新的数据结构:Series 和 DataFrame。
646 0
|
6月前
|
JSON 算法 API
Python采集淘宝商品评论API接口及JSON数据返回全程指南
Python采集淘宝商品评论API接口及JSON数据返回全程指南
N..
|
XML JSON 前端开发
jQuery实现Ajax
jQuery实现Ajax
N..
222 1
|
XML 前端开发 JavaScript
jQuery中ajax如何使用
jQuery中ajax如何使用
284 0
|
JSON 前端开发 Java
利用Spring Boot处理JSON数据实战(包括jQuery,html,ajax)附源码 超详细
利用Spring Boot处理JSON数据实战(包括jQuery,html,ajax)附源码 超详细
674 0
|
敏捷开发 JavaScript 前端开发
❤❤❤【Vue.js最新版】sd.js基于jQuery Ajax最新原生完整版for凯哥API版本❤❤❤
❤❤❤【Vue.js最新版】sd.js基于jQuery Ajax最新原生完整版for凯哥API版本❤❤❤
|
前端开发 JavaScript
杨校老师课堂之基于Servlet整合JQuery中的Ajax进行表单提交[基于IDEA]
杨校老师课堂之基于Servlet整合JQuery中的Ajax进行表单提交[基于IDEA]
243 0
杨校老师课堂之基于Servlet整合JQuery中的Ajax进行表单提交[基于IDEA]
|
JavaScript 前端开发 安全
安全开发-JS应用&原生开发&JQuery库&Ajax技术&加密编码库&断点调试&逆向分析&元素属性操作
安全开发-JS应用&原生开发&JQuery库&Ajax技术&加密编码库&断点调试&逆向分析&元素属性操作
266 5
|
XML JSON 前端开发
AJAX是什么?原生语法格式?jQuery提供分装好的AJAX有什么区别?
AJAX是什么?原生语法格式?jQuery提供分装好的AJAX有什么区别?
206 0

推荐镜像

更多
下一篇
开通oss服务