Python爬虫如何获取JavaScript动态渲染后的网页内容?

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,1000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: Python爬虫如何获取JavaScript动态渲染后的网页内容?

QQ图片20250512155048.jpg

  1. 引言
    在现代Web开发中,许多网站采用JavaScript动态渲染技术(如React、Vue、Angular等框架)来加载数据,传统的HTTP请求(如Python的requests库)只能获取初始HTML,而无法捕获JS执行后的内容。因此,爬取这类动态网页需要模拟浏览器行为,等待JavaScript执行完成后再提取数据。
    本文将介绍几种主流方法,包括:
    ● Selenium(自动化浏览器操作)
    ● Playwright(新一代浏览器自动化工具)
    ● Pyppeteer(Python版Puppeteer)
    ● Requests-HTML(轻量级HTML解析库)
    并提供详细的代码实现,帮助开发者高效抓取动态渲染的网页内容。
    方法1:使用Selenium获取动态内容
    Selenium是一个自动化测试工具,可控制浏览器(如Chrome、Firefox)加载完整页面。
    示例代码
    from selenium import webdriver
    from selenium.webdriver.chrome.service import Service
    from selenium.webdriver.chrome.options import Options
    from selenium.webdriver.common.by import By
    import time

配置Chrome无头模式

chrome_options = Options()
chrome_options.add_argument("--headless") # 无界面运行
chrome_options.add_argument("--disable-gpu")

指定ChromeDriver路径

service = Service(executable_path="/path/to/chromedriver")
driver = webdriver.Chrome(service=service, options=chrome_options)

访问目标网页

url = "https://example.com"
driver.get(url)

等待JS执行(可替换为显式等待)

time.sleep(3) # 简单等待,实际建议使用WebDriverWait

获取渲染后的HTML

rendered_html = driver.page_source
print(rendered_html) # 包含JS动态加载的内容

提取特定元素

element = driver.find_element(By.CSS_SELECTOR, "div.dynamic-content")
print(element.text)

关闭浏览器

driver.quit()
优缺点
● 优点:支持所有主流浏览器,适合复杂交互(如点击、滚动)。
● 缺点:速度较慢,占用资源多。
方法2:使用Playwright(推荐)
Playwright是微软推出的新一代浏览器自动化工具,比Selenium更快且更稳定。
示例代码
from playwright.sync_api import sync_playwright

代理配置

proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"

with sync_playwright() as p:

# 启动Chromium浏览器并配置代理
browser = p.chromium.launch(
    headless=True,  # 无头模式
    proxy={
        "server": f"http://{proxyHost}:{proxyPort}",
        "username": proxyUser,
        "password": proxyPass,
    }
)

# 创建新页面
page = browser.new_page()

try:
    # 访问网页并等待加载
    page.goto("https://example.com", timeout=10000)  # 增加超时设置
    page.wait_for_selector("div.dynamic-content")  # 等待目标元素出现

    # 获取渲染后的HTML
    rendered_html = page.content()
    print(rendered_html)

    # 提取数据
    element = page.query_selector("div.dynamic-content")
    if element:
        print(element.inner_text())
    else:
        print("目标元素未找到")

except Exception as e:
    print(f"发生错误: {e}")

finally:
    # 确保浏览器关闭
    browser.close()

优缺点
● 优点:速度快,支持多浏览器(Chromium、Firefox、WebKit),API更现代化。
● 缺点:较新,社区资源略少于Selenium。
方法3:使用Pyppeteer(Python版Puppeteer)
Pyppeteer是基于Chrome DevTools Protocol的Python库,适合高效抓取动态内容。
示例代码
import asyncio
from pyppeteer import launch

async def fetch_rendered_html():

# 启动浏览器
browser = await launch(headless=True)
page = await browser.newPage()

# 访问网页
await page.goto("https://example.com")
await page.waitForSelector("div.dynamic-content")  # 等待元素加载

# 获取HTML
rendered_html = await page.content()
print(rendered_html)

# 提取数据
element = await page.querySelector("div.dynamic-content")
text = await page.evaluate("(element) => element.textContent", element)
print(text)

# 关闭浏览器
await browser.close()

运行异步任务

asyncio.get_event_loop().run_until_complete(fetch_rendered_html())
优缺点
● 优点:轻量级,直接控制Chrome,适合高性能爬取。
● 缺点:仅支持Chromium,异步编程可能增加复杂度。
方法4:使用Requests-HTML(轻量级方案)
Requests-HTML结合了requests和pyppeteer,适合简单动态页面。
示例代码
from requests_html import HTMLSession

session = HTMLSession()
url = "https://example.com"

渲染JS

response = session.get(url)
response.html.render(timeout=20) # 等待JS执行

获取渲染后的HTML

rendered_html = response.html.html
print(rendered_html)

提取数据

element = response.html.find("div.dynamic-content", first=True)
print(element.text)
优缺点
● 优点:API简单,适合小型爬虫。
● 缺点:功能有限,不适合复杂页面。
总结与选择建议
方法 适用场景 速度 复杂度
Selenium 需要兼容多种浏览器 慢 中等
Playwright 高性能、现代浏览器自动化 快 低
Pyppeteer 直接控制Chrome 快 中高
Requests-HTML 轻量级动态渲染 中 低
推荐选择:
● 优先使用 Playwright(速度快,API友好)。
● 如果需要兼容旧项目,可选择 Selenium。
● 小型爬虫可尝试 Requests-HTML。
结语
本文介绍了4种Python爬取JavaScript动态渲染内容的方法,并提供了完整代码示例。动态网页抓取的关键在于模拟浏览器行为,开发者可根据需求选择合适方案。未来,随着前端技术的发展,爬虫可能需要更智能的反反爬策略(如模拟用户行为、破解加密API等)。

相关文章
|
13天前
|
数据采集 Web App开发 前端开发
处理动态Token:Python爬虫应对AJAX授权请求的策略
处理动态Token:Python爬虫应对AJAX授权请求的策略
|
13天前
|
JavaScript 前端开发 安全
【逆向】Python 调用 JS 代码实战:使用 pyexecjs 与 Node.js 无缝衔接
本文介绍了如何使用 Python 的轻量级库 `pyexecjs` 调用 JavaScript 代码,并结合 Node.js 实现完整的执行流程。内容涵盖环境搭建、基本使用、常见问题解决方案及爬虫逆向分析中的实战技巧,帮助开发者在 Python 中高效处理 JS 逻辑。
|
13天前
|
数据采集 网络协议 API
协程+连接池:高并发Python爬虫的底层优化逻辑
协程+连接池:高并发Python爬虫的底层优化逻辑
|
2月前
|
数据采集 存储 JSON
地区电影市场分析:用Python爬虫抓取猫眼/灯塔专业版各地区票房
地区电影市场分析:用Python爬虫抓取猫眼/灯塔专业版各地区票房
|
22天前
|
数据采集 存储 Web App开发
处理Cookie和Session:让Python爬虫保持连贯的"身份"
处理Cookie和Session:让Python爬虫保持连贯的"身份"
|
24天前
|
数据采集 监控 Shell
无需Python:Shell脚本如何成为你的自动化爬虫引擎?
Shell脚本利用curl/wget发起请求,结合文本处理工具构建轻量级爬虫,支持并行加速、定时任务、增量抓取及分布式部署。通过随机UA、异常重试等优化提升稳定性,适用于日志监控、价格追踪等场景。相比Python,具备启动快、资源占用低的优势,适合嵌入式或老旧服务器环境,复杂任务可结合Python实现混合编程。
|
26天前
|
数据采集 存储 XML
Python爬虫入门(1)
在互联网时代,数据成为宝贵资源,Python凭借简洁语法和丰富库支持,成为编写网络爬虫的首选。本文介绍Python爬虫基础,涵盖请求发送、内容解析、数据存储等核心环节,并提供环境配置及实战示例,助你快速入门并掌握数据抓取技巧。
|
2月前
|
数据采集 存储 数据可视化
Python网络爬虫在环境保护中的应用:污染源监测数据抓取与分析
在环保领域,数据是决策基础,但分散在多个平台,获取困难。Python网络爬虫技术灵活高效,可自动化抓取空气质量、水质、污染源等数据,实现多平台整合、实时更新、结构化存储与异常预警。本文详解爬虫实战应用,涵盖技术选型、代码实现、反爬策略与数据分析,助力环保数据高效利用。
109 0
|
2月前
|
数据采集 Web App开发 JSON
Python爬虫基本原理与HTTP协议详解:从入门到实践
本文介绍了Python爬虫的核心知识,涵盖HTTP协议基础、请求与响应流程、常用库(如requests、BeautifulSoup)、反爬应对策略及实战案例(如爬取豆瓣电影Top250),帮助读者系统掌握数据采集技能。
189 0
|
2月前
|
数据采集 监控 调度
应对频率限制:设计智能延迟的微信读书Python爬虫
应对频率限制:设计智能延迟的微信读书Python爬虫

推荐镜像

更多