利用Selenium和XPath抓取JavaScript动态加载内容的实践案例

本文涉及的产品
云数据库 Tair(兼容Redis),内存型 2GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
简介: 利用Selenium和XPath抓取JavaScript动态加载内容的实践案例

引言
在当今的互联网时代,数据的获取和分析对于商业决策、市场研究以及个人兴趣都至关重要。然而,许多现代网站采用JavaScript动态加载技术来展示内容,这给传统的静态网页抓取方法带来了挑战。本文将通过一个实践案例,详细介绍如何使用Python的Selenium库结合XPath来抓取一个实际网站中由JavaScript动态加载的内容。
环境准备
在开始之前,确保你的开发环境中安装了Python以及以下库:
● selenium:用于自动化Web浏览器交互。
● lxml:用于解析HTML和XML文档。
● beautifulsoup4:提供了一些简单的方法来导航、搜索和修改解析树。
可以通过以下命令安装所需的库:

pip install selenium lxml beautifulsoup4

下载WebDriver
Selenium需要对应浏览器的WebDriver才能控制浏览器。例如,如果你使用的是Chrome浏览器,需要下载ChromeDriver。
实践案例
假设我们要抓取的网站是http://dynamic-content-example.com,该网站使用JavaScript动态加载了一个列表,我们的目标是抓取这个列表中的所有项目。
步骤1:初始化Selenium WebDriver
步骤2:访问目标网站
步骤3:等待页面加载
由于内容是动态加载的,我们需要等待这些内容加载完成。Selenium提供了显式等待(Explicit Wait)的功能来实现这一点。
步骤4:使用XPath抓取数据
一旦页面加载完成,我们就可以使用XPath来定位并抓取我们感兴趣的元素。
步骤5:关闭浏览器
完成数据抓取后,关闭浏览器以释放资源。
代码实现
以下是完整的代码实现,包括了上述所有步骤:

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.proxy import Proxy, ProxyType
from bs4 import BeautifulSoup

proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"

# 创建代理对象
proxy = Proxy()
proxy.proxy_type = ProxyType.MANUAL
proxy.http_proxy = f"{proxyHost}:{proxyPort}"
proxy.ssl_proxy = f"{proxyHost}:{proxyPort}"
proxy.add_to_capabilities({
   "proxyAuthConfig": {
   
    "username": proxyUser,
    "password": proxyPass
}})

# 初始化WebDriver
service = Service(ChromeDriverManager().install())
browser = webdriver.Chrome(service=service, proxy=proxy)

# 访问目标网站
url = 'http://dynamic-content-example.com'
browser.get(url)

# 等待页面加载
wait = WebDriverWait(browser, 10)
wait.until(EC.presence_of_element_located((By.XPATH, '//div[@class="dynamic-list"]')))

# 使用XPath抓取数据
html = browser.page_source
soup = BeautifulSoup(html, 'lxml')
items = soup.select('//div[@class="dynamic-list"]//li')

for item in items:
    print(item.text)

# 关闭浏览器
browser.quit()

结论
通过本文的实践案例,我们展示了如何使用Selenium和XPath来抓取由JavaScript动态加载的网站内容。这种方法虽然强大,但也需要注意合理使用爬虫技术,尊重目标网站的robots.txt规则,避免对网站造成不必要的负担。同时,由于网站结构和技术的不断变化,爬虫策略可能需要定期更新以适应这些变化。

相关文章
|
1月前
|
JavaScript 前端开发 Java
深入理解 JavaScript 中的 Array.find() 方法:原理、性能优势与实用案例详解
Array.find() 是 JavaScript 数组方法中一个非常实用和强大的工具。它不仅提供了简洁的查找操作,还具有性能上的独特优势:返回的引用能够直接影响原数组的数据内容,使得数据更新更加高效。通过各种场景的展示,我们可以看到 Array.find() 在更新、条件查找和嵌套结构查找等场景中的广泛应用。 在实际开发中,掌握 Array.find() 的特性和使用技巧,可以让代码更加简洁高效,特别是在需要直接修改原数据内容的情形。 只有锻炼思维才能可持续地解决问题,只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助,麻烦您点个赞支持一
|
1月前
|
监控 JavaScript 前端开发
MutationObserver详解+案例——深入理解 JavaScript 中的 MutationObserver:原理与实战案例
MutationObserver 是一个非常强大的 API,提供了一种高效、灵活的方式来监听和响应 DOM 变化。它解决了传统 DOM 事件监听器的诸多局限性,通过异步、批量的方式处理 DOM 变化,大大提高了性能和效率。在实际开发中,合理使用 MutationObserver 可以帮助我们更好地控制 DOM 操作,提高代码的健壮性和可维护性。 只有锻炼思维才能可持续地解决问题,只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助,麻烦您点个赞支持一下,还可以收藏起来以备不时之需,有疑问和错误欢迎在评论区指出~
MutationObserver详解+案例——深入理解 JavaScript 中的 MutationObserver:原理与实战案例
|
2月前
|
JavaScript 前端开发 索引
40个JS常用使用技巧案例
大家好,我是V哥。在日常开发中,JS是解决页面交互的利器。V哥总结了40个实用的JS小技巧,涵盖数组操作、对象处理、函数使用等,并附带案例代码和解释。从数组去重到异步函数,这些技巧能显著提升开发效率。先赞再看后评论,腰缠万贯财进门。关注威哥爱编程,全栈开发就你行!
91 16
|
4月前
|
数据采集 Web App开发 JavaScript
如何使用Selenium处理JavaScript动态加载的内容?
如何使用Selenium处理JavaScript动态加载的内容?
|
6月前
|
数据采集 Web App开发 JavaScript
Selenium爬虫技术:如何模拟鼠标悬停抓取动态内容
本文介绍了如何使用Selenium爬虫技术抓取抖音评论,通过模拟鼠标悬停操作和结合代理IP、Cookie及User-Agent设置,有效应对动态内容加载和反爬机制。代码示例展示了具体实现步骤,帮助读者掌握这一实用技能。
384 0
Selenium爬虫技术:如何模拟鼠标悬停抓取动态内容
|
6月前
|
Web App开发 前端开发 JavaScript
JavaScript动态渲染页面爬取——Selenium的使用(一)
JavaScript动态渲染页面爬取——Selenium的使用(一)
239 4
|
6月前
|
Web App开发 数据采集 JavaScript
JavaScript动态渲染页面爬取——Selenium的使用(二)
JavaScript动态渲染页面爬取——Selenium的使用(二)
219 2
|
6月前
|
Web App开发 Java 测试技术
使用selenium+chromedriver+xpath爬取动态加载信息(一)
使用selenium+chromedriver+xpath爬取动态加载信息(一)
153 1
|
7月前
|
Web App开发 JavaScript Java
自动化测试的利剑:Selenium WebDriver入门与实践
【9月更文挑战第21天】在软件开发的海洋中,自动化测试犹如一艘船,帮助开发者们快速航行至质量保证的彼岸。本文将作为你的罗盘,指引你了解和掌握Selenium WebDriver这一强大的自动化测试工具。通过深入浅出的方式,我们将探索Selenium WebDriver的基本概念、安装过程以及编写简单测试脚本的方法。无论你是刚接触自动化测试的新手,还是希望提升测试技能的开发者,这篇文章都将为你提供有价值的指导。
|
6月前
|
Web App开发 Java 测试技术
一、自动化:web自动化。Selenium 入门指南:从安装到实践
一、自动化:web自动化。Selenium 入门指南:从安装到实践
127 0