利用Selenium和XPath抓取JavaScript动态加载内容的实践案例

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云原生内存数据库 Tair,内存型 2GB
简介: 利用Selenium和XPath抓取JavaScript动态加载内容的实践案例

引言
在当今的互联网时代,数据的获取和分析对于商业决策、市场研究以及个人兴趣都至关重要。然而,许多现代网站采用JavaScript动态加载技术来展示内容,这给传统的静态网页抓取方法带来了挑战。本文将通过一个实践案例,详细介绍如何使用Python的Selenium库结合XPath来抓取一个实际网站中由JavaScript动态加载的内容。
环境准备
在开始之前,确保你的开发环境中安装了Python以及以下库:
● selenium:用于自动化Web浏览器交互。
● lxml:用于解析HTML和XML文档。
● beautifulsoup4:提供了一些简单的方法来导航、搜索和修改解析树。
可以通过以下命令安装所需的库:

pip install selenium lxml beautifulsoup4

下载WebDriver
Selenium需要对应浏览器的WebDriver才能控制浏览器。例如,如果你使用的是Chrome浏览器,需要下载ChromeDriver。
实践案例
假设我们要抓取的网站是http://dynamic-content-example.com,该网站使用JavaScript动态加载了一个列表,我们的目标是抓取这个列表中的所有项目。
步骤1:初始化Selenium WebDriver
步骤2:访问目标网站
步骤3:等待页面加载
由于内容是动态加载的,我们需要等待这些内容加载完成。Selenium提供了显式等待(Explicit Wait)的功能来实现这一点。
步骤4:使用XPath抓取数据
一旦页面加载完成,我们就可以使用XPath来定位并抓取我们感兴趣的元素。
步骤5:关闭浏览器
完成数据抓取后,关闭浏览器以释放资源。
代码实现
以下是完整的代码实现,包括了上述所有步骤:

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.proxy import Proxy, ProxyType
from bs4 import BeautifulSoup

proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"

# 创建代理对象
proxy = Proxy()
proxy.proxy_type = ProxyType.MANUAL
proxy.http_proxy = f"{proxyHost}:{proxyPort}"
proxy.ssl_proxy = f"{proxyHost}:{proxyPort}"
proxy.add_to_capabilities({
   "proxyAuthConfig": {
   
    "username": proxyUser,
    "password": proxyPass
}})

# 初始化WebDriver
service = Service(ChromeDriverManager().install())
browser = webdriver.Chrome(service=service, proxy=proxy)

# 访问目标网站
url = 'http://dynamic-content-example.com'
browser.get(url)

# 等待页面加载
wait = WebDriverWait(browser, 10)
wait.until(EC.presence_of_element_located((By.XPATH, '//div[@class="dynamic-list"]')))

# 使用XPath抓取数据
html = browser.page_source
soup = BeautifulSoup(html, 'lxml')
items = soup.select('//div[@class="dynamic-list"]//li')

for item in items:
    print(item.text)

# 关闭浏览器
browser.quit()

结论
通过本文的实践案例,我们展示了如何使用Selenium和XPath来抓取由JavaScript动态加载的网站内容。这种方法虽然强大,但也需要注意合理使用爬虫技术,尊重目标网站的robots.txt规则,避免对网站造成不必要的负担。同时,由于网站结构和技术的不断变化,爬虫策略可能需要定期更新以适应这些变化。

相关文章
|
5天前
|
Web App开发 Java 测试技术
自动化测试的利器:Selenium WebDriver入门与实践
【9月更文挑战第8天】在软件开发的海洋中,测试是确保我们不会溺水的那根救生索。Selenium WebDriver,作为自动化测试的明星工具,让这根救生索更加结实可靠。本文将带你快速上手Selenium WebDriver,从基础设置到实际操作,再到实战演练,让你的开发之旅更加平稳顺畅。
|
1天前
|
Web App开发 数据采集 JavaScript
有JavaScript动态加载的内容如何抓取
有JavaScript动态加载的内容如何抓取
|
1月前
|
数据采集 Python
如何用Python Selenium和WebDriver抓取LinkedIn数据并保存登录状态
本文介绍了使用Python Selenium和WebDriver库抓取LinkedIn数据的方法。首先,安装Selenium库和对应的WebDriver,然后配置爬虫代理IP以避免频繁请求被检测。接下来,设置user-agent和cookies以模拟真实用户行为,实现登录并保持状态。登录后,使用WebDriver抓取目标页面数据,如用户名、年龄、性别和简历信息。最后,强调了优化代码、处理异常和遵守使用条款的重要性,以提高效率并避免账号被封禁。
如何用Python Selenium和WebDriver抓取LinkedIn数据并保存登录状态
|
19天前
|
JavaScript 前端开发 UED
Javaweb之javascript的小案例的详细解析
通过上述步骤,我们得到了一个动态更新的实时时钟,这个简单的JavaScript案例展示了定时器的使用方法,并讲解了如何处理日期和时间。这个案例说明了JavaScript在网页中添加动态内容与交互的能力。对于涉足JavaWeb开发的学习者来说,理解和运用这些基础知识非常重要。
32 11
|
14天前
|
JavaScript 前端开发 API
深入浅出:使用Node.js搭建RESTful API的实践之旅
【8月更文挑战第31天】本文将带你踏上一次Node.js的探险之旅,通过实际动手构建一个RESTful API,我们将探索Node.js的强大功能和灵活性。无论你是初学者还是有一定经验的开发者,这篇文章都将为你提供宝贵的实践经验和深刻的技术洞见。
|
19天前
|
JSON JavaScript 前端开发
JS逆向 AST 抽象语法树解析与实践
JS逆向 AST 抽象语法树解析与实践
18 2
|
25天前
|
存储 缓存 JavaScript
深入Node.js身份验证:策略与实践
【8月更文挑战第20天】
43 4
|
23天前
|
JavaScript 安全 前端开发
Node.js身份验证全攻略:策略与实践,打造坚不可摧的Web应用安全防线!
【8月更文挑战第22天】Node.js作为强大的服务器端JavaScript平台,对于构建高效网络应用至关重要。本文探讨其身份验证策略,涵盖从基于token至复杂的OAuth 2.0及JWT。Passport.js作为认证中间件,支持本地账号验证及第三方服务如Google、Facebook登录。同时介绍JWT轻量级验证机制,确保数据安全传输。开发者可根据应用需求选择合适方案,注重安全性以保护用户数据。
30 1
|
30天前
|
前端开发 JavaScript 开发者
fuse.js前端搜索简单使用的三个案例
通过这三个例子可以看出,Fuse.js 是一个功能丰富、易于实现的前端搜索库。它使开发者能够便捷地实现从基础到高级的搜索功能,无论是简单的列表搜索还是实时的搜索建议,都能够高效、精确地提供给用户所需的信息。
66 0
|
1天前
|
JavaScript 前端开发 测试技术
Selenium2Library实现基于GUI的测试
Selenium2Library实现基于GUI的测试
4 0