如何使用Selenium Python爬取多个分页的动态表格并进行数据整合和分析

简介: 在网络爬虫的领域中,动态表格是一种常见的数据展示形式,它可以显示大量的结构化数据,并提供分页、排序、筛选等功能。动态表格的数据通常是通过JavaScript或Ajax动态加载的,这给爬虫带来了一定的挑战。本文将介绍如何使用Selenium Python这一强大的自动化测试工具来爬取多个分页的动态表格,并进行数据整合和分析。

亿牛云代理.png

导语

在网络爬虫的领域中,动态表格是一种常见的数据展示形式,它可以显示大量的结构化数据,并提供分页、排序、筛选等功能。动态表格的数据通常是通过JavaScript或Ajax动态加载的,这给爬虫带来了一定的挑战。本文将介绍如何使用Selenium Python这一强大的自动化测试工具来爬取多个分页的动态表格,并进行数据整合和分析。

正文

Selenium Python简介

Selenium是一个开源的自动化测试框架,它可以模拟用户在浏览器中的操作,如点击、输入、滚动等,从而实现对网页的自动化测试或爬取。Selenium支持多种编程语言,如Java、Python、Ruby等,其中Python是最受欢迎的一种,因为它简洁、易用、灵活。Selenium Python提供了一个WebDriver API,它可以让我们通过Python代码控制不同的浏览器驱动,如Chrome、Firefox、Edge等,从而实现对不同网站和平台的爬取。

动态表格爬取步骤

要爬取多个分页的动态表格,我们需要遵循以下几个步骤:

  1. 找到目标网站和目标表格。我们需要确定我们要爬取的网站和表格的URL,并用Selenium Python打开它们。
  2. 定位表格元素和分页元素。我们需要用Selenium Python提供的各种定位方法,如find_element_by_id、find_element_by_xpath等,来找到表格元素和分页元素,并获取它们的属性和文本。
  3. 爬取表格数据和翻页操作。我们需要用Selenium Python提供的各种操作方法,如click、send_keys等,来模拟用户在表格中翻页,并用BeautifulSoup等库来解析表格数据,并存储到列表或字典中。
  4. 数据整合和分析。我们需要用Pandas等库来对爬取到的数据进行整合和分析,并用Matplotlib等库来进行数据可视化和展示。

动态表格爬取特点

爬取多个分页的动态表格有以下几个特点:

  • 需要处理动态加载和异步请求。动态表格的数据通常是通过JavaScript或Ajax动态加载的,这意味着我们需要等待页面完全加载后才能获取到数据,或者使用Selenium Python提供的显式等待或隐式等待方法来设置超时时间。
  • 需要处理分页逻辑和翻页规则。动态表格通常有多个分页,每个分页有不同数量的数据,我们需要根据分页元素来判断当前所在的分页,并根据翻页规则来选择下一个分页。有些网站可能使用数字按钮来表示分页,有些网站可能使用上一页和下一页按钮来表示分页,有些网站可能使用省略号或更多按钮来表示分页,我们需要根据不同情况来选择合适的翻页方法。
  • 需要处理异常情况和错误处理。在爬取过程中,可能会遇到各种异常情况和错误,如网络中断、页面跳转、元素丢失等,我们需要用Selenium Python提供的异常处理方法来捕获和处理这些异常,并设置重试机制和日志记录。

案例

为了具体说明如何使用Selenium Python爬取多个分页的动态表格并进行数据整合和分析,我们以一个实际的案例为例,爬取Selenium Easy网站上的一个表格示例,并对爬取到的数据进行简单的统计和绘图。

网站和表格介绍

Selenium Easy是一个提供Selenium教程和示例的网站,它有一个表格演示页面,展示了一个有分页功能的动态表格,这个表格有15条记录,每个分页有5条记录,共有3个分页。每条记录包含了一个人的姓名、职位、办公室、年龄、入职日期和月薪。我们的目标是爬取这个表格中的所有数据,并对不同办公室的人数和月薪进行统计和绘图。

代码实现

为了实现这个目标,我们需要用到以下几个库:

  • selenium:用于控制浏览器驱动和模拟用户操作
  • requests:用于发送HTTP请求和获取响应
  • BeautifulSoup:用于解析HTML文档和提取数据
  • pandas:用于处理数据结构和分析
  • matplotlib:用于绘制数据图表

首先,我们需要导入这些库,并设置一些全局变量,如浏览器驱动路径、目标网站URL、代理服务器信息等:

# 导入库
import requests
from selenium import webdriver
from bs4 import BeautifulSoup
import pandas as pd
import matplotlib.pyplot as plt

# 设置浏览器驱动路径
driver_path = r'/Users/weaabduljamac/Downloads/chromedriver'

# 设置目标网站URL
url = 'https://demo.seleniumeasy.com/table-pagination-demo.html'

# 亿牛云 爬虫代理加强版 设置代理服务器信息
proxyHost = "www.16yun.cn"
proxyPort = "3111"
proxyUser = "16YUN"
proxyPass = "16IP"

接下来,我们需要创建一个浏览器驱动对象,并设置代理服务器参数,然后打开目标网站:

# 创建浏览器驱动对象
driver = webdriver.Chrome(driver_path)

# 设置代理服务器参数
options = webdriver.ChromeOptions()
options.add_argument(f'--proxy-server=http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}')

# 打开目标网站
driver.get(url)

然后,我们需要定位表格元素和分页元素,并获取它们的属性和文本:

# 定位表格元素
table = driver.find_element_by_xpath('//*[@id="myTable"]')

# 定位分页元素
pagination = driver.find_element_by_xpath('//*[@id="myPager"]')

# 获取分页元素的文本
pagination_text = pagination.text

# 获取分页元素的链接列表
pagination_links = pagination.find_elements_by_tag_name('a')

接着,我们需要创建一个空列表来存储爬取到的数据,并创建一个循环来遍历每个分页,并爬取每个分页中的表格数据:

# 创建一个空列表来存储爬取到的数据
data = []

# 创建一个循环来遍历每个分页
for i in range(len(pagination_links)):
    # 获取当前分页元素的文本
    current_page_text = pagination_links[i].text

    # 判断当前分页元素是否是数字按钮或更多按钮(省略号)
    if current_page_text.isdigit() or current_page_text == '...':
        # 点击当前分页元素
        pagination_links[i].click()

        # 等待页面加载完成(可以使用显式等待或隐式等待方法来优化)
        driver.implicitly_wait(10)

        # 重新定位表格元素(因为页面刷新后原来的元素可能失效)
        table = driver.find_element_by_xpath('//*[@id="myTable"]')
        # 解析表格元素的HTML文档
        soup = BeautifulSoup(table.get_attribute('innerHTML'), 'html.parser')

        # 提取表格元素中的每一行数据
        rows = soup.find_all('tr')

        # 遍历每一行数据
        for row in rows:
            # 提取每一行数据中的每一列数据
            cols = row.find_all('td')

             # 判断每一列数据是否为空(因为表头行没有数据)
            if len(cols) > 0:
                # 获取每一列数据的文本
                name = cols[0].text
                position = cols[1].text
                office = cols[2].text
                age = cols[3].text
                start_date = cols[4].text
                salary = cols[5].text

                # 将每一列数据组合成一个字典
                record = {
   
   
                  'name': name,
                  'position': position,
                  'office': office,
                  'age': age,
                  'start_date': start_date,
                  'salary': salary
                 }

                # 将字典添加到列表中
                data.append(record)

     # 判断当前分页元素是否是上一页或下一页按钮
    elif current_page_text == 'Prev' or current_page_text == 'Next':
        # 点击当前分页元素
        pagination_links[i].click()

        # 等待页面加载完成(可以使用显式等待或隐式等待方法来优化)
        driver.implicitly_wait(10)

        # 重新定位分页元素(因为页面刷新后原来的元素可能失效)
        pagination = driver.find_element_by_xpath('//*[@id="myPager"]')

        # 重新获取分页元素的链接列表(因为页面刷新后原来的链接可能变化)
        pagination_links = pagination.find_elements_by_tag_name('a')

最后,我们需要用Pandas等库来对爬取到的数据进行整合和分析,并用Matplotlib等库来进行数据可视化和展示:

# 关闭浏览器驱动对象
driver.quit()

# 将列表转换为Pandas数据框
df = pd.DataFrame(data)

# 查看数据框的基本信息
print(df.info())

# 查看数据框的前五行
print(df.head())

# 对不同办公室的人数进行统计和分组
office_count = df.groupby('office')['name'].count()

# 对不同办公室的月薪进行统计和分组(注意月薪需要去掉货币符号和逗号,并转换为数值类型)
office_salary = df.groupby('office')['salary'].apply(lambda x: x.str.replace('$', '').str.replace(',', '').astype(float).sum())

# 绘制不同办公室的人数和月薪的柱状图
fig, ax = plt.subplots(1, 2, figsize=(12, 6))
office_count.plot.bar(ax=ax[0], title='Number of Employees by Office')
office_salary.plot.bar(ax=ax[1], title='Total Salary by Office')
plt.show()

结语

本文介绍了如何使用Selenium Python爬取多个分页的动态表格,并进行数据整合和分析。通过这个案例,我们可以学习到Selenium Python的基本用法和特点,以及如何处理动态加载和异步请求、分页逻辑和翻页规则、异常情况和错误处理等问题。Selenium Python是一个强大而灵活的自动化测试工具,它可以帮助我们实现对各种网站和平台的爬取,从而获取有价值的数据和信息。希望本文能对你有所帮助和启发,欢迎你继续探索Selenium Python的更多功能和应用。

相关文章
|
9天前
|
数据采集 数据可视化 索引
【python】python股票量化交易策略分析可视化(源码+数据集+论文)【独一无二】
【python】python股票量化交易策略分析可视化(源码+数据集+论文)【独一无二】
|
3天前
|
机器学习/深度学习 数据采集 数据可视化
使用Python实现深度学习模型:智能舆情监测与分析
【8月更文挑战第16天】 使用Python实现深度学习模型:智能舆情监测与分析
18 1
|
7天前
|
Web App开发 数据可视化 Python
Python Selenium获取boss直聘招聘信息
Python Selenium获取boss直聘招聘信息
23 5
Python Selenium获取boss直聘招聘信息
|
7天前
|
Web App开发 自然语言处理 数据可视化
Selenium36万条数据告诉你:网易云音乐热评究竟有什么规律?
Selenium36万条数据告诉你:网易云音乐热评究竟有什么规律?
19 4
Selenium36万条数据告诉你:网易云音乐热评究竟有什么规律?
|
7天前
|
存储 JSON 数据可视化
用Python分析S11决赛EDGvsDK,教你怎么硬核吹EDG
用Python分析S11决赛EDGvsDK,教你怎么硬核吹EDG
21 4
用Python分析S11决赛EDGvsDK,教你怎么硬核吹EDG
|
6天前
|
数据采集 Python
如何用Python Selenium和WebDriver抓取LinkedIn数据并保存登录状态
本文介绍了使用Python Selenium和WebDriver库抓取LinkedIn数据的方法。首先,安装Selenium库和对应的WebDriver,然后配置爬虫代理IP以避免频繁请求被检测。接下来,设置user-agent和cookies以模拟真实用户行为,实现登录并保持状态。登录后,使用WebDriver抓取目标页面数据,如用户名、年龄、性别和简历信息。最后,强调了优化代码、处理异常和遵守使用条款的重要性,以提高效率并避免账号被封禁。
如何用Python Selenium和WebDriver抓取LinkedIn数据并保存登录状态
|
4天前
|
Web App开发 数据采集 测试技术
五分钟轻松掌握 Python 自动化测试 Selenium
本文主要介绍了 Selenium 相关内容,主要涉及 Selenium 知识面,从开始的 Python 小案例,到后面的 API 全面了解,以及 Selenium 的常用功能,到最后的 XPATH 以及爬虫的认知。这些内容已经能够全面,且具有实践性。
|
6天前
|
编解码 算法 Linux
Linux平台下RTSP|RTMP播放器如何跟python交互投递RGB数据供视觉算法分析
在对接Linux平台的RTSP播放模块时,需将播放数据同时提供给Python进行视觉算法分析。技术实现上,可在播放时通过回调函数获取视频帧数据,并以RGB32格式输出。利用`SetVideoFrameCallBackV2`接口设定缩放后的视频帧回调,以满足算法所需的分辨率。回调函数中,每收到一帧数据即保存为bitmap文件。Python端只需读取指定文件夹中的bitmap文件,即可进行视频数据的分析处理。此方案简单有效,但应注意控制输出的bitmap文件数量以避免内存占用过高。
|
8天前
|
数据采集 数据可视化 Python
【python】python猫眼电影数据抓取分析可视化(源码+数据集+论文)【独一无二】
【python】python猫眼电影数据抓取分析可视化(源码+数据集+论文)【独一无二】
|
9天前
|
机器学习/深度学习 数据采集 算法
【python】python基于微博互动数据的用户类型预测(随机森林与支持向量机的比较分析)(源码+数据集+课程论文)【独一无二】
【python】python基于微博互动数据的用户类型预测(随机森林与支持向量机的比较分析)(源码+数据集+课程论文)【独一无二】