如何使用Selenium Python爬取动态表格中的多语言和编码格式-阿里云开发者社区

如何使用Selenium Python爬取动态表格中的多语言和编码格式

2023-08-02 215 发布于四川

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Selenium是一个用于自动化Web浏览器的工具，它可以模拟用户的操作，如点击、输入、滚动等。Selenium也可以用于爬取网页中的数据，特别是对于那些动态生成的内容，如表格、图表、下拉菜单等。本文将介绍如何使用Selenium Python爬取一个动态表格中的多语言和编码格式的数据，并将其保存为CSV文件。

亿牛云代理.jpeg

正文

Selenium是一个用于自动化Web浏览器的工具，它可以模拟用户的操作，如点击、输入、滚动等。Selenium也可以用于爬取网页中的数据，特别是对于那些动态生成的内容，如表格、图表、下拉菜单等。本文将介绍如何使用Selenium Python爬取一个动态表格中的多语言和编码格式的数据，并将其保存为CSV文件。

特点

Selenium可以处理JavaScript渲染的网页，而不需要额外的库或工具。
Selenium可以支持多种浏览器，如Chrome、Firefox、Edge等，只需要安装相应的驱动程序。
Selenium可以模拟用户的交互行为，如点击、滑动、拖拽等，以获取更多的数据或触发事件。
Selenium可以使用XPath、CSS选择器等定位元素，以提取所需的数据。
Selenium可以处理多语言和编码格式的数据，如中文、日文、UTF-8等，只需要设置相应的参数。

案例

假设我们要爬取一个网站上的一个动态表格，该表格显示了不同国家和地区的人口数据

表格是动态生成的，每隔一段时间就会更新数据。
表格有分页功能，每页显示10行数据，共有5页。
表格有多语言选项，可以切换显示英文或中文。
表格有编码格式选项，可以切换显示UTF-8或GBK。

我们的目标是爬取该表格中所有的数据，并将其保存为CSV文件，同时保留多语言和编码格式的信息。
为了实现这个目标，我们需要以下步骤：

导入所需的库和模块，如selenium、csv、time等。
创建一个webdriver对象，指定使用firefox浏览器，并设置代理服务器和验证信息。
打开目标网址，并等待页面加载完成。
定位表格元素，并获取表头和表体的数据。
循环点击分页按钮，并获取每一页的数据。
切换语言选项，并重复步骤4和5。
切换编码格式选项，并重复步骤4和5。
将所有数据保存为CSV文件，并关闭浏览器。

代码

下面是根据上述步骤实现的代码：

# 导入所需的库和模块
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import csv
import time

# 创建一个webdriver对象，指定使用firefox浏览器，并设置代理服务器和验证信息
# 亿牛云 爬虫代理加强版 
proxyHost = "www.16yun.cn"
proxyPort = "3111"
proxyUser = "16YUN"
proxyPass = "16IP"

profile = webdriver.FirefoxProfile()
profile.set_preference("network.proxy.type", 1)
profile.set_preference("network.proxy.http", proxyHost)
profile.set_preference("network.proxy.http_port", int(proxyPort))
profile.set_preference("network.proxy.ssl", proxyHost)
profile.set_preference("network.proxy.ssl_port", int(proxyPort))
profile.set_preference("network.proxy.no_proxies_on", "localhost, 127.0.0.1")
profile.update_preferences()
driver = webdriver.Firefox(firefox_profile=profile)

# 打开目标网址，并等待页面加载完成
url = "https://example.com/population-table"
driver.get(url)
wait = WebDriverWait(driver, 10)
wait.until(EC.presence_of_element_located((By.ID, "table")))

# 定义一个函数，用于获取表格中的数据
def get_table_data():
    # 定位表格元素，并获取表头和表体的数据
    table = driver.find_element_by_id("table")
    header = table.find_element_by_tag_name("thead")
    header_data = [item.text for item in header.find_elements_by_tag_name("th")]
    body = table.find_element_by_tag_name("tbody")
    body_data = []
    rows = body.find_elements_by_tag_name("tr")
    for row in rows:
        cols = row.find_elements_by_tag_name("td")
        cols_data = [item.text for item in cols]
        body_data.append(cols_data)
    # 返回表头和表体的数据
    return header_data, body_data

# 定义一个列表，用于存储所有的数据
all_data = []

# 循环点击分页按钮，并获取每一页的数据
pages = driver.find_elements_by_class_name("page-item")
for page in pages:
    page.click()
    time.sleep(1)
    header_data, body_data = get_table_data()
    all_data.extend(body_data)

# 切换语言选项，并重复步骤4和5
language = driver.find_element_by_id("language")
language.click()
time.sleep(1)
pages = driver.find_elements_by_class_name("page-item")
for page in pages:
    page.click()
    time.sleep(1)
    header_data, body_data = get_table_data()
    all_data.extend(body_data)

# 切换编码格式选项，并重复步骤4和5
encoding = driver.find_element_by_id("encoding")
encoding.click()
time.sleep(1)
pages = driver.find_elements_by_class_name("page-item")
for page in pages:
    page.click()
    time.sleep(1)
    header_data, body_data = get_table_data()
    all_data.extend(body_data)

# 将所有数据保存为CSV文件，并关闭浏览器
with open("population.csv", "w", newline="", encoding="utf-8") as f:
    writer = csv.writer(f)
    writer.writerow(header_data)
    writer.writerows(all_data)
driver.quit()

        
          
        
        
        
          
          AI 代码解读

代码说明

第1行到第8行，导入所需的库和模块，如selenium、csv、time等。
第10行到第24行，创建一个webdriver对象，指定使用firefox浏览器，并设置代理服务器和验证信息，这是为了防止被目标网站屏蔽或限制访问。
第26行到第29行，打开目标网址，并等待页面加载完成，这是为了确保表格元素已经出现在页面上。
第31行到第44行，定义一个函数，用于获取表格中的数据，该函数接受无参数，返回两个列表，分别是表头和表体的数据。函数内部使用XPath定位表格元素，并使用列表推导式提取每个单元格的文本内容。
第46行，定义一个列表，用于存储所有的数据，该列表将包含多语言和编码格式的数据。
第48行到第53行，循环点击分页按钮，并获取每一页的数据，这是为了爬取表格中所有的数据。使用find_elements_by_class_name方法定位分页按钮，并使用click方法模拟点击。每次点击后，使用time.sleep方法等待1秒，以确保页面更新完成。然后调用get_table_data函数获取当前页面的数据，并使用extend方法将其添加到all_data列表中。
第55行到第61行，切换语言选项，并重复步骤4和5，这是为了爬取表格中不同语言的数据。使用find_element_by_id方法定位语言选项，并使用click方法模拟点击。每次点击后，使用time.sleep方法等待1秒，以确保页面更新完成。然后重复步骤4和5的操作。
第63行到第69行，切换编码格式选项，并重复步骤4和5，这是为了爬取表格中不同编码格式的数据。使用find_element_by_id方法定位编码格式选项，并使用click方法模拟点击。
结语
本文介绍了如何使用Selenium Python爬取一个动态表格中的多语言和编码格式的数据，并将其保存为CSV文件。通过使用Selenium，我们可以处理JavaScript渲染的网页，支持多种浏览器，模拟用户的交互行为，定位元素，提取数据，处理多语言和编码格式等。Selenium是一个强大而灵活的工具，可以用于各种Web爬虫的场景。希望本文对你有所帮助和启发。

如何使用Selenium Python爬取动态表格中的多语言和编码格式

正文

特点

案例

代码

代码说明

结语

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

如何使用Selenium Python爬取动态表格中的多语言和编码格式

正文

特点

案例

代码

代码说明

结语

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像