自动化工具 Selenium 的使用

2024-04-18 101

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 自动化工具 Selenium 的使用

前言

Selenium 是一个开源的自动化测试工具，支持各种浏览器，并且可以模拟用户对浏览器的各种操作。Selenium 可以用来模拟人类用户的点击、输入等行为，从而实现自动化爬取网页的目的。

Selenium 的基本使用

在使用 Selenium 之前，需要先安装 Selenium 库和对应的浏览器驱动。Selenium 可以支持多种浏览器，每种浏览器需要下载对应的浏览器驱动。安装方法可以参考官方文档：https://www.selenium.dev/documentation/en/getting_started_with_webdriver/browsers/

（1）使用 Selenium 打开网页

下面是使用 Selenium 打开百度首页的代码：

from selenium import webdriver
 
# 打开浏览器
browser = webdriver.Chrome()
 
# 打开百度首页
url = 'https://www.baidu.com/'
browser.get(url)
 
# 关闭浏览器
browser.quit()

其中，webdriver.Chrome() 表示使用 Chrome 浏览器，如果要使用其他浏览器，则需要更改这里的代码。browser.get(url) 表示打开网页。最后使用 browser.quit() 关闭浏览器。

（2）使用 Selenium 模拟登录

下面是使用 Selenium 模拟登录知乎的代码：

from selenium import webdriver
 
username = 'your_username'
password = 'your_password'
 
# 打开浏览器
browser = webdriver.Chrome()
 
# 打开知乎登录页面
url = 'https://www.zhihu.com/signin'
browser.get(url)
 
# 输入用户名和密码
input_name = browser.find_element_by_xpath('//*[@id="root"]/div/main/div/div/div/div[1]/div[2]/div/form/div[1]/div[2]/div[1]/input')
input_name.send_keys(username)
input_password = browser.find_element_by_xpath('//*[@id="root"]/div/main/div/div/div/div[1]/div[2]/div/form/div[1]/div[2]/div[2]/input')
input_password.send_keys(password)
 
# 点击登录按钮
btn_submit = browser.find_element_by_xpath('//*[@id="root"]/div/main/div/div/div/div[1]/div[2]/div/form/button')
btn_submit.click()
 
# 关闭浏览器
browser.quit()

其中，find_element_by_xpath() 方法可以根据 XPath 获取元素，send_keys() 方法可以输入文本，click() 方法可以模拟点击。这里只是一个简单的示例，实际网站可能需要更复杂的操作。

（3）使用 Selenium 模拟翻页

下面是使用 Selenium 模拟翻页豆瓣电影 TOP250 的代码：

from selenium import webdriver
 
# 打开浏览器
browser = webdriver.Chrome()
 
# 打开豆瓣电影 TOP250
url = 'https://movie.douban.com/top250'
browser.get(url)
 
# 获取下一页按钮
btn_next = browser.find_element_by_xpath('//*[@id="content"]/div/div[1]/div[2]/a[3]')
 
# 翻页
while True:
    # 获取所有电影信息
    movies = browser.find_elements_by_xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]')
 
    # 输出电影名称
    for movie in movies:
        print(movie.text)
 
    # 判断是否到达最后一页
    if btn_next.get_attribute('class') == 'next':
        btn_next.click()
    else:
        break
 
# 关闭浏览器
browser.quit()

其中，find_elements_by_xpath() 方法可以获取多个元素，get_attribute() 方法可以获取元素的属性。这里使用了一个 while 循环来不断翻页，直到到达最后一页为止。

Selenium 的进阶使用

除了基本使用外，Selenium 还有一些进阶的用法，例如使用 Chrome 开发者模式、添加代理、使用无头浏览器等。

（1）使用 Chrome 开发者模式

Chrome 开发者模式可以让开发者更方便地进行调试和测试，其中就包括了 Selenium 的自动化测试。使用 Chrome 开发者模式可以更直接地获取元素的 XPath 或 CSS Selector 等信息，以便 Selenium 使用。

使用方式如下：

from selenium import webdriver
 
# 打开 Chrome 开发者模式
options = webdriver.ChromeOptions()
options.add_experimental_option('debuggerAddress', '127.0.0.1:9222')
browser = webdriver.Chrome(options=options)
 
# 获取页面元素
# ...
 
# 关闭浏览器
browser.quit()

其中，'debuggerAddress': '127.0.0.1:9222' 表示使用 Chrome 开发者模式，9222 是 Chrome 调试的端口号。使用 Chrome 开发者模式后，浏览器会自动打开并进入调试模式，此时可以直接在浏览器中操作获取元素的 XPath 或 CSS Selector 等信息。

（2）添加代理

Selenium 可以方便地使用代理，只需要在 ChromeOptions 中设置即可。

使用方式如下：

from selenium import webdriver
 
proxy = '127.0.0.1:8080'
 
# 设置代理
options = webdriver.ChromeOptions()
options.add_argument('--proxy-server=http://' + proxy)
browser = webdriver.Chrome(options=options)
 
# 获取页面元素
# ...
 
# 关闭浏览器
browser.quit()

其中，'--proxy-server=http://' + proxy 表示设置代理服务器的地址和端口号，此处的 proxy 可以是一个 IP 地址或者域名。

（3）使用无头浏览器

在开发中，有时候不需要真正地打开浏览器，只需要获取网页源码即可。这时候可以使用无头浏览器，它可以在后台执行并获取网页源码，不会弹出浏览器窗口。

使用方式如下：

from selenium import webdriver
 
# 使用无头浏览器
options = webdriver.ChromeOptions()
options.add_argument('--headless')
options.add_argument('--disable-gpu')
browser = webdriver.Chrome(options=options)
 
# 获取页面源码
url = 'https://www.baidu.com/'
browser.get(url)
page_source = browser.page_source
 
# 关闭浏览器
browser.quit()

其中，'--headless' 表示使用无头浏览器，'--disable-gpu' 表示禁用 GPU 加速。使用无头浏览器后，需要使用 browser.page_source 属性获取页面源码。

总结

以上就是 Selenium 的基本使用和进阶用法，Selenium 可以方便地模拟用户行为，实现自动化爬取网页的目的。当然，使用 Selenium 也有一些缺点，例如速度较慢、需要占用较多的系统资源等，使用时需要注意。

自动化工具 Selenium 的使用

前言

Selenium 的基本使用

Selenium 的进阶使用

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

自动化工具 Selenium 的使用

前言

Selenium 的基本使用

Selenium 的进阶使用

热门文章

最新文章

相关课程

相关电子书

相关实验场景