自动化工具 Selenium 的使用

简介: 自动化工具 Selenium 的使用

前言


Selenium 是一个开源的自动化测试工具,支持各种浏览器,并且可以模拟用户对浏览器的各种操作。Selenium 可以用来模拟人类用户的点击、输入等行为,从而实现自动化爬取网页的目的。


Selenium 的基本使用


在使用 Selenium 之前,需要先安装 Selenium 库和对应的浏览器驱动。Selenium 可以支持多种浏览器,每种浏览器需要下载对应的浏览器驱动。安装方法可以参考官方文档:https://www.selenium.dev/documentation/en/getting_started_with_webdriver/browsers/


(1)使用 Selenium 打开网页

下面是使用 Selenium 打开百度首页的代码:

from selenium import webdriver
 
# 打开浏览器
browser = webdriver.Chrome()
 
# 打开百度首页
url = 'https://www.baidu.com/'
browser.get(url)
 
# 关闭浏览器
browser.quit()

其中,webdriver.Chrome() 表示使用 Chrome 浏览器,如果要使用其他浏览器,则需要更改这里的代码。browser.get(url) 表示打开网页。最后使用 browser.quit() 关闭浏览器。


(2)使用 Selenium 模拟登录

下面是使用 Selenium 模拟登录知乎的代码:

from selenium import webdriver
 
username = 'your_username'
password = 'your_password'
 
# 打开浏览器
browser = webdriver.Chrome()
 
# 打开知乎登录页面
url = 'https://www.zhihu.com/signin'
browser.get(url)
 
# 输入用户名和密码
input_name = browser.find_element_by_xpath('//*[@id="root"]/div/main/div/div/div/div[1]/div[2]/div/form/div[1]/div[2]/div[1]/input')
input_name.send_keys(username)
input_password = browser.find_element_by_xpath('//*[@id="root"]/div/main/div/div/div/div[1]/div[2]/div/form/div[1]/div[2]/div[2]/input')
input_password.send_keys(password)
 
# 点击登录按钮
btn_submit = browser.find_element_by_xpath('//*[@id="root"]/div/main/div/div/div/div[1]/div[2]/div/form/button')
btn_submit.click()
 
# 关闭浏览器
browser.quit()

其中,find_element_by_xpath() 方法可以根据 XPath 获取元素,send_keys() 方法可以输入文本,click() 方法可以模拟点击。这里只是一个简单的示例,实际网站可能需要更复杂的操作。


(3)使用 Selenium 模拟翻页

下面是使用 Selenium 模拟翻页豆瓣电影 TOP250 的代码:

from selenium import webdriver
 
# 打开浏览器
browser = webdriver.Chrome()
 
# 打开豆瓣电影 TOP250
url = 'https://movie.douban.com/top250'
browser.get(url)
 
# 获取下一页按钮
btn_next = browser.find_element_by_xpath('//*[@id="content"]/div/div[1]/div[2]/a[3]')
 
# 翻页
while True:
    # 获取所有电影信息
    movies = browser.find_elements_by_xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]')
 
    # 输出电影名称
    for movie in movies:
        print(movie.text)
 
    # 判断是否到达最后一页
    if btn_next.get_attribute('class') == 'next':
        btn_next.click()
    else:
        break
 
# 关闭浏览器
browser.quit()

其中,find_elements_by_xpath() 方法可以获取多个元素,get_attribute() 方法可以获取元素的属性。这里使用了一个 while 循环来不断翻页,直到到达最后一页为止。


Selenium 的进阶使用


除了基本使用外,Selenium 还有一些进阶的用法,例如使用 Chrome 开发者模式、添加代理、使用无头浏览器等。


(1)使用 Chrome 开发者模式

Chrome 开发者模式可以让开发者更方便地进行调试和测试,其中就包括了 Selenium 的自动化测试。使用 Chrome 开发者模式可以更直接地获取元素的 XPath 或 CSS Selector 等信息,以便 Selenium 使用。


使用方式如下:

from selenium import webdriver
 
# 打开 Chrome 开发者模式
options = webdriver.ChromeOptions()
options.add_experimental_option('debuggerAddress', '127.0.0.1:9222')
browser = webdriver.Chrome(options=options)
 
# 获取页面元素
# ...
 
# 关闭浏览器
browser.quit()

其中,'debuggerAddress': '127.0.0.1:9222' 表示使用 Chrome 开发者模式,9222 是 Chrome 调试的端口号。使用 Chrome 开发者模式后,浏览器会自动打开并进入调试模式,此时可以直接在浏览器中操作获取元素的 XPath 或 CSS Selector 等信息。


(2)添加代理

Selenium 可以方便地使用代理,只需要在 ChromeOptions 中设置即可。


使用方式如下:

from selenium import webdriver
 
proxy = '127.0.0.1:8080'
 
# 设置代理
options = webdriver.ChromeOptions()
options.add_argument('--proxy-server=http://' + proxy)
browser = webdriver.Chrome(options=options)
 
# 获取页面元素
# ...
 
# 关闭浏览器
browser.quit()

其中,'--proxy-server=http://' + proxy 表示设置代理服务器的地址和端口号,此处的 proxy 可以是一个 IP 地址或者域名。


(3)使用无头浏览器

在开发中,有时候不需要真正地打开浏览器,只需要获取网页源码即可。这时候可以使用无头浏览器,它可以在后台执行并获取网页源码,不会弹出浏览器窗口。


使用方式如下:

from selenium import webdriver
 
# 使用无头浏览器
options = webdriver.ChromeOptions()
options.add_argument('--headless')
options.add_argument('--disable-gpu')
browser = webdriver.Chrome(options=options)
 
# 获取页面源码
url = 'https://www.baidu.com/'
browser.get(url)
page_source = browser.page_source
 
# 关闭浏览器
browser.quit()

其中,'--headless' 表示使用无头浏览器,'--disable-gpu' 表示禁用 GPU 加速。使用无头浏览器后,需要使用 browser.page_source 属性获取页面源码。


总结

以上就是 Selenium 的基本使用和进阶用法,Selenium 可以方便地模拟用户行为,实现自动化爬取网页的目的。当然,使用 Selenium 也有一些缺点,例如速度较慢、需要占用较多的系统资源等,使用时需要注意。


相关文章
一键自动化博客发布工具,用过的人都说好(51cto篇)
使用一键自动化博客发布工具blog-auto-publishing-tools把博客发布到51cto上。
一键自动化博客发布工具,用过的人都说好(51cto篇)
|
1天前
|
JavaScript 前端开发 测试技术
《手把手教你》系列技巧篇(四十八)-java+ selenium自动化测试-判断元素是否可操作(详解教程)
【5月更文挑战第12天】本文介绍了WebDriver中用于判断元素状态的三个方法:`isEnabled()`、`isSelected()`和`isDisplayed()`。`isSelected()`检查元素是否被选中,通常用于勾选框。`isDisplayed()`则用来判断元素是否在页面上可见。`isEnabled()`方法确定元素是否可操作,例如是否能点击或输入内容。
11 1
|
2天前
|
存储 JavaScript Java
《手把手教你》系列技巧篇(四十七)-java+ selenium自动化测试-判断元素是否显示(详解教程)
【5月更文挑战第11天】WebDriver 的 `isDisplayed()` 方法用于检查页面元素是否可见,如果元素存在于DOM中且可视,返回`true`,否则返回`false`。在自动化测试中,这个方法常用于验证元素是否真正显示在页面上。示例代码展示了如何使用 `isDisplayed()` 判断百度登录页面的特定错误提示文字是否出现。
13 1
|
3天前
|
JavaScript Java 测试技术
《手把手教你》系列技巧篇(四十六)-java+ selenium自动化测试-web页面定位toast-下篇(详解教程)
【5月更文挑战第10天】本文介绍了使用Java和Selenium进行Web自动化测试的实践,以安居客网站为例。最后,提到了在浏览器开发者工具中调试和观察页面元素的方法。
14 2
一键自动化博客发布工具,用过的人都说好(掘金篇)
使用一键自动化博客发布工具blog-auto-publishing-tools把博客发布到掘金上。
一键自动化博客发布工具,用过的人都说好(掘金篇)
|
4天前
|
敏捷开发 测试技术 持续交付
深入理解自动化测试框架:以Selenium为例
【5月更文挑战第16天】 随着软件行业的迅猛发展,质量保障变得愈加重要。自动化测试作为确保软件质量的重要环节,其效率和可靠性受到了广泛关注。本文旨在深入探讨自动化测试框架的构建与优化,特别是以Selenium框架为例,分析其在实际应用中的优势、常见问题以及解决方案。通过具体案例分析,揭示如何提高自动化测试的稳定性和灵活性,从而更好地服务于敏捷开发和持续集成流程。
20 5
|
4天前
|
Web App开发 JavaScript 测试技术
《手把手教你》系列技巧篇(四十五)-java+ selenium自动化测试-web页面定位toast-上篇(详解教程)
【5月更文挑战第9天】本文介绍了在Appium中处理App自动化测试中遇到的Toast元素定位的方法。Toast在Web UI测试中也常见,通常作为轻量级反馈短暂显示。文章提供了两种定位Toast元素的技巧.
11 0
|
4天前
|
缓存 IDE Java
Java一分钟之-Gradle:构建自动化工具
【5月更文挑战第16天】本文介绍了Gradle,一个基于Groovy的灵活构建工具,强调其优于Maven的灵活性和性能。文中通过示例展示了基本的`build.gradle`文件结构,并讨论了常见问题:版本冲突、缓存问题和构建速度慢,提供了相应的解决策略。此外,还提醒开发者注意插件ID、语法错误和源代码目录等易错点。掌握这些知识能提升开发效率,使构建过程更顺畅。
25 2
|
5天前
|
Web App开发 缓存 前端开发
《手把手教你》系列技巧篇(四十四)-java+ selenium自动化测试-处理https 安全问题或者非信任站点-下篇(详解教程)
【5月更文挑战第8天】这篇文档介绍了如何在IE、Chrome和Firefox浏览器中处理不信任证书的问题。作者北京-宏哥分享了如何通过编程方式跳过浏览器的证书警告,直接访问不受信任的HTTPS网站。文章分为几个部分,首先简要介绍了问题背景,然后详细讲解了在Chrome浏览器中的两种方法,包括代码设计和运行效果,并给出了其他浏览器的相关信息和参考资料。最后,作者总结了处理此类问题的一些通用技巧。
16 2
一键自动化博客发布工具,用过的人都说好(csdn篇)
使用一键自动化博客发布工具blog-auto-publishing-tools把博客发布到csdn上。
一键自动化博客发布工具,用过的人都说好(csdn篇)

热门文章

最新文章