自动化工具 Selenium 的使用

简介: 自动化工具 Selenium 的使用

前言


Selenium 是一个开源的自动化测试工具,支持各种浏览器,并且可以模拟用户对浏览器的各种操作。Selenium 可以用来模拟人类用户的点击、输入等行为,从而实现自动化爬取网页的目的。


Selenium 的基本使用


在使用 Selenium 之前,需要先安装 Selenium 库和对应的浏览器驱动。Selenium 可以支持多种浏览器,每种浏览器需要下载对应的浏览器驱动。安装方法可以参考官方文档:https://www.selenium.dev/documentation/en/getting_started_with_webdriver/browsers/


(1)使用 Selenium 打开网页

下面是使用 Selenium 打开百度首页的代码:

from selenium import webdriver
 
# 打开浏览器
browser = webdriver.Chrome()
 
# 打开百度首页
url = 'https://www.baidu.com/'
browser.get(url)
 
# 关闭浏览器
browser.quit()

其中,webdriver.Chrome() 表示使用 Chrome 浏览器,如果要使用其他浏览器,则需要更改这里的代码。browser.get(url) 表示打开网页。最后使用 browser.quit() 关闭浏览器。


(2)使用 Selenium 模拟登录

下面是使用 Selenium 模拟登录知乎的代码:

from selenium import webdriver
 
username = 'your_username'
password = 'your_password'
 
# 打开浏览器
browser = webdriver.Chrome()
 
# 打开知乎登录页面
url = 'https://www.zhihu.com/signin'
browser.get(url)
 
# 输入用户名和密码
input_name = browser.find_element_by_xpath('//*[@id="root"]/div/main/div/div/div/div[1]/div[2]/div/form/div[1]/div[2]/div[1]/input')
input_name.send_keys(username)
input_password = browser.find_element_by_xpath('//*[@id="root"]/div/main/div/div/div/div[1]/div[2]/div/form/div[1]/div[2]/div[2]/input')
input_password.send_keys(password)
 
# 点击登录按钮
btn_submit = browser.find_element_by_xpath('//*[@id="root"]/div/main/div/div/div/div[1]/div[2]/div/form/button')
btn_submit.click()
 
# 关闭浏览器
browser.quit()

其中,find_element_by_xpath() 方法可以根据 XPath 获取元素,send_keys() 方法可以输入文本,click() 方法可以模拟点击。这里只是一个简单的示例,实际网站可能需要更复杂的操作。


(3)使用 Selenium 模拟翻页

下面是使用 Selenium 模拟翻页豆瓣电影 TOP250 的代码:

from selenium import webdriver
 
# 打开浏览器
browser = webdriver.Chrome()
 
# 打开豆瓣电影 TOP250
url = 'https://movie.douban.com/top250'
browser.get(url)
 
# 获取下一页按钮
btn_next = browser.find_element_by_xpath('//*[@id="content"]/div/div[1]/div[2]/a[3]')
 
# 翻页
while True:
    # 获取所有电影信息
    movies = browser.find_elements_by_xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]')
 
    # 输出电影名称
    for movie in movies:
        print(movie.text)
 
    # 判断是否到达最后一页
    if btn_next.get_attribute('class') == 'next':
        btn_next.click()
    else:
        break
 
# 关闭浏览器
browser.quit()

其中,find_elements_by_xpath() 方法可以获取多个元素,get_attribute() 方法可以获取元素的属性。这里使用了一个 while 循环来不断翻页,直到到达最后一页为止。


Selenium 的进阶使用


除了基本使用外,Selenium 还有一些进阶的用法,例如使用 Chrome 开发者模式、添加代理、使用无头浏览器等。


(1)使用 Chrome 开发者模式

Chrome 开发者模式可以让开发者更方便地进行调试和测试,其中就包括了 Selenium 的自动化测试。使用 Chrome 开发者模式可以更直接地获取元素的 XPath 或 CSS Selector 等信息,以便 Selenium 使用。


使用方式如下:

from selenium import webdriver
 
# 打开 Chrome 开发者模式
options = webdriver.ChromeOptions()
options.add_experimental_option('debuggerAddress', '127.0.0.1:9222')
browser = webdriver.Chrome(options=options)
 
# 获取页面元素
# ...
 
# 关闭浏览器
browser.quit()

其中,'debuggerAddress': '127.0.0.1:9222' 表示使用 Chrome 开发者模式,9222 是 Chrome 调试的端口号。使用 Chrome 开发者模式后,浏览器会自动打开并进入调试模式,此时可以直接在浏览器中操作获取元素的 XPath 或 CSS Selector 等信息。


(2)添加代理

Selenium 可以方便地使用代理,只需要在 ChromeOptions 中设置即可。


使用方式如下:

from selenium import webdriver
 
proxy = '127.0.0.1:8080'
 
# 设置代理
options = webdriver.ChromeOptions()
options.add_argument('--proxy-server=http://' + proxy)
browser = webdriver.Chrome(options=options)
 
# 获取页面元素
# ...
 
# 关闭浏览器
browser.quit()

其中,'--proxy-server=http://' + proxy 表示设置代理服务器的地址和端口号,此处的 proxy 可以是一个 IP 地址或者域名。


(3)使用无头浏览器

在开发中,有时候不需要真正地打开浏览器,只需要获取网页源码即可。这时候可以使用无头浏览器,它可以在后台执行并获取网页源码,不会弹出浏览器窗口。


使用方式如下:

from selenium import webdriver
 
# 使用无头浏览器
options = webdriver.ChromeOptions()
options.add_argument('--headless')
options.add_argument('--disable-gpu')
browser = webdriver.Chrome(options=options)
 
# 获取页面源码
url = 'https://www.baidu.com/'
browser.get(url)
page_source = browser.page_source
 
# 关闭浏览器
browser.quit()

其中,'--headless' 表示使用无头浏览器,'--disable-gpu' 表示禁用 GPU 加速。使用无头浏览器后,需要使用 browser.page_source 属性获取页面源码。


总结

以上就是 Selenium 的基本使用和进阶用法,Selenium 可以方便地模拟用户行为,实现自动化爬取网页的目的。当然,使用 Selenium 也有一些缺点,例如速度较慢、需要占用较多的系统资源等,使用时需要注意。


相关文章
|
10月前
|
运维 Prometheus 监控
3 年部署经验总结:用自动化工具轻松管理 300+ 服务器开源软件
三年前接手公司IT部门时,我满怀信心,却发现部署效率低下。尽管使用了GitLab、Jenkins、Zabbix等100+开源工具,部署仍耗时费力。文档厚重如百科,却难解实际困境。一次凌晨三点的加班让我下定决心改变现状。偶然看到一篇国外博客,介绍了自动化部署的高效方式,我深受启发。
378 0
|
9月前
|
机器学习/深度学习 人工智能 测试技术
EdgeMark:嵌入式人工智能工具的自动化与基准测试系统——论文阅读
EdgeMark是一个面向嵌入式AI的自动化部署与基准测试系统,支持TensorFlow Lite Micro、Edge Impulse等主流工具,通过模块化架构实现模型生成、优化、转换与部署全流程自动化,并提供跨平台性能对比,助力开发者在资源受限设备上高效选择与部署AI模型。
779 9
EdgeMark:嵌入式人工智能工具的自动化与基准测试系统——论文阅读
|
8月前
|
人工智能 搜索推荐 UED
一个牛逼的国产AI自动化工具,开源了 !
AiPy是国产开源AI工具,结合大语言模型与Python,支持本地部署。用户只需用自然语言描述需求,即可自动生成并执行代码,轻松实现数据分析、清洗、可视化等任务,零基础也能玩转编程,被誉为程序员的智能助手。
|
10月前
|
人工智能 数据可视化 数据挖掘
团队日报不用愁!自动化生成工具亲测:任务进度实时同步
本文深入分析了传统手动日报在数据孤岛、格式混乱和时效性差三大痛点,并探讨了自动化日报带来的效率提升、决策优化等四大核心价值。通过对板栗看板、SmartBrief、n8n 等六款主流工具的功能、适用场景及实战效果进行测评,为企业提供科学的选型建议与实施路径。
团队日报不用愁!自动化生成工具亲测:任务进度实时同步
|
9月前
|
Java 测试技术 API
自动化测试工具集成及实践
自动化测试用例的覆盖度及关键点最佳实践、自动化测试工具、集成方法、自动化脚本编写等(兼容多语言(Java、Python、Go、C++、C#等)、多框架(Spring、React、Vue等))
741 6
|
9月前
|
Java Python
介绍一款更好用的selenium自愈工具ReCheck
前面介绍了GUI自动化自愈工具Healenium,现在介绍另一个自愈工具ReCheck
456 7
|
10月前
|
人工智能 供应链 数据可视化
工作流梳理工具实战教程:手把手教你绘制第一张自动化流程图
本文剖析了团队因流程混乱导致重复劳动和效率低下的问题,提出通过工作流梳理提升协作效率的解决方案。总结了流程梳理的六大核心需求,并深度测评了6款主流工具,国内有板栗看板那,国外有kiss flow结合团队规模与需求提供选型建议,助力企业高效落地流程优化。
|
8月前
|
人工智能 缓存 自然语言处理
86_自动化提示:AutoPrompt工具
在当今人工智能领域,提示工程(Prompt Engineering)已成为释放大语言模型(LLM)潜能的关键技术。随着LLM规模和能力的不断增长,如何设计高效、精确的提示词成为研究和应用的焦点。然而,传统的手工提示工程面临着巨大挑战
606 0
|
9月前
|
安全 搜索推荐 机器人
风险规则引擎-RPA 作为自动化依赖业务决策流程的强大工具
机器人流程自动化(RPA)是一种通过软件“机器人”自动执行重复性任务的技术,能大幅提升工作效率。它适用于财务、电商等领域的标准化流程,如账单处理和退货管理。然而,RPA在复杂决策场景中存在局限,需结合决策模型(DMN)和业务规则管理系统(BRMS)实现流程与决策的协同自动化,从而增强灵活性与业务价值。
|
10月前
|
数据采集 运维 监控

热门文章

最新文章