Python爬虫:selenium使用chrome和PhantomJS实用参数

简介: Python爬虫:selenium使用chrome和PhantomJS实用参数

chrome参数设置示例

from selenium import webdriver
options = webdriver.ChromeOptions()
# 设置语言
options.add_argument('lang=zh_CN.UTF-8')
# 不显示界面
options.add_argument('headless')
# 设置user-agent请求头
options.add_argument('user-agent=%s' % user_agent)
 # 设置代理        
options.add_argument('--proxy-server=%s' % proxy)
# http://127.0.0.1
# 图片不加载
prefs = {
    'profile.default_content_setting_values': {
        'images': 2
    }
}
options.add_experimental_option('prefs', prefs)
browser = webdriver.Chrome(chrome_options = options)
# 设置超时
browser.set_page_load_timeout(5)
browser.set_script_timeout(10)  # 这两种设置都进行才有效
# 设置窗口大小
browser.set_window_size(1366, 768)
# 访问网站
browser.get("https://www.baidu.com/")
# 截图
browser.save_screenshot("1.png")

参数设置


–user-data-dir=”[PATH]” 指定用户文件夹User Data路径,可以把书签这样的用户数据保存在系统分区以外的分区。 
–disk-cache-dir=”[PATH]“ 指定缓存Cache路径 
–disk-cache-size= 指定Cache大小,单位Byte 
–first run 重置到初始状态,第一次运行 
–incognito 隐身模式启动 
–disable-javascript 禁用Javascript 
–omnibox-popup-count=”num” 将地址栏弹出的提示菜单数量改为num个。我都改为15个了。 
–user-agent=”xxxxxxxx” 修改HTTP请求头部的Agent字符串,可以通过about:version页面查看修改效果 
–disable-plugins 禁止加载所有插件,可以增加速度。可以通过about:plugins页面查看效果 
–disable-javascript 禁用JavaScript,如果觉得速度慢在加上这个 
–disable-java 禁用java 
–start-maximized 启动就最大化 
–no-sandbox 取消沙盒模式 
–single-process 单进程运行 
–process-per-tab 每个标签使用单独进程 
–process-per-site 每个站点使用单独进程 
–in-process-plugins 插件不启用单独进程 
–disable-popup-blocking 禁用弹出拦截 
–disable-plugins 禁用插件 
–disable-images 禁用图像 
–incognito 启动进入隐身模式 
–enable-udd-profiles 启用账户切换菜单 
–proxy-pac-url 使用pac代理 [via 1/2] 
–lang=zh-CN 设置语言为简体中文 
–disk-cache-dir 自定义缓存目录 
–disk-cache-size 自定义缓存最大值(单位byte) 
–media-cache-size 自定义多媒体缓存最大值(单位byte) 
–bookmark-menu 在工具 栏增加一个书签按钮 
–enable-sync 启用书签同步 
–single-process 单进程运行Google Chrome 
–start-maximized 启动Google Chrome就最大化 
–disable-java 禁止Java 
–no-sandbox 非沙盒模式运行

phantomJS参数设置示例

from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
from selenium.webdriver.common.proxy import ProxyType
dcap = dict(DesiredCapabilities.PHANTOMJS)
# 设置user-agent请求头
dcap["phantomjs.page.settings.userAgent"] = user_agent
# 禁止加载图片
dcap["phantomjs.page.settings.loadImages"] = False
phantomJS = webdriver.PhantomJS(desired_capabilities=dcap)
# 设置代理
_proxy = webdriver.Proxy()
_proxy.proxy_type = ProxyType.MANUAL
_proxy.http_proxy = proxy
# 将代理设置添加到webdriver.DesiredCapabilities.PHANTOMJS中
 _proxy.add_to_capabilities(webdriver.DesiredCapabilities.PHANTOMJS)
phantomJS.start_session(webdriver.DesiredCapabilities.PHANTOMJS)
相关文章
|
2月前
|
Web App开发 前端开发 JavaScript
探索Python科学计算的边界:利用Selenium进行Web应用性能测试与优化
【10月更文挑战第6天】随着互联网技术的发展,Web应用程序已经成为人们日常生活和工作中不可或缺的一部分。这些应用不仅需要提供丰富的功能,还必须具备良好的性能表现以保证用户体验。性能测试是确保Web应用能够快速响应用户请求并处理大量并发访问的关键步骤之一。本文将探讨如何使用Python结合Selenium来进行Web应用的性能测试,并通过实际代码示例展示如何识别瓶颈及优化应用。
147 5
|
1月前
|
数据采集 Web App开发 前端开发
Python爬虫进阶:Selenium在动态网页抓取中的实战
【10月更文挑战第26天】动态网页抓取是网络爬虫的难点,因为数据通常通过JavaScript异步加载。Selenium通过模拟浏览器行为,可以加载和执行JavaScript,从而获取动态网页的完整内容。本文通过实战案例,介绍如何使用Selenium在Python中抓取动态网页。首先安装Selenium库和浏览器驱动,然后通过示例代码展示如何抓取英国国家美术馆的图片信息。
113 6
|
2月前
|
数据采集 Web App开发 数据可视化
Python爬虫教程:Selenium可视化爬虫的快速入门
Python爬虫教程:Selenium可视化爬虫的快速入门
|
2月前
|
测试技术 数据安全/隐私保护 开发者
自动化测试的奥秘:如何用Selenium和Python提升软件质量
【9月更文挑战第35天】在软件开发的海洋中,自动化测试是那艘能引领我们穿越波涛的帆船。本文将揭开自动化测试的神秘面纱,以Selenium和Python为工具,展示如何构建一个简单而强大的自动化测试框架。我们将从基础出发,逐步深入到高级应用,让读者能够理解并实现自动化测试脚本,从而提升软件的质量与可靠性。
|
3月前
|
Web App开发 测试技术 持续交付
自动化测试的利器:Selenium与Python的完美结合
【9月更文挑战第21天】在软件开发的世界里,测试是确保产品质量的关键步骤。随着敏捷开发和持续集成的流行,自动化测试工具变得尤为重要。本文将介绍如何使用Selenium和Python进行高效的自动化测试,不仅提供代码示例,还深入探讨如何设计测试用例、选择正确的测试框架、以及如何整合到CI/CD流程中。无论你是初学者还是有经验的开发者,这篇文章都将为你提供宝贵的见解和实用的技巧。
59 3
|
3月前
|
敏捷开发 测试技术 持续交付
自动化测试之美:如何用Selenium和Python打造高效测试脚本
【9月更文挑战第13天】在软件开发的海洋中,自动化测试是那抹不可或缺的亮色。它不仅提升了测试效率,还保障了产品质量。本文将带你领略使用Selenium和Python构建自动化测试脚本的魅力所在,从环境的搭建到脚本的编写,再到问题的排查,每一步都是对软件质量把控的深刻理解和实践。让我们开始这段探索之旅,解锁自动化测试的秘密吧!
84 0
|
4月前
|
Web App开发 测试技术 持续交付
探索自动化测试:以Selenium和Python为例
【8月更文挑战第31天】自动化测试在现代软件开发中扮演着不可或缺的角色。本文将通过一个简化的示例,展示如何使用Selenium和Python进行Web应用的自动化测试。我们将从安装必要的工具开始,逐步构建一个简单的测试脚本,并执行它来验证其功能。通过这个过程,我们旨在揭示自动化测试的价值,并激励读者深入探索这一领域。
|
4月前
|
Web App开发 安全 测试技术
自动化测试中的Python魔法:使用Selenium和pytest框架
【8月更文挑战第31天】 在软件开发的海洋中,自动化测试是确保航行安全的灯塔。本文将带你探索如何利用Python语言结合Selenium和pytest框架,搭建一套高效的自动化测试体系。我们将从基础设置讲起,逐步深入到编写测试用例,最后通过一个实战案例来展示如何在实际项目中运用这些工具。文章旨在为读者提供一套清晰的自动化测试解决方案,让你的开发之旅更加顺畅。
|
4月前
|
Web App开发 测试技术 API
探索自动化测试的奥秘:以Selenium和Python为例
【8月更文挑战第31天】在软件开发的海洋中,自动化测试是一艘能够带领我们驶向高效、准确代码实现的航船。本文将揭开自动化测试的神秘面纱,通过Selenium和Python这两个工具的结合使用,展示如何构建一个简单而强大的自动化测试脚本。从环境配置到脚本编写,再到实际运行,我们将一步步深入自动化测试的世界,解锁软件质量保障的新技能。
|
1月前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
114 6