Python+selenium定位已打开的浏览器

简介: Python+selenium定位已打开的浏览器

Python+selenium定位已打开的浏览器

在我们使用python+selenium+webdriver自动化使用谷歌账号登录浏览器的时候,会出现如下情况

image.png

点击了解详情,我们发现有这四点原因:

  • 不支持 JavaScript 或者已关闭 JavaScript
  • 添加了不安全或不受支持的扩展程序
  • 通过软件自动控制,而非人工控
  • 嵌入在其他应用中

image.png

原因分析:


通过百度等搜索出现该问题的原因,众说纷纭,我也根据相关的文章改了相应的地方


1.javaScript这个,更改之后,依旧无效


2.扩展插件,我谷歌浏览器新装的,无任何插件和扩展程序


3.我确实使用了自动化控制


4.没有嵌套,直接访问的谷歌进行登录


综上分析和相关实践得出结论,谷歌账户在登录时会去检测你当前的行为是否是自动化,若检测成功则阻止你登录,而且账户目前我发现是某几个账户就会阻止,有的账户不会阻止,这点很迷


进一步分析,谷歌是如何检测我是否为自动化,这里一顿胡乱操作发现,谷歌是通过webdrive协议监控到的。


那么,我该如何阻止它呢?中间过程不细说,试了非常多的方法,目前总结了两种。


1.使用selenium gird,结合selenium1.0版本,直接通过jar包启动连接浏览器,这方法的缺点就是,selenium1.0的功能无法满足我做项目的要求


2.我是否可以手动开启一个本地浏览器,自己登录账号,之后再通过selenium定位到我这个浏览器,再通过webdriver去实现自动化呢?我发现,这个确实可以,缺点:需要自己通过命令启动浏览器


方法一暂不介绍,十年前的技术


此处介绍方法二:


方法二借鉴了该作者的博客指点:


参考链接:https://blog.csdn.net/a1sd1/article/details/96110865


我们可以利用Chrome DevTools协议。它允许客户检查和调试Chrome浏览器。


打开cmd,在命令行中输入命令:(需要将你谷歌浏览器的安装目录配置到环境变量中)


image.png

chrome.exe --remote-debugging-port=9222 --user-data-dir="C:\selenium\AutomationProfile"

-remote-debugging-port值,可以指定任何打开的端口。


-user-data-dir标记,指定创建新Chrome配置文件的目录。它是为了确保在单独的配置文件中启动chrome,不会污染你的默认配置文件。


C:\selenium\AutomationProfile 这个文件夹是我手动在C盘下创建的,你们也可以改为别的。


注意:不要忘了在环境变量中PATH里将chrome的路径添加进去。(其实也可以不配置,直接定位到chrome的安装路径找到chrome.exe文件 就可以使用)


此时会打开一个浏览器页面,我们输入谷歌登录网址,我们把它当成一个已存在的浏览器:


此时你去手动登录谷歌账号,便会发现之前自动化登录不了的,这时候可以登录了,而且登录之后,以后都不需要登录,它会把你这次登录的信息记入到C:\selenium\AutomationProfile 下


后面你只需要python+selenium+webdriver定位到这个已经登录的浏览器进行操作就可以啦。


现在,我们需要接管上面的浏览器。新建一个python文件,运行以下代码:

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
chrome_options = Options()
chrome_options.add_experimental_option("debuggerAddress", "127.0.0.1:9222")
chrome_driver = "./chromedriver.exe" #我是把chromedriver驱动放在项目根目录下
driver = webdriver.Chrome(chrome_driver, chrome_options=chrome_options)
#driver.get(url) #这一句不需要加

image.png

这是登录后的标识,之后该浏览器就可以正常去执行你的自动化脚本啦。

相关文章
|
6月前
|
测试技术 开发者 Python
Python单元测试入门:3个核心断言方法,帮你快速定位代码bug
本文介绍Python单元测试基础,详解`unittest`框架中的三大核心断言方法:`assertEqual`验证值相等,`assertTrue`和`assertFalse`判断条件真假。通过实例演示其用法,帮助开发者自动化检测代码逻辑,提升测试效率与可靠性。
508 1
|
10月前
|
数据采集 Web App开发 JavaScript
基于Selenium的Python爬虫抓取动态App图片
基于Selenium的Python爬虫抓取动态App图片
756 68
|
11月前
|
索引 Python
Python错误 - 'list' object is not callable 的问题定位与解决
出现编程问题并不可怕,关键在于是否可以从中学习与成长。遇到'list' object is not callable这样的错误,我们不仅需要学会应对,更需要了解其背后的原因,避免类似的问题再次出现。记住,Python的强大功能和灵活性同时也意味着我们需要对其理解更准确,才能更好的使用它。
1375 70
|
9月前
|
数据采集 Web App开发 JavaScript
无头浏览器技术:Python爬虫如何精准模拟搜索点击
无头浏览器技术:Python爬虫如何精准模拟搜索点击
|
8月前
|
数据采集 机器学习/深度学习 边缘计算
Python爬虫动态IP代理报错全解析:从问题定位到实战优化
本文详解爬虫代理设置常见报错场景及解决方案,涵盖IP失效、403封禁、性能瓶颈等问题,提供动态IP代理的12种核心处理方案及完整代码实现,助力提升爬虫系统稳定性。
491 0
|
11月前
|
数据采集 JavaScript 前端开发
Pyppeteer实战:基于Python的无头浏览器控制新选择
本文详细讲解了如何使用 Pyppeteer 结合爬虫代理高效采集小红书热点推荐信息。通过设置代理 IP、Cookie 和自定义 User-Agent,突破目标网站的反爬机制,实现标题、内容和评论的数据提取。文章结合代码示例与技术关系图谱,清晰展示从数据采集到分析的全流程,为复杂网站的数据获取提供参考。读者可在此基础上优化异常处理、并发抓取等功能,提升爬虫性能。
755 8
|
Web App开发 数据采集 数据安全/隐私保护
Selenium库详解:Python实现模拟登录与反爬限制的进阶指南
Selenium库详解:Python实现模拟登录与反爬限制的进阶指南
|
数据采集 Web App开发 测试技术
使用Selenium与WebDriver实现跨浏览器自动化数据抓取
在网络爬虫领域,Selenium与WebDriver是实现跨浏览器自动化数据抓取的利器。本文详细介绍了如何利用Selenium和WebDriver结合代理IP技术提升数据抓取的稳定性和效率。通过设置user-agent和cookie来模拟真实用户行为,避免被网站检测和阻止。文章提供了具体的代码示例,展示了如何配置代理IP、设置user-agent和cookie,并实现了跨浏览器的数据抓取。合理的参数配置能有效减少爬虫被封禁的风险,提高数据抓取效率。
1389 6
使用Selenium与WebDriver实现跨浏览器自动化数据抓取
|
Web App开发 Java
使用java操作浏览器的工具selenium-java和webdriver下载地址
【10月更文挑战第12天】Selenium-java依赖包用于自动化Web测试,版本为3.141.59。ChromeDriver和EdgeDriver分别用于控制Chrome和Edge浏览器,需确保版本与浏览器匹配。示例代码展示了如何使用Selenium-java模拟登录CSDN,包括设置驱动路径、添加Cookies和获取页面源码。
1039 6
|
数据采集 Web App开发 JavaScript
爬虫策略规避:Python爬虫的浏览器自动化
爬虫策略规避:Python爬虫的浏览器自动化

推荐镜像

更多