Python+selenium定位已打开的浏览器

简介: Python+selenium定位已打开的浏览器

Python+selenium定位已打开的浏览器

在我们使用python+selenium+webdriver自动化使用谷歌账号登录浏览器的时候,会出现如下情况

image.png

点击了解详情,我们发现有这四点原因:

  • 不支持 JavaScript 或者已关闭 JavaScript
  • 添加了不安全或不受支持的扩展程序
  • 通过软件自动控制,而非人工控
  • 嵌入在其他应用中

image.png

原因分析:


通过百度等搜索出现该问题的原因,众说纷纭,我也根据相关的文章改了相应的地方


1.javaScript这个,更改之后,依旧无效


2.扩展插件,我谷歌浏览器新装的,无任何插件和扩展程序


3.我确实使用了自动化控制


4.没有嵌套,直接访问的谷歌进行登录


综上分析和相关实践得出结论,谷歌账户在登录时会去检测你当前的行为是否是自动化,若检测成功则阻止你登录,而且账户目前我发现是某几个账户就会阻止,有的账户不会阻止,这点很迷


进一步分析,谷歌是如何检测我是否为自动化,这里一顿胡乱操作发现,谷歌是通过webdrive协议监控到的。


那么,我该如何阻止它呢?中间过程不细说,试了非常多的方法,目前总结了两种。


1.使用selenium gird,结合selenium1.0版本,直接通过jar包启动连接浏览器,这方法的缺点就是,selenium1.0的功能无法满足我做项目的要求


2.我是否可以手动开启一个本地浏览器,自己登录账号,之后再通过selenium定位到我这个浏览器,再通过webdriver去实现自动化呢?我发现,这个确实可以,缺点:需要自己通过命令启动浏览器


方法一暂不介绍,十年前的技术


此处介绍方法二:


方法二借鉴了该作者的博客指点:


参考链接:https://blog.csdn.net/a1sd1/article/details/96110865


我们可以利用Chrome DevTools协议。它允许客户检查和调试Chrome浏览器。


打开cmd,在命令行中输入命令:(需要将你谷歌浏览器的安装目录配置到环境变量中)


image.png

chrome.exe --remote-debugging-port=9222 --user-data-dir="C:\selenium\AutomationProfile"

-remote-debugging-port值,可以指定任何打开的端口。


-user-data-dir标记,指定创建新Chrome配置文件的目录。它是为了确保在单独的配置文件中启动chrome,不会污染你的默认配置文件。


C:\selenium\AutomationProfile 这个文件夹是我手动在C盘下创建的,你们也可以改为别的。


注意:不要忘了在环境变量中PATH里将chrome的路径添加进去。(其实也可以不配置,直接定位到chrome的安装路径找到chrome.exe文件 就可以使用)


此时会打开一个浏览器页面,我们输入谷歌登录网址,我们把它当成一个已存在的浏览器:


此时你去手动登录谷歌账号,便会发现之前自动化登录不了的,这时候可以登录了,而且登录之后,以后都不需要登录,它会把你这次登录的信息记入到C:\selenium\AutomationProfile 下


后面你只需要python+selenium+webdriver定位到这个已经登录的浏览器进行操作就可以啦。


现在,我们需要接管上面的浏览器。新建一个python文件,运行以下代码:

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
chrome_options = Options()
chrome_options.add_experimental_option("debuggerAddress", "127.0.0.1:9222")
chrome_driver = "./chromedriver.exe" #我是把chromedriver驱动放在项目根目录下
driver = webdriver.Chrome(chrome_driver, chrome_options=chrome_options)
#driver.get(url) #这一句不需要加

image.png

这是登录后的标识,之后该浏览器就可以正常去执行你的自动化脚本啦。

相关文章
|
2月前
|
数据采集 Web App开发 JavaScript
基于Selenium的Python爬虫抓取动态App图片
基于Selenium的Python爬虫抓取动态App图片
255 68
|
1月前
|
数据采集 Web App开发 JavaScript
无头浏览器技术:Python爬虫如何精准模拟搜索点击
无头浏览器技术:Python爬虫如何精准模拟搜索点击
|
3月前
|
索引 Python
Python错误 - 'list' object is not callable 的问题定位与解决
出现编程问题并不可怕,关键在于是否可以从中学习与成长。遇到'list' object is not callable这样的错误,我们不仅需要学会应对,更需要了解其背后的原因,避免类似的问题再次出现。记住,Python的强大功能和灵活性同时也意味着我们需要对其理解更准确,才能更好的使用它。
392 70
|
2月前
|
数据采集 Web App开发 前端开发
Python+Selenium爬虫:豆瓣登录反反爬策略解析
Python+Selenium爬虫:豆瓣登录反反爬策略解析
|
3月前
|
数据采集 JavaScript 前端开发
Pyppeteer实战:基于Python的无头浏览器控制新选择
本文详细讲解了如何使用 Pyppeteer 结合爬虫代理高效采集小红书热点推荐信息。通过设置代理 IP、Cookie 和自定义 User-Agent,突破目标网站的反爬机制,实现标题、内容和评论的数据提取。文章结合代码示例与技术关系图谱,清晰展示从数据采集到分析的全流程,为复杂网站的数据获取提供参考。读者可在此基础上优化异常处理、并发抓取等功能,提升爬虫性能。
207 8
|
5月前
|
数据采集 Web App开发 存储
打造高效的Web Scraper:Python与Selenium的完美结合
本文介绍如何使用Python结合Selenium,通过代理IP、设置Cookie和User-Agent抓取BOSS直聘的招聘信息,包括公司名称、岗位、要求和薪资。这些数据可用于行业趋势、人才需求、企业动态及区域经济分析,为求职者、企业和分析师提供宝贵信息。文中详细说明了环境准备、代理配置、登录操作及数据抓取步骤,并提醒注意反爬虫机制和验证码处理等问题。
131 1
打造高效的Web Scraper:Python与Selenium的完美结合
|
5月前
|
Web App开发 数据采集 数据安全/隐私保护
Selenium库详解:Python实现模拟登录与反爬限制的进阶指南
Selenium库详解:Python实现模拟登录与反爬限制的进阶指南
|
8月前
|
数据采集 Web App开发 前端开发
Python爬虫进阶:Selenium在动态网页抓取中的实战
【10月更文挑战第26天】动态网页抓取是网络爬虫的难点,因为数据通常通过JavaScript异步加载。Selenium通过模拟浏览器行为,可以加载和执行JavaScript,从而获取动态网页的完整内容。本文通过实战案例,介绍如何使用Selenium在Python中抓取动态网页。首先安装Selenium库和浏览器驱动,然后通过示例代码展示如何抓取英国国家美术馆的图片信息。
511 6
|
8月前
|
数据采集 Web App开发 JavaScript
爬虫策略规避:Python爬虫的浏览器自动化
爬虫策略规避:Python爬虫的浏览器自动化
|
9月前
|
Web App开发 Java
使用java操作浏览器的工具selenium-java和webdriver下载地址
【10月更文挑战第12天】Selenium-java依赖包用于自动化Web测试,版本为3.141.59。ChromeDriver和EdgeDriver分别用于控制Chrome和Edge浏览器,需确保版本与浏览器匹配。示例代码展示了如何使用Selenium-java模拟登录CSDN,包括设置驱动路径、添加Cookies和获取页面源码。
605 6

推荐镜像

更多