pyppeteer的Browser类及其BrowserContext类

简介: 在昨天的文章中《Python中与selenium齐名的pyppeteer库》我们对pyppeteer做了一个大致的介绍,后面将pyppeteer作为一个系列来讲,大致按照文档的思路来,再配合一些实践代码,来达到深入理解的目的。

在昨天的文章中《Python中与selenium齐名的pyppeteer库》我们对pyppeteer做了一个大致的介绍,后面将pyppeteer作为一个系列来讲,大致按照文档的思路来,再配合一些实践代码,来达到深入理解的目的。

启动器

import asyncio
from pyppeteer import launch

async def main():
browser = await launch()
page = await browser.newPage()
await page.goto('http://example.com')
await page.screenshot({'path': 'example.png'})
await browser.close()

asyncio.get_event_loop().run_until_complete(main())

其中launch是启动器,用来启动浏览器并返回browser类,launch是属于launcher类,该类还有另一种启动方式connect,connect用于连接一个已经打开的浏览器,可以在奔溃后重连,这个比selenium进步很多。
pyppeteer.launcher.connect(options: dict = None, **kwargs) → pyppeteer.browser.Browser

连接到现有的chrome,browserWSEndpoint选项是连接到chrome的必要条件。格式是ws://{host}:{port}/devtools/browser/<id>,这个值可以得到wsEndpoint。

可用选项包括:

browserWSEndpoint(str):要连接的浏览器websocket端点。(必填)
ignoreHTTPSErrors(bool):是否忽略HTTPS错误。默认为 False。
slowMo (int | float):按指定的毫秒数减慢pyppeteer的速度。
logLevel(int | str):用于打印日志的日志级别。默认值与根记录器相同。
loop(asyncio.AbstractEventLoop):事件循环(实验)。

connect方法需要一个必须参数browserWSEndpoint,这个参数通过browser的wsEndpoint属性获得:
brwoser.wsEndpoint
'ws://127.0.0.1:3533/devtools/browser/6687308b-2c43-4ccb-9464-1d2c1fec7eb5'

至于启动器launcher的launch配置参数在《Python中与selenium齐名的pyppeteer库》中已经详细说明。
另一个launcher的方法是launcher.executablePath(),可执行浏览器的默认路径。
from pyppeteer import launcher
launcher.executablePath()
'C:\Users\Administrator\AppData\Local\pyppeteer\pyppeteer\local-chromium\575458\chrome-win32\chrome.exe'

Browser类

通过启动器我们可以创建一个浏览器类Browser,比selenium复杂的地方是多了Browser类,具体的页面操作是在Browser的newPage方法上的,但是Browser也提供了一些优势,与浏览器进程的交互、多个页面对象的上文管理、模拟浏览器的基础设置、创建隐身浏览器;Browser就相当于一个管家,管理具体工作的页面,这也是pyppeteer的优势。
它具有下列一些方法和属性:

browserContexts
返回所有打开的浏览器上下文的列表。在新创建的浏览器中,这将返回单个实例 [BrowserContext]

close()
关闭连接并终止浏览器进程。

createIncogniteBrowserContext()
[已弃用]旧方法。
改用createIncognitoBrowserContext()方法。
创建一个新的隐身浏览器上下文,不会与其他浏览器上下文共享cookie /缓存。
browser = await launch()

Create a new incognito browser context.

context = await browser.createIncognitoBrowserContext()

Create a new page in a pristine context.

page = await context.newPage()

Do stuff

await page.goto('https://example.com')

newPage()
在此浏览器上创建新页面并返回其对象。

pages()
获取此浏览器的所有页面。此处不会列出不可见的页面,例如
background_page,可以通过pyppeteer.target.Target.page()查看。

process
返回此浏览器的进程。
如果创建浏览器的是实例pyppeteer.launcher.connect(),则返回None。
brwoser.process
<subprocess.Popen object at 0x02E03190>

targets()
获取浏览器中所有活动的页面列表。在多个浏览器上下文的情况下,该方法将返回包含所有浏览器上下文中的所有目标的列表。

userAgent()
返回浏览器的原始用户代理。注意页面类可以设置代理setUserAgent()。

version()
获取浏览器的版本。

wsEndpoint
返回websocket端点url。
brwoser.wsEndpoint
'ws://127.0.0.1:4636/devtools/browser/ccb4bd48-4572-468d-8549-1f4f27da8737'

BrowserContext 类

基类:pyee.EventEmitter
BrowserContext用于创建多个独立的浏览器会话,启动浏览器时,它默认使用一个BrowserContext。browser.newPage()在默认浏览器上下文中创建页面,如果页面打开另一个页面,例如通过window.open调用,则弹出窗口也属于初始化创建的浏览器上下文。
可以通过browser.createIncognitoBrowserContext()再创建一个隐身浏览器进程,“隐身”浏览器上下文不会将任何数据写入磁盘。

Create new incognito browser context

context = await browser.createIncognitoBrowserContext()

Create a new page inside context

page = await context.newPage()

... do stuff with page ...

await page.goto('https://example.com')

Dispose context once it's no longer needed

await context.close()

该类具备下列方法:

close()
关闭浏览器上下文,将关闭属于浏览器上下文的所有页面。

isIncognite()
[已弃用]改用isIncognito()方法。

isIncognito()
返回BrowserContext是否隐身。

newPage()
在浏览器上下文中创建新页面。

targets()
返回浏览器上下文中所有活动目标的列表。

BrowserContext 和Browser都是用于创建一个浏览器对象,前者是创建一个隐身浏览器,创建浏览器对象之后进而创建Page对象,页面的所有操作都在Page对象上,下一节将讲Page对象。

重要:因为同步公号的文章格式很难保证,所以后面文章选择性在其他平台同步,欢迎移步公众号(Python之战),每日更新原汁原味!

相关文章
|
5月前
|
数据可视化 数据管理 BI
如何用二维码搭建一套会议和活动报名系统
本文介绍了如何利用二维码技术高效管理会议报名与签到流程。相比传统方式,二维码具有低成本、便捷、数据统计准确等优势,适用于小型内部会议、中型公开讲座及大型行业论坛等多种场景。通过草料二维码平台,用户可轻松创建报名表单、配置规则、生成二维码,并支持线上线下多渠道推广。系统还提供实时数据统计、现场签到核销功能,帮助组织者提升活动管理效率。文章还分享了应对现场突发情况的实用技巧,为活动组织者提供全面参考。
浅析Qt Designer设置界面背景-运用PyCharm中把pyrcc5将.qrc转换为.py存在的一些问题
浅析Qt Designer设置界面背景-运用PyCharm中把pyrcc5将.qrc转换为.py存在的一些问题
浅析Qt Designer设置界面背景-运用PyCharm中把pyrcc5将.qrc转换为.py存在的一些问题
|
22天前
|
安全 jenkins 测试技术
解密高效测试系统:利用Dify工作流与Jira API的自优化实践
本文介绍测试智能体与Jira集成的四种方案:从基础API同步到全链路CI/CD融合。通过自动化结果反馈、智能解析工单及工作流编排,实现测试任务从触发到验证的闭环管理,有效提升质量保障效率。
|
12月前
|
运维 监控 Linux
推荐几个不错的 Linux 服务器管理工具
推荐几个不错的 Linux 服务器管理工具
889 6
|
数据挖掘 数据处理 索引
一文秒懂Pandas中的crosstab与pivot
一文秒懂Pandas中的crosstab与pivot
488 0
|
机器学习/深度学习 人工智能 自然语言处理
机器学习、深度学习和强化学习的关系和区别是什么?
众所周知,人工智能领域知识庞大且复杂,各种专业名词层出不穷,常常让初学者看得摸不着头脑。比如“机器学习”、“深度学习”、“强化学习”就属于这类名词。那么,针对这三者各自具体有哪些内容?三者是否有相关性?不同核心及侧重点是什么?以及各自的应用领域有哪些?应用的前景如何?等问题,本文根据百度百科等相关资料里的内容进行整理,形成了以下详细的阐述。
3080 0
|
缓存 负载均衡 Java
c++写高性能的任务流线程池(万字详解!)
本文介绍了一种高性能的任务流线程池设计,涵盖多种优化机制。首先介绍了Work Steal机制,通过任务偷窃提高资源利用率。接着讨论了优先级任务,使不同优先级的任务得到合理调度。然后提出了缓存机制,通过环形缓存队列提升程序负载能力。Local Thread机制则通过预先创建线程减少创建和销毁线程的开销。Lock Free机制进一步减少了锁的竞争。容量动态调整机制根据任务负载动态调整线程数量。批量处理机制提高了任务处理效率。此外,还介绍了负载均衡、避免等待、预测优化、减少复制等策略。最后,任务组的设计便于管理和复用多任务。整体设计旨在提升线程池的性能和稳定性。
317 5
|
安全 Shell 网络安全
Charles - 夜神模拟器证书安装App抓包
Charles - 夜神模拟器证书安装App抓包 前言 一、软件安装 1.Openssl安装 1.1下载安装 1.2配置环境变量 1.3查看openssl版本,输入命令:openssl version 2.夜神模拟器安装 1.1 下载安装 1.2工具准备,MT管理器 3.Charles安装 二、Charles 安装证书,抓包 1.Charles破解 2.安装证书并导出 3.开启代理模式 4.证书格式化 5.通过MT管理器将证书配置到模拟器中 6.模拟器WiFi填入Charles代理的IP和端口 7.抓包示例
1877 0
Charles - 夜神模拟器证书安装App抓包
|
网络安全 Docker 容器
Docker常见问题1: driver failed programming external connectivity on endpoint
Docker常见问题1: driver failed programming external connectivity on endpoint
|
数据可视化 数据处理 Python
python处理NetCDF格式文件
python处理NetCDF格式文件
589 0
python处理NetCDF格式文件