pyppeteer实现不加载image,css等大文件, 缩短页面加载时间

简介: 常见问题及解决方案


frc-a1d2bbc8a5dec8b2ffda61c04ae5c93f.gif


需求背景



        在很多时候, 写爬虫的过程中, 不得不使用一些自动化工具来完成抓取, pyppeteer就是一个很好的选择, 一般情况下, 会选择页面加载完成后, 点击按钮等等, 但是有时候,  我们只需要其中的一些数据, 比如a标签的href, 其它的都不重要, 等待其它文件加载, 反而会影响爬虫的效率, 这时候, 就可以选择过滤一些无用文件的加载, 在缩短页面加载时间



代码



# -*- coding: utf-8 -*-
# @Author: Mehaei
# @Date: 2022-06-13 18:45:33
# @Last Modified by: Mehaei
# @Last Modified time: 2022-06-13 18:45:33
import asyncio
from pyppeteer import launch

class PageMiddleware(object):
@staticmethod
async def add_intercept(page):
await page.setRequestInterception(True)
page.on('request', PageMiddleware.intercept_request)
page.on('response', PageMiddleware.intercept_response)

@staticmethod
async def intercept_request(req):
print("request url", req.url)
print("request type", req.resourceType)
if req.resourceType in ['stylesheet', 'script', 'image', 'media', 'eventsource', 'websocket']:
await req.abort()
else:
await req.continue_()

@staticmethod
async def intercept_response(res):
resourceType = res.request.resourceType
print("response type", resourceType)

async def main():
browser = await launch(
headless=False
)
page = await browser.newPage()

await PageMiddleware.add_intercept(page)
await page.goto("https://www.baidu.com")


if __name__ == "__main__":
io_loop = asyncio.get_event_loop()
    io_loop.run_until_complete(main())


这样就可以实现过滤不需要的请求, 和处理响应内容



其它问题及解决



1 设置浏览器最大化



    browser = await launch(
headless=False,
# 浏览器铺满屏幕
# args=['--start-fullscreen'],
# 窗口在浏览器中最大化(mac测试无效)
# args=['--start-maximized']
)
page = await browser.newPage()
# 设置页面显示区域大小
# await page.setViewport({
# "width": 1024,
# "height": 963
# })



2 页面超时

有时候, 页面明明已经加载完成了, 但还是会报超时错误

Navigation Timeout Exceeded: 30000 ms exceeded.

解决

pip3 install websockets==6.0 --force-reinstall



3 移除自动化提示框


移除 Chrom正受到自动测试软件的控制提示

from pyppeteer import launcher
try:
launcher.AUTOMATION_ARGS.remove("--enable-automation")
except:
pass
try:
launcher.DEFAULT_ARGS.remove("--enable-automation")
except:
pass
from pyppeteer import launch


文章来源于公众号: pyppeteer实现不加载image,css等大文件, 缩短页面加载时间
目录
相关文章
|
1月前
|
前端开发
【CSS】纯css3螺旋状loading加载特效
【CSS】纯css3螺旋状loading加载特效
27 4
|
3月前
|
Java Spring 数据库
怎样动动手指就能实现数据操作?Spring Data JPA背后的魔法揭秘
【8月更文挑战第31天】在Java开发中,数据库交互至关重要。传统的JDBC操作繁琐且难维护,而Spring Data JPA作为集成JPA的数据访问层解决方案,提供了CRUD等通用操作接口,显著减少代码量。通过继承`JpaRepository`,开发者能轻松实现数据的增删改查,甚至复杂查询和分页也不再困难。本文将通过示例详细介绍如何利用Spring Data JPA简化数据访问层的开发,提升代码质量和可维护性。
41 0
|
3月前
|
前端开发 JavaScript
开发过程找不到css源文件?试试配置vite的css源文件映射
【8月更文挑战第3天】开发过程找不到css源文件?试试配置vite的css源文件映射
67 0
开发过程找不到css源文件?试试配置vite的css源文件映射
|
3月前
|
前端开发 JavaScript Linux
【Azure 应用服务】在Azure App Service for Linux环境中,部署的Django应用,出现加载css、js等静态资源文件失败
【Azure 应用服务】在Azure App Service for Linux环境中,部署的Django应用,出现加载css、js等静态资源文件失败
|
4月前
|
前端开发 JavaScript
文本,wangEditor5展示HTML无样式,wangEditor5如何看源码,Ctrl + U看CSS文件,代码高亮,Prism.js可以实现,解决方法,参考网页源代码的写法
文本,wangEditor5展示HTML无样式,wangEditor5如何看源码,Ctrl + U看CSS文件,代码高亮,Prism.js可以实现,解决方法,参考网页源代码的写法
|
4月前
|
前端开发
css特效动画——页面加载中 ...
css特效动画——页面加载中 ...
31 1
|
4月前
|
前端开发
css特效动画——转圈的加载动画
css特效动画——转圈的加载动画
65 0
|
4月前
|
前端开发
css实用技巧——异步加载图片时,在图片完成加载前,鼠标悬浮到占位图片上时显示图片的alt信息
css实用技巧——异步加载图片时,在图片完成加载前,鼠标悬浮到占位图片上时显示图片的alt信息
26 0
|
5月前
|
移动开发 JavaScript 前端开发
rem的适配方案,css文件和js文件的引入方式,特色小边框的制作,DS-Digital.ttf数字展示屏的使用方法:,自适应图片 background-size,jQuery爆bug,a和盒子居中,
rem的适配方案,css文件和js文件的引入方式,特色小边框的制作,DS-Digital.ttf数字展示屏的使用方法:,自适应图片 background-size,jQuery爆bug,a和盒子居中,
|
5月前
|
XML 数据采集 前端开发
Python第二章(HTMl文件,CSS语言与第三方库Beautiful Soup)
Python第二章(HTMl文件,CSS语言与第三方库Beautiful Soup)