Python爬虫：使用pyppeteer爬取动态加载的网站

2022-09-04 530

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Python爬虫：使用pyppeteer爬取动态加载的网站

pyppeteer 类似selenium，可以操作Chrome浏览器

文档：https://miyakogi.github.io/pyppeteer/index.html

github: https://github.com/miyakogi/pyppeteer

安装

环境要求：

python 3.6+

pip install pyppeteer

代码示例

# -*- coding: utf-8 -*-
import asyncio
from pyppeteer import launch
from pyquery import PyQuery as pq
# 最好指定一下自己浏览器的位置，如果不指定会自动下载，太慢了...
executable_path = "/Applications/Google Chrome.app/Contents/MacOS/Google Chrome"
# 示例一： 渲染页面
async def crawl_page():
    # 打开浏览器
    browser = await launch(executablePath=executable_path)
    # 打开tab
    page = await browser.newPage()
    # 输入网址回车
    await page.goto('http://quotes.toscrape.com/js/')
    # 获取内容并解析
    doc = pq(await page.content())
    print('Quotes:', doc('.quote').length)
    # 关闭浏览器
    await browser.close()
# 示例二：截图，保存pdf，执行js
async def save_pdf():
    browser = await launch(executablePath=executable_path)
    page = await browser.newPage()
    await page.goto('http://quotes.toscrape.com/js/')
    # 网页截图保存
    await page.screenshot(path='example.png')
    # 网页导出 PDF 保存
    await page.pdf(path='example.pdf')
    # 执行 JavaScript
    dimensions = await page.evaluate('''() => {
            return {
                width: document.documentElement.clientWidth,
                height: document.documentElement.clientHeight,
                deviceScaleFactor: window.devicePixelRatio,
            }
        }''')
    print(dimensions)
    await browser.close()
if __name__ == '__main__':
    asyncio.get_event_loop().run_until_complete(crawl_page())
    # asyncio.get_event_loop().run_until_complete(save_pdf())

异步编程，这个关键字太多了，看的眼花缭乱

参考

别只用 Selenium，新神器 Pyppeteer 绕过淘宝更简单！

Python爬虫：使用pyppeteer爬取动态加载的网站

安装

代码示例

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Python爬虫：使用pyppeteer爬取动态加载的网站

安装

代码示例

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像