Puppeteer自动化:使用JavaScript定制PDF下载

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 在现代Web开发中,自动化工具如Puppeteer可显著提升效率并减少重复工作。Puppeteer是一款强大的Node.js库,能够控制无头Chrome或Chromium浏览器,适用于网页快照生成、数据抓取及自动化测试等任务。本文通过示例展示了如何使用Puppeteer自动化生成定制化的PDF文件,并介绍了如何通过配置代理IP、设置user-agent和cookie等技术增强自动化过程的灵活性与稳定性。具体步骤包括安装Puppeteer、配置代理IP、设置user-agent和cookie等,最终生成符合需求的PDF文件。此技术可应用于报表生成、发票打印等多种场景。

爬虫代理

引言

在现代的Web开发中,自动化已经成为提高效率和减少重复劳动的重要手段。Puppeteer 是一个强大的Node.js库,提供了对无头Chrome或Chromium的控制,可以用于生成网页快照、抓取数据、自动化测试等任务。其中,生成PDF文件是一个常见的需求,本文将通过使用Puppeteer展示如何自动化生成定制的PDF,并使用代理IP、设置user-agent、cookie等技术来增强自动化过程的灵活性与稳定性。

正文

Puppeteer允许用户通过简洁的API操控浏览器行为,如页面导航、点击、表单填写和页面截图等。生成PDF的过程就是通过控制浏览器渲染页面,并将页面内容输出为PDF格式文件。为了应对网络请求的反爬虫策略,代理IP、user-agent和cookie等配置显得尤为重要,特别是需要从特定网站获取数据时。

Puppeteer生成PDF的基本步骤

  1. 安装Puppeteer
    首先,需要确保Node.js环境已安装。通过以下命令安装Puppeteer:
npm install puppeteer
AI 代码解读
  1. 配置代理IP
    在复杂的爬虫任务中,使用代理IP是避免IP被封的常用手段。本文将参考爬虫代理的配置来实现代理IP的设置。
  2. 设置user-agent和cookie
    设置合适的user-agent和cookie有助于模仿真实用户访问,避免触发反爬机制。

示例代码

const puppeteer = require('puppeteer');

// 亿牛云(www.16yun.cn)爬虫代理配置
const proxyConfig = {
   
    domain: 'your_proxy_domain',  // 代理IP提供商的域名
    port: 'your_proxy_port',      // 代理端口
    username: 'your_username',    // 用户名
    password: 'your_password'     // 密码
};

// 自定义的User-Agent和Cookie
const userAgent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36';
const cookie = [{
   
    'name': 'example_cookie',
    'value': 'cookie_value',
    'domain': '.example.com',
    'path': '/'
}];

(async () => {
   
    // 启动带有代理的浏览器实例
    const browser = await puppeteer.launch({
   
        headless: true, // 以无头模式运行
        args: [
            `--proxy-server=${
     proxyConfig.domain}:${
     proxyConfig.port}` // 设置代理IP
        ]
    });

    const page = await browser.newPage();

    // 设置代理认证
    await page.authenticate({
   
        username: proxyConfig.username,
        password: proxyConfig.password
    });

    // 设置User-Agent
    await page.setUserAgent(userAgent);

    // 设置Cookie
    await page.setCookie(...cookie);

    // 导航到目标网页
    await page.goto('https://www.example.com', {
    waitUntil: 'networkidle2' });

    // 生成PDF文件
    await page.pdf({
   
        path: 'output.pdf',       // 输出PDF文件的路径
        format: 'A4',             // 设置纸张格式
        printBackground: true,    // 是否打印背景
        displayHeaderFooter: false // 隐藏页眉和页脚
    });

    console.log('PDF生成成功!');

    // 关闭浏览器
    await browser.close();
})();
AI 代码解读

代码解读

  1. 代理配置
    使用args参数指定代理服务器,并通过page.authenticate()方法进行代理认证。
  2. 设置user-agent
    通过page.setUserAgent()来模仿真实用户浏览器的行为。
  3. 设置cookie
    通过page.setCookie()模拟登录状态或获取特定权限的数据。
  4. 生成PDF
    通过page.pdf()方法可以将当前页面渲染为PDF。该方法允许自定义输出的PDF文件路径、格式、是否显示背景图、以及是否包含页眉页脚等选项。

实例

为了更好地理解如何定制Puppeteer生成的PDF文件,我们提供一个生成A4纸张格式的网页PDF的实例。该PDF文件包含网页的所有内容,并且通过代理IP绕过网站的防爬机制。用户可以根据需求自定义输出的PDF格式或内容。

结论

Puppeteer的强大功能使其在网页自动化、数据抓取、生成PDF等任务中表现出色。通过结合代理IP、设置user-agent和cookie等技术,我们可以提升自动化任务的灵活性和稳定性。在实际项目中,这种自动化生成PDF的技术可以广泛应用于报表生成、发票打印等场景。

目录
打赏
0
5
6
1
199
分享
相关文章
【02】仿站技术之python技术,看完学会再也不用去购买收费工具了-本次找了小影-感觉页面很好看-本次是爬取vue需要用到Puppeteer库用node.js扒一个app下载落地页-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡
【02】仿站技术之python技术,看完学会再也不用去购买收费工具了-本次找了小影-感觉页面很好看-本次是爬取vue需要用到Puppeteer库用node.js扒一个app下载落地页-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡
44 7
【02】仿站技术之python技术,看完学会再也不用去购买收费工具了-本次找了小影-感觉页面很好看-本次是爬取vue需要用到Puppeteer库用node.js扒一个app下载落地页-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡
|
14天前
|
【2025优雅草开源计划进行中01】-针对web前端开发初学者使用-优雅草科技官网-纯静态页面html+css+JavaScript可直接下载使用-开源-首页为优雅草吴银满工程师原创-优雅草卓伊凡发布
【2025优雅草开源计划进行中01】-针对web前端开发初学者使用-优雅草科技官网-纯静态页面html+css+JavaScript可直接下载使用-开源-首页为优雅草吴银满工程师原创-优雅草卓伊凡发布
32 1
【2025优雅草开源计划进行中01】-针对web前端开发初学者使用-优雅草科技官网-纯静态页面html+css+JavaScript可直接下载使用-开源-首页为优雅草吴银满工程师原创-优雅草卓伊凡发布
Node.js 中实现多任务下载的并发控制策略
Node.js 中实现多任务下载的并发控制策略
使用 Puppeteer 绕过 Captcha:实现商家数据自动化采集
本文介绍了如何使用Puppeteer结合代理IP和用户伪装技术,轻松绕过大众点评的Captcha验证,实现商家信息的高效采集。通过配置Puppeteer、设置代理和用户伪装参数、模拟人类操作等步骤,成功提取了目标页面的数据。该方法不仅提高了爬虫的稳定性和隐蔽性,还为市场研究和商业分析提供了有力支持。注意,数据采集需遵守法律法规及网站政策。
使用 Puppeteer 绕过 Captcha:实现商家数据自动化采集
前端界面生成PDF并导出下载
【10月更文挑战第21天】利用合适的第三方库,你可以在前端轻松实现界面生成 PDF 并导出下载的功能,为用户提供更方便的文档分享和保存方式。你还可以根据具体的需求进一步优化和定制生成的 PDF 文件,以满足不同的业务场景要求。
Ruby脚本:自动化网页图像下载的实践案例
Ruby脚本:自动化网页图像下载的实践案例
OCRmyPDF:16.5K Star!快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具
OCRmyPDF 是一款开源命令行工具,专为将扫描的 PDF 文件转换为可搜索、可复制的文档。支持多语言、图像优化和多核处理。
159 17
OCRmyPDF:16.5K Star!快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等