Puppeteer的高级用法:如何在Node.js中实现复杂的Web Scraping

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 随着互联网的发展,网页数据抓取已成为数据分析和市场调研的关键手段。Puppeteer是一款由Google开发的无头浏览器工具,可在Node.js环境中模拟用户行为,高效抓取网页数据。本文将介绍如何利用Puppeteer的高级功能,通过设置代理IP、User-Agent和Cookies等技术,实现复杂的Web Scraping任务,并提供示例代码,展示如何使用亿牛云的爬虫代理来提高爬虫的成功率。通过合理配置这些参数,开发者可以有效规避目标网站的反爬机制,提升数据抓取效率。

爬虫代理.png

概述

随着互联网的发展,网页数据抓取(Web Scraping)已成为数据分析和市场调研的重要手段之一。Puppeteer作为一款强大的无头浏览器自动化工具,能够在Node.js环境中模拟用户行为,从而高效地抓取网页数据。然而,当面对复杂的网页结构和反爬虫机制时,基础的爬虫技术往往无法满足需求。本文将深入探讨如何在Node.js中利用Puppeteer的高级功能,实现复杂的Web Scraping任务,并通过代理IP、User-Agent、Cookies等技术提高爬虫的成功率。

细节

1. Puppeteer简介与安装

Puppeteer是由Google开发的一款无头浏览器工具,它可以控制Chromium或Chrome浏览器进行各种自动化操作。使用Puppeteer,开发者可以模拟浏览器的行为,例如点击、输入、导航等,甚至可以生成页面的PDF或截图。
安装Puppeteer非常简单,只需在Node.js环境中执行以下命令:

npm install puppeteer
2. 设置代理IP、User-Agent与Cookies

在进行Web Scraping时,使用代理IP可以有效避免被目标网站限制,尤其是在大量请求的情况下。此外,通过设置User-Agent和Cookies,爬虫可以伪装成真实用户的访问行为,从而进一步提高数据抓取的成功率。
以下是一个使用Puppeteer进行复杂Web Scraping的示例代码(BOSS直聘),代码中使用了亿牛云的爬虫代理,并设置了User-Agent与Cookies信息。

const puppeteer = require('puppeteer');

// 配置代理IP的信息 亿牛云爬虫代理 www.16yun.cn
const proxy = {
   
   
    host: 'proxy.16yun.cn', // 代理IP端口服务器
    port: 8000, // 代理IP端口
    username: '你的代理用户名', // 代理IP用户名
    password: '你的代理密码' // 代理IP密码
};

// 用户代理信息(User-Agent)
const userAgent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.63 Safari/537.36';

// 预设的Cookies信息
const cookies = [
    {
   
   
        name: 'your_cookie_name', // 替换为实际的Cookie名称
        value: 'your_cookie_value', // 替换为实际的Cookie值
        domain: '.zhipin.com' // Boss直聘的域名
    }
];

(async () => {
   
   
    // 启动Puppeteer浏览器实例,并设置代理IP
    const browser = await puppeteer.launch({
   
   
        headless: true, // 无头模式
        args: [
            `--proxy-server=${
     
     proxy.host}:${
     
     proxy.port}` // 配置代理IP
        ]
    });

    // 创建一个新的浏览器页面
    const page = await browser.newPage();

    // 设置User-Agent
    await page.setUserAgent(userAgent);

    // 设置代理IP的认证
    await page.authenticate({
   
   
        username: proxy.username,
        password: proxy.password
    });

    // 设置Cookies
    await page.setCookie(...cookies);

    // 导航到Boss直聘的应聘简历页面
    await page.goto('https://www.zhipin.com/web/geek/job-recommend', {
   
    waitUntil: 'networkidle2' });

    // 等待页面中的简历列表加载完成
    await page.waitForSelector('.geek-item');

    // 抓取简历信息
    const resumes = await page.evaluate(() => {
   
   
        const resumeElements = document.querySelectorAll('.geek-item');
        const resumeData = [];

        resumeElements.forEach((element) => {
   
   
            const name = element.querySelector('.name').innerText; // 应聘者姓名
            const jobTitle = element.querySelector('.job-name').innerText; // 目标职位
            const experience = element.querySelector('.text').innerText; // 工作经验
            const location = element.querySelector('.address').innerText; // 所在城市
            const salary = element.querySelector('.salary').innerText; // 期望薪资

            resumeData.push({
   
    name, jobTitle, experience, location, salary });
        });

        return resumeData;
    });

    // 打印抓取的简历数据
    console.log(resumes);

    // 在抓取完成后关闭浏览器
    await browser.close();
})();
3. 代码解析
  • 代理IP设置:通过--proxy-server参数设置代理IP,避免IP被封禁的风险。同时,使用page.authenticate()方法对代理IP进行认证。
  • User-Agent设置:通过page.setUserAgent()方法伪装请求的浏览器信息,模拟真实用户的访问行为。
  • Cookies设置:通过page.setCookie()方法预设Cookies信息,以维持会话状态或绕过登录验证。
  • 页面抓取:通过page.goto()方法导航到目标网页,并使用page.content()方法获取网页内容。

    4. 代理IP与Puppeteer的配合

    使用代理IP进行Web Scraping时,建议选择一个稳定、速度快的代理服务商,例如亿牛云爬虫代理。通过使用稳定的代理服务,可以大大提高爬虫的效率和成功率。此外,合理设置抓取频率和随机等待时间,也能有效避免触发目标网站的反爬虫机制。

    5. 提高爬虫效率的其他技巧
  • 使用并发请求:在不影响目标网站的前提下,可以使用Puppeteer的并发功能,批量抓取多个页面的数据,以提高抓取效率。

  • 动态加载处理:对于动态加载的网页,可以使用page.waitForSelector()page.waitForTimeout()方法,确保所有数据加载完成后再进行抓取。
  • 错误处理与重试机制:在Web Scraping过程中,难免会遇到网络异常或抓取失败的情况。通过设置错误处理与重试机制,可以提高爬虫的鲁棒性。

    结论

    Puppeteer作为一款功能强大的无头浏览器自动化工具,在Web Scraping领域具有广泛的应用前景。通过合理配置代理IP、User-Agent与Cookies,开发者可以有效提升爬虫的成功率,并规避目标网站的反爬虫机制。希望本文的内容能够帮助你在Node.js环境中更好地掌握Puppeteer的高级用法,并在实际项目中成功实现复杂的Web Scraping任务。
相关文章
|
9天前
|
数据采集 存储 JavaScript
Puppeteer的高级用法:如何在Node.js中实现复杂的Web Scraping
在现代Web开发中,数据采集尤为重要,尤其在财经领域。本文以“东财股吧”为例,介绍如何使用Puppeteer结合代理IP技术进行高效的数据抓取。Puppeteer是一个强大的Node.js库,支持无头浏览器操作,适用于复杂的数据采集任务。通过设置代理IP、User-Agent及Cookies,可显著提升抓取成功率与效率,并以示例代码展示具体实现过程,为数据分析提供有力支持。
Puppeteer的高级用法:如何在Node.js中实现复杂的Web Scraping
|
4天前
|
JavaScript 前端开发
|
5天前
|
Web App开发 JavaScript 前端开发
构建高效Web应用:Node.js与Express框架的深度整合
【9月更文挑战第28天】在现代Web开发领域,Node.js和Express框架的结合已成为打造高性能、易扩展应用的黄金组合。本文将深入探讨如何利用这一技术栈优化Web应用架构,提供具体实践指导,并分析其性能提升的内在机制。通过代码示例,我们将展示从基础搭建到高级功能的实现过程,旨在为开发者提供一条清晰的学习路径,以实现技术升级和项目效率的双重提升。
14 3
|
4天前
|
JSON JavaScript 前端开发
构建高效Web应用:Node.js与Express框架的完美结合
【9月更文挑战第28天】在现代Web开发中,Node.js和Express框架的结合为创建高性能、易扩展的应用提供了强有力的支持。本文将深入探讨如何利用这两种技术构建一个简单但功能强大的Web服务,同时提供代码示例以加深理解。
|
6天前
|
JavaScript 前端开发 索引
JavaScript 数组中splice()的用法
本文介绍了JavaScript数组方法splice()的三种用法:删除元素、插入元素和替换元素,通过具体代码示例展示了如何使用splice()方法进行数组的修改操作。
|
1月前
|
数据库 开发者 Python
web应用开发
【9月更文挑战第1天】web应用开发
38 1
|
20天前
|
数据可视化 图形学 UED
只需四步,轻松开发三维模型Web应用
为了让用户更方便地应用三维模型,阿里云DataV提供了一套完整的三维模型Web模型开发方案,包括三维模型托管、应用开发、交互开发、应用分发等完整功能。只需69.3元/年,就能体验三维模型Web应用开发功能!
41 8
只需四步,轻松开发三维模型Web应用
|
11天前
|
安全 API 开发者
Web 开发新风尚!Python RESTful API 设计与实现,让你的接口更懂开发者心!
在当前的Web开发中,Python因能构建高效简洁的RESTful API而备受青睐,大大提升了开发效率和用户体验。本文将介绍RESTful API的基本原则及其在Python中的实现方法。以Flask为例,演示了如何通过不同的HTTP方法(如GET、POST、PUT、DELETE)来创建、读取、更新和删除用户信息。此示例还包括了基本的路由设置及操作,为开发者提供了清晰的API交互指南。
44 6
|
9天前
|
存储 JSON API
实战派教程!Python Web开发中RESTful API的设计哲学与实现技巧,一网打尽!
在数字化时代,Web API成为连接前后端及构建复杂应用的关键。RESTful API因简洁直观而广受欢迎。本文通过实战案例,介绍Python Web开发中的RESTful API设计哲学与技巧,包括使用Flask框架构建一个图书管理系统的API,涵盖资源定义、请求响应设计及实现示例。通过准确使用HTTP状态码、版本控制、错误处理及文档化等技巧,帮助你深入理解RESTful API的设计与实现。希望本文能助力你的API设计之旅。
31 3
|
11天前
|
JSON API 数据库
从零到英雄?一篇文章带你搞定Python Web开发中的RESTful API实现!
在Python的Web开发领域中,RESTful API是核心技能之一。本教程将从零开始,通过实战案例教你如何使用Flask框架搭建RESTful API。首先确保已安装Python和Flask,接着通过创建一个简单的用户管理系统,逐步实现用户信息的增删改查(CRUD)操作。我们将定义路由并处理HTTP请求,最终构建出功能完整的Web服务。无论是初学者还是有经验的开发者,都能从中受益,迈出成为Web开发高手的重要一步。
32 4
下一篇
无影云桌面