如何使用Puppeteer在Node JS服务器上实现动态网页抓取

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: Puppeteer的核心功能是提供了一个Browser类,它可以启动一个Chrome或Chromium浏览器实例,并返回一个Browser对象。Browser对象可以创建多个Page对象,每个Page对象对应一个浏览器标签页,可以用来加载和操作网页。Page对象提供了一系列的方法,可以模拟用户的各种行为,如输入、点击、滚动、截图、PDF等。Page对象还可以监听网页上的事件,如请求、响应、错误、加载等。通过这些方法和事件,可以实现对动态网页的抓取。

亿牛云代理

导语

动态网页抓取是指通过模拟浏览器行为,获取网页上的动态生成的数据,如JavaScript渲染的内容、Ajax请求的数据等。动态网页抓取的难点在于如何处理网页上的异步事件,如点击、滚动、等待等。Puppeteer是一个基于Node JS的库,它提供了一个高级的API,可以控制Chrome或Chromium浏览器,实现动态网页抓取。本文将介绍如何使用Puppeteer在Node JS服务器上实现动态网页抓取,并给出一个简单的案例。

概述

Puppeteer的核心功能是提供了一个Browser类,它可以启动一个Chrome或Chromium浏览器实例,并返回一个Browser对象。Browser对象可以创建多个Page对象,每个Page对象对应一个浏览器标签页,可以用来加载和操作网页。Page对象提供了一系列的方法,可以模拟用户的各种行为,如输入、点击、滚动、截图、PDF等。Page对象还可以监听网页上的事件,如请求、响应、错误、加载等。通过这些方法和事件,可以实现对动态网页的抓取。

正文

要使用Puppeteer进行动态网页抓取,首先需要安装Puppeteer库。可以通过npm或yarn来安装:

// 使用npm安装
npm i puppeteer

// 使用yarn安装
yarn add puppeteer

安装完成后,就可以在Node JS代码中引入Puppeteer库,并使用它来启动浏览器和创建页面:

// 引入puppeteer库
const puppeteer = require('puppeteer');

// 启动浏览器并创建页面
(async () => {
   
   
  // 启动浏览器,可以传入一些选项,如无头模式、代理等
  const browser = await puppeteer.launch({
   
   
    headless: false, // 是否无头模式,默认为true
    args: ['--proxy-server=http://username:password@domain:port'] // 设置代理服务器,使用亿牛云爬虫代理的域名、端口、用户名、密码
  });

  // 创建页面
  const page = await browser.newPage();
})();

创建页面后,就可以使用page对象的方法来加载和操作网页。例如,可以使用page.goto(url)方法来访问一个网址,并等待网页加载完成:

// 访问一个网址,并等待网络空闲(即没有超过500ms的请求)
await page.goto('https://www.example.com', {
   
   waitUntil: 'networkidle0'});

然后,可以使用page.evaluate(pageFunction, ...args)方法来在浏览器中执行一些JavaScript代码,并返回结果。例如,可以获取网页上的某个元素的文本内容:

// 获取网页上的h1元素的文本内容
const h1Text = await page.evaluate(() => {
   
   
  return document.querySelector('h1').textContent;
});

除了evaluate方法外,page对象还提供了一些其他的方法来获取和操作网页上的元素,如page.$(selector)、page.$$(selector)、page.click(selector)、page.type(selector, text)等。例如,可以模拟用户在搜索框中输入关键词,并点击搜索按钮:

// 在搜索框中输入关键词
await page.type('#search-input', 'puppeteer');

// 点击搜索按钮
await page.click('#search-button');

有时候,我们需要等待一些异步事件发生后再进行下一步操作,如等待某个元素出现、等待某个请求完成等。这时候,我们可以使用page.waitFor(selectorOrFunctionOrTimeout, options, ...args)方法来设置等待条件。例如,可以等待搜索结果的列表出现后再获取其内容:

// 等待搜索结果的列表出现
await page.waitFor('#search-results');

// 获取搜索结果的列表的文本内容
const resultsText = await page.evaluate(() => {
   
   
  return document.querySelector('#search-results').textContent;
});

最后,当我们完成了对网页的抓取,我们可以使用page.screenshot(options)或page.pdf(options)方法来保存网页的截图或PDF文件。例如,可以将网页保存为png格式的图片:

// 将网页保存为png格式的图片
await page.screenshot({
   
   path: 'example.png'});

当我们不再需要浏览器和页面时,我们可以使用browser.close()方法来关闭浏览器:

// 关闭浏览器
await browser.close();

案例

下面给出一个简单的案例,使用Puppeteer在Node JS服务器上实现动态网页抓取。该案例的目标是访问百度首页,输入关键词“puppeteer”,点击搜索按钮,等待搜索结果出现,并将搜索结果的第一条链接的标题和网址保存到一个文件中。

// 引入puppeteer库和fs库(用于文件操作)
const puppeteer = require('puppeteer');
const fs = require('fs');

// 定义一个异步函数,用于执行动态网页抓取
(async () => {
   
   
  // 启动浏览器,设置代理服务器为亿牛云爬虫代理的域名、端口、用户名、密码
  const browser = await puppeteer.launch({
   
   
    args: ['--proxy-server=http://16YUN:16IP@www.16yun.cn:3100']
  });

  // 创建页面
  const page = await browser.newPage();

  // 访问百度首页,并等待网络空闲
  await page.goto('https://www.baidu.com', {
   
   waitUntil: 'networkidle0'});

  // 在搜索框中输入关键词“puppeteer”
  await page.type('#kw', 'puppeteer');

  // 点击搜索按钮
  await page.click('#su');

  // 等待搜索结果的列表出现
  await page.waitFor('#content_left');

  // 获取搜索结果的第一条链接的标题和网址
  const firstResult = await page.evaluate(() => {
   
   
    // 获取第一条链接的元素
    const firstLink = document.querySelector('#content_left .result.c-container a');
    // 返回标题和网址
    return {
   
   
      title: firstLink.innerText,
      url: firstLink.href
    };
  });

  // 将标题和网址保存到一个文件中
  fs.writeFileSync('result.txt', `${firstResult.title}\n${firstResult.url}`);

  // 关闭浏览器
  await browser.close();
})();

结语

本文介绍了如何使用Puppeteer在Node JS服务器上实现动态网页抓取,并给出了一个简单的案例。Puppeteer是一个强大而灵活的库,可以用来处理各种复杂的动态网页抓取场景。使用Puppeteer进行动态网页抓取时,需要注意以下几点:

  • 设置合适的代理服务器,以避免被目标网站屏蔽或限制。可以使用亿牛云爬虫代理提供的高质量的代理IP,提高爬虫效果。
  • 设置合适的等待条件,以确保网页上的异步事件完成后再进行下一步操作。可以使用page.waitFor方法来设置等待条件,如元素、函数、时间等。
  • 设置合适的异常处理,以应对可能发生的错误或异常。可以使用try...catch语句来捕获和处理错误或异常。

希望本文对你有所帮助,如果你有任何问题或建议,请在下面留言。谢谢!

相关文章
|
9月前
|
JavaScript 前端开发 安全
【逆向】Python 调用 JS 代码实战:使用 pyexecjs 与 Node.js 无缝衔接
本文介绍了如何使用 Python 的轻量级库 `pyexecjs` 调用 JavaScript 代码,并结合 Node.js 实现完整的执行流程。内容涵盖环境搭建、基本使用、常见问题解决方案及爬虫逆向分析中的实战技巧,帮助开发者在 Python 中高效处理 JS 逻辑。
|
弹性计算 JavaScript 前端开发
一键安装!阿里云新功能部署Nodejs环境到ECS竟然如此简单!
Node.js 是一种高效的 JavaScript 运行环境,基于 Chrome V8 引擎,支持在服务器端运行 JavaScript 代码。本文介绍如何在阿里云上一键部署 Node.js 环境,无需繁琐配置,轻松上手。前提条件包括 ECS 实例运行中且操作系统为 CentOS、Ubuntu 等。功能特点为一键安装和稳定性好,支持常用 LTS 版本。安装步骤简单:登录阿里云控制台,选择扩展程序管理页面,安装 Node.js 扩展,选择实例和版本,等待创建完成并验证安装成功。通过阿里云的公共扩展,初学者和经验丰富的开发者都能快速进入开发状态,开启高效开发之旅。
|
存储 JavaScript 前端开发
在NodeJS中使用npm包进行JS代码的混淆加密
总的来说,使用“javascript-obfuscator”包可以帮助我们在Node.js中轻松地混淆JavaScript代码。通过合理的配置,我们可以使混淆后的代码更难以理解,从而提高代码的保密性。
1358 9
|
Kubernetes API 网络安全
当node节点kubectl 命令无法连接到 Kubernetes API 服务器
当Node节点上的 `kubectl`无法连接到Kubernetes API服务器时,可以通过以上步骤逐步排查和解决问题。首先确保网络连接正常,验证 `kubeconfig`文件配置正确,检查API服务器和Node节点的状态,最后排除防火墙或网络策略的干扰,并通过重启服务恢复正常连接。通过这些措施,可以有效解决与Kubernetes API服务器通信的常见问题,从而保障集群的正常运行。
1201 17
|
弹性计算 JavaScript 前端开发
一键安装!阿里云新功能部署Nodejs环境到ECS竟然如此简单!
一键安装!阿里云新功能部署Nodejs环境到ECS竟然如此简单!
一键安装!阿里云新功能部署Nodejs环境到ECS竟然如此简单!
|
数据采集 JavaScript Android开发
【02】仿站技术之python技术,看完学会再也不用去购买收费工具了-本次找了小影-感觉页面很好看-本次是爬取vue需要用到Puppeteer库用node.js扒一个app下载落地页-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡
【02】仿站技术之python技术,看完学会再也不用去购买收费工具了-本次找了小影-感觉页面很好看-本次是爬取vue需要用到Puppeteer库用node.js扒一个app下载落地页-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡
681 7
【02】仿站技术之python技术,看完学会再也不用去购买收费工具了-本次找了小影-感觉页面很好看-本次是爬取vue需要用到Puppeteer库用node.js扒一个app下载落地页-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡
|
存储 JavaScript NoSQL
Node.js新作《循序渐进Node.js企业级开发实践》简介
《循序渐进Node.js企业级开发实践》由清华大学出版社出版,基于Node.js 22.3.0编写,包含26个实战案例和43个上机练习,旨在帮助读者从基础到进阶全面掌握Node.js技术,适用于初学者、进阶开发者及全栈工程师。
370 9
|
机器学习/深度学习 JavaScript Cloud Native
Node.js作为一种快速、可扩展的服务器端运行时环境
Node.js作为一种快速、可扩展的服务器端运行时环境
318 8
|
JavaScript 前端开发 数据安全/隐私保护
利用JavaScript来实现用动态检验密码强度
平时我们会在某些网站的注册页面或者更改密码的页面发现当我们输入密码时,会有一个类似于进度条的长条进行提示用户输入的密码强度。如下图: 我看到有些人用几张不同的图片来替换,这样似乎可以,但是不太好。所以我通过其他方式实现。
1348 0

热门文章

最新文章