从网页中提取结构化数据:Puppeteer和Cheerio的高级技巧

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 在本文中,我们将介绍两个常用的网页数据抓取工具:Puppeteer和Cheerio。Puppeteer是一个基于Node.js的无头浏览器库,它可以模拟浏览器的行为,如打开网页、点击元素、填写表单等。Cheerio是一个基于jQuery的HTML解析库,它可以方便地从HTML文档中提取数据,如选择器、属性、文本等。我们将结合这两个工具,展示如何从网页中提取结构化数据,并给出一些高级技巧,如使用代理IP、处理动态内容、优化性能等。

亿牛云代理

导语

网页数据抓取是一种从网页中提取有用信息的技术,它可以用于各种目的,如数据分析、竞争情报、内容聚合等。然而,网页数据抓取并不是一件容易的事情,因为网页的结构和内容可能会随时变化,而且有些网站会采用反爬虫措施,阻止或限制爬虫的访问。因此,我们需要使用一些高级的技巧,来提高爬虫的效率和稳定性。

概述

在本文中,我们将介绍两个常用的网页数据抓取工具:Puppeteer和Cheerio。Puppeteer是一个基于Node.js的无头浏览器库,它可以模拟浏览器的行为,如打开网页、点击元素、填写表单等。Cheerio是一个基于jQuery的HTML解析库,它可以方便地从HTML文档中提取数据,如选择器、属性、文本等。我们将结合这两个工具,展示如何从网页中提取结构化数据,并给出一些高级技巧,如使用代理IP、处理动态内容、优化性能等。

正文

使用代理IP提高爬虫效果

代理IP是一种隐藏真实IP地址的方法,它可以让爬虫伪装成不同的用户或地区访问网站,从而避免被封禁或限速。使用代理IP的方法有很多,例如使用第三方服务、自建代理池等。在本文中,我们将使用亿牛云爬虫代理作为示例,它提供了稳定、快速、安全的代理IP服务,并支持多种协议和认证方式。

要使用亿牛云爬虫代理,我们需要先注册一个账号,并获取域名、端口、用户名和密码。然后,在Puppeteer中,我们可以通过设置launch方法的args参数,来指定代理IP地址和认证信息。例如:

// 引入puppeteer模块
const puppeteer = require('puppeteer');

// 定义亿牛云 爬虫加强版代理的域名、端口、用户名和密码
const proxyDomain = 'www.16yun.cn';
const proxyPort = '9020';
const proxyUser = '16YUN';
const proxyPass = '16IP';

// 启动无头浏览器,并设置亿牛云代理IP地址和认证信息
const browser = await puppeteer.launch({
   
   
  args: [
    `--proxy-server=${proxyDomain}:${proxyPort}`,
    `--proxy-auth=${proxyUser}:${proxyPass}`
  ]
});

这样,我们就可以通过亿牛云爬虫代理访问任何网站了。

处理动态内容

动态内容是指那些不是在网页加载时就存在的内容,而是通过JavaScript或Ajax等技术在运行时生成或更新的内容。例如,有些网站会使用分页或滚动加载来显示更多数据,或者使用下拉菜单或按钮来切换不同的视图。这些动态内容对于普通的HTML解析器来说是不可见的,因此我们需要使用Puppeteer来模拟浏览器的交互行为,来触发或获取这些内容。

在Puppeteer中,我们可以使用page对象来操作网页。page对象提供了很多方法和事件,来模拟用户的输入和反馈。例如:

  • page.goto(url):打开一个网页
  • page.waitForSelector(selector):等待一个元素出现
  • page.click(selector):点击一个元素
  • page.evaluate(function):在网页中执行一个函数
  • page.on(event, handler):监听一个事件

使用这些方法,我们可以实现很多复杂的交互逻辑,来处理动态内容。例如,假设我们要从一个电商网站中提取商品的名称、价格和评分,但是这些数据是通过滚动加载的,我们可以使用以下代码:

// 引入puppeteer和cheerio模块
const puppeteer = require('puppeteer');
const cheerio = require('cheerio');

// 定义目标网址
const url = 'https://www.amazon.com/s?k=iphone';

// 启动无头浏览器,并设置亿牛云代理IP地址和认证信息
const browser = await puppeteer.launch({
   
   
  args: [
    `--proxy-server=${proxyDomain}:${proxyPort}`,
    `--proxy-auth=${proxyUser}:${proxyPass}`
  ]
});

// 打开一个新的页面
const page = await browser.newPage();

// 打开目标网址
await page.goto(url);

// 定义一个空数组,用于存储提取的数据
let data = [];

// 定义一个循环,用于滚动加载更多数据
while (true) {
   
   
  // 等待商品列表出现
  await page.waitForSelector('.s-result-list');

  // 获取网页的HTML内容
  const html = await page.content();

  // 使用cheerio加载HTML内容,并提取数据
  const $ = cheerio.load(html);
  $('.s-result-item').each((index, element) => {
   
   
    // 获取商品的名称、价格和评分
    const name = $(element).find('.a-size-medium').text().trim();
    const price = $(element).find('.a-price-whole').text().trim();
    const rating = $(element).find('.a-icon-alt').text().trim();

    // 如果数据不为空,就添加到数组中
    if (name && price && rating) {
   
   
      data.push({
   
    name, price, rating });
    }
  });

  // 打印当前提取的数据数量
  console.log(`当前提取了${
     
     data.length}条数据`);

  // 判断是否有下一页的按钮
  const nextButton = await page.$('.a-last a');

  // 如果有下一页的按钮,就点击它,并继续循环
  if (nextButton) {
   
   
    await nextButton.click();
  } else {
   
   
    // 如果没有下一页的按钮,就退出循环
    break;
  }
}

// 关闭无头浏览器
await browser.close();

// 打印最终提取的数据
console.log(data);

这样,我们就可以从动态内容中提取结构化数据了。

优化性能

性能是指爬虫的运行速度和资源消耗。性能优化是指通过一些方法,来提高爬虫的运行效率和稳定性。性能优化的方法有很多,例如:

  • 减少无用的请求:有些网页会加载很多不相关的资源,如图片、视频、广告等,这些资源对于数据抓取来说是没有用的,而且会增加网络流量和内存占用。我们可以通过设置page.setRequestInterception(true)page.on('request', callback)来拦截和过滤这些请求。例如:
// 启用请求拦截
await page.setRequestInterception(true);

// 监听请求事件,并过滤不需要的请求类型
page.on('request', request => {
   
   
  const type = request.resourceType();
  if (type === 'image' || type === 'media' || type === 'font') {
   
   
    request.abort();
  } else {
   
   
    request.continue();
  }
});
  • 并发多个任务:有些时候,我们需要抓取多个网页或多个网站的数据,如果我们按照顺序一个一个地抓取,那么会花费很多时间。我们可以通过使用Promise.all()Promise.map()等方法,来并发多个任务,从而提高爬虫的速度。例如,假设我们要从三个不同的网站中提取新闻标题,我们可以使用以下代码:
// 引入puppeteer和cheerio模块
const puppeteer = require('puppeteer');
const cheerio = require('cheerio');

// 定义三个目标网址
const urls = [
  'https://www.bbc.com/news',
  'https://www.cnn.com',
  'https://www.nytimes.com'
];

// 启动无头浏览器,并设置亿牛云代理IP地址和认证信息
const browser = await puppeteer.launch({
   
   
  args: [
    `--proxy-server=${proxyDomain}:${proxyPort}`,
    `--proxy-auth=${proxyUser}:${proxyPass}`
  ]
});

// 定义一个函数,用于从一个网址中提取新闻标题
const getNewsTitles = async (url) => {
   
   
  // 打开一个新的页面
  const page = await browser.newPage();

  // 打开目标网址
  await page.goto(url);

  // 获取网页的HTML内容
  const html = await page.content();

  // 使用cheerio加载HTML内容,并提取数据
  const $ = cheerio.load(html);
  const titles = [];
  $('h1, h2, h3').each((index, element) => {
   
   
    // 获取新闻标题,并去除空白字符
    const title = $(element).text().trim();

    // 如果标题不为空,就添加到数组中
    if (title) {
   
   
      titles.push(title);
    }
  });

  // 返回提取的数据
  return titles;
};

// 使用Promise.all()并发执行三个任务,并获取结果
const results = await Promise.all(urls.map(getNewsTitles));

// 关闭无头浏览器
await browser.close();

// 打印最终提取的数据
console.log(results);

这样,我们就可以同时从三个网站中提取新闻标题了。

案例

为了更好地理解和应用Puppeteer和Cheerio的高级技巧,我们将以一个具体的案例来进行演示。我们的目标是从豆瓣电影网站中提取最新上映的电影的名称、评分、类型和简介,并保存到一个CSV文件中。

首先,我们需要安装puppeteer、cheerio和csv-writer这三个模块:

npm install puppeteer cheerio csv-writer --save

然后,我们需要编写以下代码:

// 引入puppeteer、cheerio和csv-writer模块
const puppeteer = require('puppeteer');
const cheerio = require('cheerio');
const csvWriter = require('csv-writer');

// 定义目标网址
const url = 'https://movie.douban.com/cinema/nowplaying';

// 启动无头浏览器,并设置亿牛云代理IP地址和认证信息
const browser = await puppeteer.launch({
   
   
  args: [
    `--proxy-server=${proxyDomain}:${proxyPort}`,
    `--proxy-auth=${proxyUser}:${proxyPass}`
  ]
});

// 打开一个新的页面
const page = await browser.newPage();

// 打开目标网址
await page.goto(url);

// 获取网页的HTML内容
const html = await page.content();

// 使用cheerio加载HTML内容,并提取数据
const $ = cheerio.load(html);
const data = [];
$('#nowplaying .list-item').each((index, element) => {
   
   
  // 获取电影的名称、评分、类型和简介
  const name = $(element).data('title');
  const rating = $(element).data('score');
  const genre = $(element).data('category');
  const summary = $(element).find('.stitle a').attr('title');

  // 如果数据不为空,就添加到数组中
  if (name && rating && genre && summary) {
   
   
    data.push({
   
    name, rating, genre, summary });
  }
});

// 关闭无头浏览器
await browser.close();

// 定义CSV文件的列名和路径
const columns = [
  {
   
    id: 'name', title: '名称' },
  {
   
    id: 'rating', title: '评分' },
  {
   
    id: 'genre', title: '类型' },
  {
   
    id: 'summary', title: '简介' }
];
const path = './movies.csv';

// 创建一个CSV文件写入器,并写入数据
const writer = csvWriter.createObjectCsvWriter({
   
    path, columns });
await writer.writeRecords(data);

// 打印完成的提示
console.log('数据已保存到movies.csv文件中');

最后,我们可以运行以下命令,来执行我们的代码:

node index.js

这样,我们就可以从豆瓣电影网站中提取最新上映的电影的数据,并保存到一个CSV文件中了。

结语

在本文中,我们介绍了如何使用Puppeteer和Cheerio来从网页中提取结构化数据,并给出了一些高级技巧,如使用代理IP、处理动态内容、优化性能等。我们还以一个具体的案例来进行演示,从豆瓣电影网站中提取最新上映的电影的数据,并保存到一个CSV文件中。我们希望这些技巧和案例能够对您有所启发和帮助,让您能够更好地利用网页数据抓取的技术,来实现您的目标和需求。

相关文章
|
15天前
|
数据采集 存储 供应链
数据合并:cbind函数在网页爬取中的实用技巧
本文介绍了如何通过代理IP和多线程技术提高网页爬取效率,并使用`cbind`函数合并数据。以财经网新闻为例,展示了从指定网站下载、解析内容,到数据获取、合并及分析的完整流程。通过亿牛云爬虫代理和Python代码实现,确保高效无痕访问,最终将结果保存为CSV文件。此方法适用于大量分散数据的爬取与处理,助力经济趋势分析。
96 47
|
2月前
|
数据采集 存储 前端开发
Puppeteer教程:使用CSS选择器点击和爬取动态数据
本文介绍如何使用Puppeteer结合CSS选择器爬取动态网页数据,以贝壳网的二手房价格为例,通过代理IP提高爬虫成功率。文章详细讲解了Puppeteer的安装和配置、代码实现及数据趋势分析,帮助读者掌握动态网页爬取技术。
Puppeteer教程:使用CSS选择器点击和爬取动态数据
|
2月前
|
数据采集 机器学习/深度学习 供应链
用Puppeteer点击与数据爬取:实现动态网页交互
本文介绍了如何使用Puppeteer和代理IP抓取51job招聘信息。Puppeteer作为强大的浏览器自动化工具,能模拟用户操作、加载动态数据,结合代理IP技术可以提高抓取成功率并避免IP封禁。文章详细阐述了招聘信息的价值和市场应用,以及大数据分析在招聘信息采集中的应用。通过具体实现步骤和示例代码,展示了如何设置代理、模拟用户操作、抓取和分析数据,为企业和求职者提供有价值的市场洞察。
158 1
用Puppeteer点击与数据爬取:实现动态网页交互
|
4月前
|
数据采集 存储 Web App开发
利用Puppeteer-Har记录与分析网页抓取中的性能数据
在现代网页抓取中,性能数据的记录与分析至关重要。本文介绍如何使用Puppeteer-Har工具记录和分析抓取过程中的性能数据。Puppeteer-Har结合了Puppeteer和Har的优势,简化了性能数据分析流程。首先确保已安装Node.js和npm,并通过`npm install puppeteer puppeteer-har`安装所需库。为了规避IP限制,本文还介绍了如何配置代理IP。最后,通过一个完整示例展示了如何使用Puppeteer-Har抓取今日头条的性能数据,并对生成的HAR文件进行解析和存储。希望本文能为您的网页抓取工作提供帮助。
利用Puppeteer-Har记录与分析网页抓取中的性能数据
|
4月前
|
数据采集 JavaScript 前端开发
网页抓取进阶:如何提取复杂网页信息
在信息爆炸时代,从复杂网页中高效抓取数据对开发者和分析师至关重要。本文探讨如何利用 `webpage` 对象结合代理IP技术,轻松抓取如大众点评这类动态加载且具备反爬机制的网站数据。通过 Python 的 `requests`、`BeautifulSoup` 和 `Selenium`,结合代理IP,详细讲解了如何应对动态内容加载、反爬机制等问题,并提供了具体代码实现。通过这种方法,可以批量抓取商家信息,为数据分析提供支持。
334 1
网页抓取进阶:如何提取复杂网页信息
|
3月前
|
存储 JSON JavaScript
JavaScript动态渲染页面爬取——Pyppeteer爬取实战
JavaScript动态渲染页面爬取——Pyppeteer爬取实战
50 0
|
3月前
|
数据采集 JavaScript 前端开发
如何使用Python爬虫处理JavaScript动态加载的内容?
如何使用Python爬虫处理JavaScript动态加载的内容?
|
4月前
|
数据采集 JavaScript 前端开发
构建简易Python爬虫:抓取网页数据入门指南
【8月更文挑战第31天】在数字信息的时代,数据抓取成为获取网络资源的重要手段。本文将引导你通过Python编写一个简单的网页爬虫,从零基础到实现数据抓取的全过程。我们将一起探索如何利用Python的requests库进行网络请求,使用BeautifulSoup库解析HTML文档,并最终提取出有价值的数据。无论你是编程新手还是有一定基础的开发者,这篇文章都将为你打开数据抓取的大门。
|
5月前
|
数据采集 JavaScript 前端开发
构建你的第一个Python爬虫:抓取网页数据入门指南
【8月更文挑战第31天】在数字时代,数据是新的石油。本文将引导初学者通过简单的步骤,使用Python编程语言创建一个基础的网络爬虫程序。我们将探索如何从网络上提取信息,并理解背后的原理。无论你是编程新手还是想要扩展你的技术工具箱,这篇文章都将为你提供一条清晰的道路,让你学会编写能够自动获取网络数据的脚本。准备好开始你的网络数据抓取之旅了吗?让我们现在就开始吧!
|
7月前
|
数据采集 前端开发 JavaScript
Python爬虫技术:动态JavaScript加载音频的解析
Python爬虫技术:动态JavaScript加载音频的解析