如何使用Cheerio与jsdom解析复杂的HTML结构进行数据提取

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 在现代网页开发中,复杂的HTML结构给爬虫技术带来挑战。传统的解析库难以应对,而Cheerio和jsdom在Node.js环境下提供了强大工具。本文探讨如何在复杂HTML结构中精确提取数据,结合代理IP、cookie、user-agent设置及多线程技术,提升数据采集的效率和准确性。通过具体示例代码,展示如何使用Cheerio和jsdom解析HTML,并进行数据归类和统计。这种方法适用于处理大量分类数据的爬虫任务,帮助开发者轻松实现高效的数据提取。

爬虫代理.png

背景介绍

在现代网页开发中,HTML结构往往非常复杂,包含大量嵌套的标签和动态内容。这给爬虫技术带来了不小的挑战,尤其是在需要精确提取特定数据的场景下。传统的解析库可能无法有效处理这些复杂的结构,而JavaScript环境下的Cheerio和jsdom提供了强大的工具,帮助开发者在Node.js环境中高效解析和处理HTML文档。

问题陈述

如何在复杂的HTML结构中精确地提取数据,成为了许多爬虫开发者面临的核心问题。特别是在面对需要代理IP、cookie和user-agent设置以及高效多线程处理的需求时,如何将这些技术合理整合在一起,以确保数据的准确性和采集的高效性,是本文要探讨的重点。

解决方案

使用Cheerio和jsdom可以在Node.js环境中高效解析和操作HTML文档。这两个库各有特点:Cheerio提供了类似jQuery的API,方便处理DOM,而jsdom则更接近真实的浏览器环境,适合处理需要执行JavaScript的动态内容。结合代理IP、cookie、user-agent设置,以及多线程技术,可以显著提高数据采集的效率和可靠性。

案例分析

下面我们将通过一个具体的示例来演示如何使用Cheerio和jsdom解析复杂的HTML结构,并结合代理IP、cookie和user-agent的设置,实现高效的数据提取和归类统计。

示例代码
const axios = require('axios');
const cheerio = require('cheerio');
const {
   
    JSDOM } = require('jsdom');
const HttpsProxyAgent = require('https-proxy-agent');
const {
   
    spawn } = require('child_process');
const os = require('os');

// 代理配置 - 使用亿牛云爬虫代理服务 www.16yun.cn
const proxy = {
   
   
    host: 'proxy.16yun.cn', // 代理域名
    port: 8000, // 代理端口
    auth: {
   
   
        username: 'your_username', // 代理用户名
        password: 'your_password'  // 代理密码
    }
};

// 创建代理Agent
const proxyAgent = new HttpsProxyAgent(`http://${
     
     proxy.auth.username}:${
     
     proxy.auth.password}@${
     
     proxy.host}:${
     
     proxy.port}`);

// 设置cookie和user-agent
const headers = {
   
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',
    'Cookie': 'your_cookie_here'
};

// 待解析的URL
const url = 'http://www.soufun.com.cn';

// 多线程处理函数
function fetchData() {
   
   
    return new Promise((resolve, reject) => {
   
   
        axios.get(url, {
   
    headers, httpsAgent: proxyAgent })
            .then(response => {
   
   
                const dom = new JSDOM(response.data);
                const $ = cheerio.load(dom.window.document);

                // 使用Cheerio选择器提取数据
                const propertyList = [];
                $('div.property-item').each((i, el) => {
   
   
                    const property = {
   
   
                        title: $(el).find('h2').text().trim(),
                        price: $(el).find('.price').text().trim(),
                        location: $(el).find('.location').text().trim(),
                        type: $(el).find('.type').text().trim()
                    };
                    propertyList.push(property);
                });

                resolve(propertyList);
            })
            .catch(error => reject(error));
    });
}

// 创建多线程
function createWorkers(workerCount) {
   
   
    const workers = [];
    for (let i = 0; i < workerCount; i++) {
   
   
        const worker = spawn(os.platform() === 'win32' ? 'cmd' : 'sh', [], {
   
   
            stdio: 'inherit'
        });

        worker.on('message', fetchData);

        workers.push(worker);
    }
    return workers;
}

// 启动多线程采集并进行数据归类和统计
async function startScraping(workerCount) {
   
   
    const workers = createWorkers(workerCount);

    const results = await Promise.all(workers.map(worker => fetchData()));

    // 归类和统计数据
    const categorizedData = {
   
   };
    results.flat().forEach(property => {
   
   
        const type = property.type;
        if (!categorizedData[type]) {
   
   
            categorizedData[type] = [];
        }
        categorizedData[type].push(property);
    });

    // 打印统计结果
    for (const type in categorizedData) {
   
   
        console.log(`房产类型: ${
     
     type}`);
        console.log(`数量: ${
     
     categorizedData[type].length}`);
        console.log('详细信息:', categorizedData[type]);
        console.log('---');
    }
}

// 调用多线程爬虫
startScraping(4); // 启动4个线程
代码解析
  1. 目标网站更改:将url变量更改为http://www.soufun.com.cn,这使得爬虫针对新的目标网站进行数据采集。
  2. 数据提取:在fetchData函数中,使用Cheerio选择器提取房产信息,包括title(房产标题)、price(价格)、location(地点)和type(房产类型)。这些信息被存储在propertyList数组中。
  3. 数据归类和统计
    • 将提取到的房产信息按type(房产类型)进行归类,每个房产类型对应一个数组,数组中包含所有该类型的房产信息。
    • 统计每种房产类型的数量,并输出详细的统计结果。
  4. 多线程处理:保持了原有的多线程架构,通过并发请求提高数据采集效率。

    结论

    本文介绍了如何结合Cheerio和jsdom解析复杂的HTML结构,并通过代理IP、cookie、user-agent的设置,以及多线程技术,提升数据采集的效率和准确性。通过对http://www.soufun.com.cn网站的具体示例,展示了如何将采集到的数据进行有效的归类和统计。这种组合方式适用于复杂的网页解析场景,可以帮助开发者在面对高难度任务时,轻松实现高效的数据提取。
    这种方法特别适用于需要处理大量分类数据的爬虫任务,有助于更快地获取并分析所需信息。如果你在爬虫开发过程中遇到类似的难题,不妨尝试本文介绍的方法,或许会有意想不到的收获!
相关文章
|
22天前
|
人工智能
歌词结构的巧妙安排:写歌词的方法与技巧解析,妙笔生词AI智能写歌词软件
歌词创作是一门艺术,关键在于巧妙的结构安排。开头需迅速吸引听众,主体部分要坚实且富有逻辑,结尾则应留下深刻印象。《妙笔生词智能写歌词软件》提供多种 AI 功能,帮助创作者找到灵感,优化歌词结构,写出打动人心的作品。
|
21天前
|
自然语言处理 数据可视化 前端开发
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
合合信息的智能文档处理“百宝箱”涵盖文档解析、向量化模型、测评工具等,解决了复杂文档解析、大模型问答幻觉、文档解析效果评估、知识库搭建、多语言文档翻译等问题。通过可视化解析工具 TextIn ParseX、向量化模型 acge-embedding 和文档解析测评工具 markdown_tester,百宝箱提升了文档处理的效率和精确度,适用于多种文档格式和语言环境,助力企业实现高效的信息管理和业务支持。
3946 4
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
|
10天前
|
存储 分布式计算 Java
存算分离与计算向数据移动:深度解析与Java实现
【11月更文挑战第10天】随着大数据时代的到来,数据量的激增给传统的数据处理架构带来了巨大的挑战。传统的“存算一体”架构,即计算资源与存储资源紧密耦合,在处理海量数据时逐渐显露出其局限性。为了应对这些挑战,存算分离(Disaggregated Storage and Compute Architecture)和计算向数据移动(Compute Moves to Data)两种架构应运而生,成为大数据处理领域的热门技术。
31 2
|
17天前
|
XML JavaScript 前端开发
如何解析一个 HTML 文本
【10月更文挑战第23天】在实际应用中,根据具体的需求和场景,我们可以灵活选择解析方法,并结合其他相关技术来实现高效、准确的 HTML 解析。随着网页技术的不断发展,解析 HTML 文本的方法也在不断更新和完善,
|
16天前
|
JavaScript API 开发工具
<大厂实战场景> ~ Flutter&鸿蒙next 解析后端返回的 HTML 数据详解
本文介绍了如何在 Flutter 中解析后端返回的 HTML 数据。首先解释了 HTML 解析的概念,然后详细介绍了使用 `http` 和 `html` 库的步骤,包括添加依赖、获取 HTML 数据、解析 HTML 内容和在 Flutter UI 中显示解析结果。通过具体的代码示例,展示了如何从 URL 获取 HTML 并提取特定信息,如链接列表。希望本文能帮助你在 Flutter 应用中更好地处理 HTML 数据。
95 1
|
23天前
|
XML 数据格式
HTML 实例解析
本文介绍了HTML中常见元素的使用方法,包括`&lt;p&gt;`、`&lt;body&gt;`和`&lt;html&gt;`等。详细解析了这些元素的结构和作用,并强调了正确使用结束标签的重要性。此外,还提到了空元素的使用及大小写标签的规范。
|
14天前
|
机器学习/深度学习 自然语言处理 数据管理
GraphRAG核心组件解析:图结构与检索增强生成
【10月更文挑战第28天】在当今数据科学领域,自然语言处理(NLP)和图数据管理技术的发展日新月异。GraphRAG(Graph Retrieval-Augmented Generation)作为一种结合了图结构和检索增强生成的创新方法,已经在多个应用场景中展现出巨大的潜力。作为一名数据科学家,我对GraphRAG的核心组件进行了深入研究,并在此分享我的理解和实践经验。
38 0
|
17天前
|
JSON 前端开发 JavaScript
API接口商品详情接口数据解析
商品详情接口通常用于提供特定商品的详细信息,这些信息比商品列表接口中的信息更加详细和全面。以下是一个示例的JSON数据格式,用于表示一个商品详情API接口的响应。这个示例假定API返回一个包含商品详细信息的对象。
|
20天前
光纤电缆(FOC)的结构深度解析
【10月更文挑战第21天】
36 0
|
数据采集 Python
使用Pandas的read_html方法读取网页Table表格数据
使用Pandas的read_html方法读取网页Table表格数据
356 0
使用Pandas的read_html方法读取网页Table表格数据

推荐镜像

更多