实现自动化数据抓取:使用Node.js操控鼠标点击与位置坐标

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 本文介绍了如何使用Node.js和Puppeteer实现自动化数据抓取,特别是针对新闻网站“澎湃新闻”。通过设置代理IP、User-Agent和Cookie,提高爬虫的效率和隐蔽性,避免被网站封锁。代码示例展示了如何模拟鼠标点击、键盘输入等操作,抓取并整理新闻数据,适用于需要规避IP限制和突破频率限制的场景。

爬虫代理.jpg

在当今信息爆炸的时代,自动化数据抓取技术(也称为“网络爬虫”)对于数据分析与信息挖掘具有重要的作用。本文将介绍如何利用Node.js实现自动化数据抓取,并通过控制鼠标点击与位置坐标的方式,采集页面上指定的新闻数据。我们将使用代理IP、设置User-Agent与Cookie等手段,以提高爬虫的效率与隐蔽性。特别适用于需要规避IP限制、突破频率限制的新闻热点数据抓取。

一、概述

Node.js作为一种高效的JavaScript运行时环境,提供了丰富的包与API,适合处理爬虫任务。我们将结合puppeteer与代理IP技术实现一个简单的自动化数据抓取工具。目标网站为“澎湃新闻”(https://www.thepaper.cn),我们将自动打开网页,模拟鼠标点击以采集页面信息,并将新闻内容按分类进行整理。

涉及的技术要点

  • Puppeteer:控制浏览器行为,模拟鼠标点击、键盘输入等操作。
  • 代理IP:通过代理IP减少被网站封锁的风险,这里我们将使用16yun的代理服务。
  • User-Agent与Cookie:通过设置请求头,模仿正常用户行为,提高抓取的效率与隐蔽性。

二、实现细节

1. 安装依赖

首先,确保系统已安装Node.js,然后通过npm安装相关包:

npm install puppeteer axios

2. 代码实现

以下代码实现了从澎湃新闻首页抓取新闻热点并归类整理的流程。代码中加入了代理IP、User-Agent和Cookie的配置。

const puppeteer = require('puppeteer');

// 代理IP配置 亿牛云爬虫代理 www.16yun.cn
const proxyHost = '代理服务器域名'; 
const proxyPort = '代理服务器端口'; 
const proxyUsername = '代理用户名'; 
const proxyPassword = '代理密码'; 

// User-Agent和Cookie配置
const userAgent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36';
const cookies = [
    {
   
        name: 'cookie_name',  // 根据需要替换
        value: 'cookie_value',
        domain: '.thepaper.cn'
    }
];

// 目标网站
const targetUrl = 'https://www.thepaper.cn';

(async () => {
   
    // 启动浏览器并设置代理
    const browser = await puppeteer.launch({
   
        headless: false,  // 显示浏览器窗口便于调试
        args: [
            `--proxy-server=http://${
     proxyHost}:${
     proxyPort}`
        ]
    });

    const page = await browser.newPage();

    // 设置User-Agent
    await page.setUserAgent(userAgent);

    // 设置Cookie
    await page.setCookie(...cookies);

    // 输入代理认证信息
    await page.authenticate({
    username: proxyUsername, password: proxyPassword });

    // 访问目标页面
    await page.goto(targetUrl, {
    waitUntil: 'networkidle2' });

    // 等待页面加载完成
    await page.waitForSelector('.news_content');  // 假设新闻内容在此CSS选择器中

    // 模拟鼠标点击某个分类标签(例如“热点”)
    const categorySelector = '.some-category-selector'; // 替换为实际的分类按钮选择器
    if (await page.$(categorySelector) !== null) {
   
        await page.click(categorySelector);
        console.log('点击了新闻分类标签');
        await page.waitForTimeout(2000);  // 等待页面加载新内容
    }

    // 选择并点击一个新闻标题,模拟进入新闻详情页面
    const newsTitleSelector = '.news_content .news_title';  // 假设新闻标题在此选择器中
    const newsTitle = await page.$(newsTitleSelector);
    if (newsTitle !== null) {
   
        const boundingBox = await newsTitle.boundingBox();  // 获取元素的位置信息
        await page.mouse.move(boundingBox.x + boundingBox.width / 2, boundingBox.y + boundingBox.height / 2);  // 移动鼠标到新闻标题
        await page.mouse.click(boundingBox.x + boundingBox.width / 2, boundingBox.y + boundingBox.height / 2);  // 模拟点击
        console.log('点击了新闻标题,进入新闻详情页面');
        await page.waitForTimeout(2000);  // 等待详情页面加载
    }

    // 抓取新闻详情页面中的内容
    const newsData = await page.evaluate(() => {
   
        const titleElement = document.querySelector('.news_content .news_title');  // 替换为详情页面中的标题选择器
        const contentElement = document.querySelector('.news_content .news_body');  // 替换为详情页面中的正文选择器
        return {
   
            title: titleElement ? titleElement.innerText : '',
            content: contentElement ? contentElement.innerText : ''
        };
    });

    console.log('抓取的新闻详情数据:', newsData);

    // 关闭浏览器
    await browser.close();
})();

3. 代码解析

  • 代理IP配置:使用16yun的代理IP服务(域名、端口、用户名、密码),通过page.authenticate()方法设置认证信息,保证访问来自代理IP。
  • 鼠标点击操作:使用 <font style="color:rgb(0, 0, 0);">page.click()</font> 或者通过 <font style="color:rgb(0, 0, 0);">page.mouse.move()</font> <font style="color:rgb(0, 0, 0);">page.mouse.click()</font> 精确模拟鼠标移动并点击。
  • 控制鼠标移动位置:通过获取元素的边界信息 (<font style="color:rgb(0, 0, 0);">boundingBox</font>) 精确定位鼠标点击位置,模仿真实用户的点击行为。
  • 等待页面响应:在点击后使用 <font style="color:rgb(0, 0, 0);">waitForTimeout</font> 短暂等待,确保页面内容加载完成,以便下一步抓取。

三、效果与应用

通过此方案,我们可以在澎湃新闻等新闻门户网站上自动化获取热点新闻数据,并进行归类整理,为后续的数据分析和热点追踪奠定基础。对于新闻热点的时效性需求,这种基于代理IP与用户模拟的爬虫方案能够有效提升数据抓取的稳定性与准确性。

在实际应用中,可以进一步将抓取的数据存储至数据库中,以便后续的数据分析与展示。此外,设置抓取频率与周期性更新机制,也可以对新闻热点的变化趋势进行长时间监控。

四、总结

本文通过Node.js、Puppeteer及代理IP等技术实现了自动化新闻数据抓取的流程。该方案适用于高频率、连续性的数据抓取任务。

相关文章
|
7天前
|
数据采集 人工智能 自然语言处理
Midscene.js:AI 驱动的 UI 自动化测试框架,支持自然语言交互,生成可视化报告
Midscene.js 是一款基于 AI 技术的 UI 自动化测试框架,通过自然语言交互简化测试流程,支持动作执行、数据查询和页面断言,提供可视化报告,适用于多种应用场景。
91 1
Midscene.js:AI 驱动的 UI 自动化测试框架,支持自然语言交互,生成可视化报告
|
4月前
|
JavaScript 前端开发
JS判断点击是单击还是双击
如何使用JavaScript判断用户点击是单击还是双击。
47 0
|
5月前
|
运维 JavaScript 安全
自动化运维:使用Ansible简化日常任务深入理解Node.js事件循环和异步编程
【8月更文挑战第27天】在快节奏的技术环境中,自动化不再是奢侈品,而是必需品。本文将引导你通过Ansible实现自动化运维,从基础到高级应用,解锁高效管理服务器群的秘诀,让你的IT操作更加流畅和高效。
|
5月前
|
JavaScript 前端开发 Java
JavaScript内存泄露大揭秘!你的应用为何频频“爆内存”?点击解锁救星秘籍!
【8月更文挑战第23天】在Web前端开发中,JavaScript是构建动态网页的关键技术。然而,随着应用复杂度增加,内存管理变得至关重要。本文探讨了JavaScript中常见的内存泄露原因,包括意外的全局变量、不当使用的闭包、未清除的定时器、未清理的DOM元素引用及第三方库引发的内存泄露。通过了解这些问题并采取相应措施,开发者可以有效避免内存泄露,提高应用性能。
72 1
|
5月前
|
JavaScript 前端开发
Next js:点击登录显示登录表单,点击注册显示注册表单的功能
本文提供了一个Next.js中使用React状态管理实现点击按钮切换显示登录和注册表单的功能示例,包括创建`authform.tsx`组件和在页面组件中引入使用的方法。
|
3月前
|
机器学习/深度学习 人工智能 运维
构建高效运维体系:从自动化到智能化的演进
本文探讨了如何通过自动化和智能化手段,提升IT运维效率与质量。首先介绍了自动化在简化操作、减少错误中的作用;然后阐述了智能化技术如AI在预测故障、优化资源中的应用;最后讨论了如何构建一个既自动化又智能的运维体系,以实现高效、稳定和安全的IT环境。
85 4
|
3月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
70 4
|
2月前
|
机器学习/深度学习 运维 监控
智能化运维:从自动化到AIOps的演进之路####
本文深入探讨了IT运维领域如何由传统手工操作逐步迈向高度自动化,并进一步向智能化运维(AIOps)转型的过程。不同于常规摘要仅概述内容要点,本摘要将直接引入一个核心观点:随着云计算、大数据及人工智能技术的飞速发展,智能化运维已成为提升企业IT系统稳定性与效率的关键驱动力。文章详细阐述了自动化工具的应用现状、面临的挑战以及AIOps如何通过预测性分析和智能决策支持,实现运维工作的质变,引领读者思考未来运维模式的发展趋势。 ####
|
2月前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的崛起背景,深入分析了其核心概念、关键技术、应用场景及面临的挑战,并对比了传统IT运维模式,揭示了AIOps如何引领运维管理向更高效、智能的方向迈进。通过实际案例分析,展示了AIOps在不同行业中的应用成效,为读者提供了对未来智能运维趋势的洞察与思考。 ####
93 1
|
2月前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####