【实战案例】使用火语言RPA『表格数据提取』组件,批量爬取蔬菜价格+Excel 整理

简介: 火语言RPA中,爬取网页表格数据不必逐个提取元素!使用「表格数据提取」组件,可一键抓取整表内容。本文以采集10页蔬菜价格为例,手把手教你新建全局表格、循环翻页、自动提取并导出Excel,最后进行数据清洗整理,全程可视化操作,新手也能快速上手,高效完成多页表格采集任务。

在火语言 RPA 爬取网页数据时,很多新手只知道用「获取多元素信息属性值」「获取单元素信息属性值」逐个抠取数据?其实面对网页表格类数据时,用「表格数据提取」组件也是不错的选择!不用逐行逐列手动定位元素,不用反复配置属性值,一键就能抓取整表数据。今天就以爬取 10 页蔬菜价格为例,手把手拆解「表格数据提取」组件,新手也能轻松搞定多页表格数据采集~
image.png

一、案例功能概述

自动爬取 https://www.jnmarket.net/fruitsvegetables/dailyprice/vegprice 10 页蔬菜价格表格数据,汇总到 Excel;

二、流程核心逻辑

核心逻辑:打开浏览器→访问网页→创建全局表格→循环爬10页数据(提取→写入全局表格→翻页)→导出Excel→关闭浏览器→Excel后处理(打开→删列/插列→写表头→整理数据→保存)

三、详细操作步骤

(一)数据爬取

组件1,打开浏览器,选择浏览器类型
image.png

组件2,浏览网页,输入网址URL:https://www.jnmarket.net/fruitsvegetables/dailyprice/vegprice
image.png

组件3,表格打开或新建,新建空表格,用于存储表格数据,这里我们把新建的表格输出到变量全局表格,用于后续写入表格数据
image.png

组件4,表格数据初始化,初始化表格,这里初始化2列(具体设置两列在组件6详细说明)
image.png

组件5,For循环,因为这里采集10页数据,所以这里循环条件为:i<10
image.png

组件5.1,表格数据提取,通过自带的选择元素工具设置提取配置自动获取表格数据,输出到变量表格数据
image.png

提取的时候发现该网站的表格,产品名称,最高价,最低价,参考价,规格,日期提取到一列, 核心原因是网页表格的 HTML 结构不是 “标准多列表格”,导致「表格数据提取」组件把整行内容识别成了 “单个单元格”;这里将网页的数据自动提取到两列,后续可以使用「字符串分割成列表」,来分割表格数据。
image.png

组件5.2,打印日志,拖拽「打印日志」到「表格数据提取」下方,验证数据提取结果
image.png

组件5.3,For循环,循环表格数据的总行数,写入表格i<表格数据.Rows.Count
(参见https://www.huoyuyan.com/community/detail.html?id=386
image.png

组件5.3.1,表格数据写入,将表格数据按行追加写入
列索引:0~1,列索引从O开始,支持同时操作多列,格式为逗号分隔或波浪线连续列,如:1,2,3或0~3,n表示倒数第n列
指定单行索引:全局表格.Rows.Count,作为 “下一行写入位置”(表格有 N 行,下一行就写第 N 行,无需手动加 1!总行数本身就是下一行的索引,行索引从 0 开始)
写入内容:表格数据.Rows[i].ItemArray,「表格数据提取」得到的临时表格变量,定位临时表格里的第 i 行(i 从 0 开始),提取该行的纯数据(过滤格式 / 样式)
image.png

组件5.4,鼠标/元素点击,点击下一页
image.png

组件6,表格数据导出,将数据导出本地
image.png

组件7,关闭浏览器
image.png

(二)Excel 自动化后处理

可以参考之前的案例:https://www.huoyuyan.com/community/detail.html?id=353
image.png

下面调试该脚本,获取采集结果:
image.png

「表格数据提取」完整脚本分享:
分享: https://www.huoyuyan.com/share.html?key=eyJhdXRvQ29kZSI6IkZhbHNlIiwia2V5IjoiMjVkZDc2MGI0NDg1NDhmMDhhNGJjNjY1NGEzOGZkYzQifQ== 提取码: X5Pf

目录
相关文章
|
机器人 开发工具 Web App开发
干货满满!解密阿里云RPA (机器人流程自动化)的产品架构和商业化发展
阿里云RPA,作为阿里云自研8年的技术,在资本的热捧下,逐渐从幕后来到台前,成为企业服务市场的黑马。本文将从产品上全面剖析,阿里云RPA这款产品的现阶段情况,同时简单谈谈阿里云RPA的商业化进展。
8625 0
干货满满!解密阿里云RPA (机器人流程自动化)的产品架构和商业化发展
双T型振荡器主要特点和工作原理介绍
双T振荡器是另一种类型的RC振荡器,它产生正弦波输出,用于类似于电桥桥振荡器的固定频率应用。双T型振荡器在反相放大器的输出和输入之间的反馈回路(因此得名)中使用两个“Tee”形 RC 网络。
2714 0
双T型振荡器主要特点和工作原理介绍
|
Oracle 数据库 关系型数据库
深入详解Oracle data change notification
深入详解 Oracle data change notification
1863 0
|
1月前
|
存储 数据采集 索引
【实战案例】火语言 RPA 『获取多元素信息/属性值』抓取网页数据案例
本文介绍如何使用「获取多元素信息/属性值」结合XPath提取网页蔬菜价格数据,相比表格提取更灵活,适用于结构不规整页面。通过抓取outerHTML、循环解析字段并写入表格,最终导出Excel,完整流程含翻页、数据清洗与存储,附详细步骤与避坑指南。
109 0
|
人工智能 自然语言处理 程序员
AI战略丨拓展智能边界,大模型体系全面升级
阿里云在基础模型体系和生态、模型工程化落地路径、端云协同解决方案等多维度上都在快速迭代。
|
11月前
|
JSON 搜索推荐 API
淘宝拍立淘按图搜索商品API接口示例说明
淘宝拍立淘按图搜索商品API接口是淘宝开放平台提供的一项基于图像识别技术的搜索服务,允许用户通过上传图片来快速找到相似的商品。以下是对该API接口的示例说明:
阿里云服务器发票开具流程_发票抬头_发票常见问题解答FAQ
在阿里云开具发票,需登录用户中心访问发票管理页面。首次开票时设置发票抬头(个人/企业/事业单位),选择发票类型(增值税普通/专用)。随后选择需开票的订单并按提示操作。个人账号不可直接开企业发票,需变更实名认证。发票税率一般为6%,硬件为13%。发票抬头可修改,纸质发票邮费视情况由阿里云或用户承担,电子发票具同等法律效力且可报销。更多详情见阿里云帮助文档。
1457 9
|
Linux Shell KVM
Kali系统基于qemu虚拟化运行img镜像文件
QEMU是一个由Fabrice Bellard创建的开源虚拟化器,能在多种平台上运行,如x86、ARM、PowerPC。它支持硬件仿真和虚拟化,允许在宿主系统上运行不同架构和OS,如Windows、Linux。QEMU特点包括硬件仿真、虚拟化支持(与KVM配合)、磁盘和网络仿真、快照及回滚功能。此外,文档还展示了在Kali Linux中安装和配置QEMU的步骤,包括下载、内存设置、源更新、软件安装、创建桥接脚本以及启动和管理虚拟机。
1071 1
Kali系统基于qemu虚拟化运行img镜像文件
|
Linux 开发工具 Windows
在WSL2中安装IntelliJ IDEA开发工具
在WSL2中安装IntelliJ IDEA开发工具
1628 2