【实战案例】使用火语言RPA『表格数据提取』组件,批量爬取蔬菜价格+Excel 整理

简介: 火语言RPA中,爬取网页表格数据不必逐个提取元素!使用「表格数据提取」组件,可一键抓取整表内容。本文以采集10页蔬菜价格为例,手把手教你新建全局表格、循环翻页、自动提取并导出Excel,最后进行数据清洗整理,全程可视化操作,新手也能快速上手,高效完成多页表格采集任务。

在火语言 RPA 爬取网页数据时,很多新手只知道用「获取多元素信息属性值」「获取单元素信息属性值」逐个抠取数据?其实面对网页表格类数据时,用「表格数据提取」组件也是不错的选择!不用逐行逐列手动定位元素,不用反复配置属性值,一键就能抓取整表数据。今天就以爬取 10 页蔬菜价格为例,手把手拆解「表格数据提取」组件,新手也能轻松搞定多页表格数据采集~
image.png

一、案例功能概述

自动爬取 https://www.jnmarket.net/fruitsvegetables/dailyprice/vegprice 10 页蔬菜价格表格数据,汇总到 Excel;

二、流程核心逻辑

核心逻辑:打开浏览器→访问网页→创建全局表格→循环爬10页数据(提取→写入全局表格→翻页)→导出Excel→关闭浏览器→Excel后处理(打开→删列/插列→写表头→整理数据→保存)

三、详细操作步骤

(一)数据爬取

组件1,打开浏览器,选择浏览器类型
image.png

组件2,浏览网页,输入网址URL:https://www.jnmarket.net/fruitsvegetables/dailyprice/vegprice
image.png

组件3,表格打开或新建,新建空表格,用于存储表格数据,这里我们把新建的表格输出到变量全局表格,用于后续写入表格数据
image.png

组件4,表格数据初始化,初始化表格,这里初始化2列(具体设置两列在组件6详细说明)
image.png

组件5,For循环,因为这里采集10页数据,所以这里循环条件为:i<10
image.png

组件5.1,表格数据提取,通过自带的选择元素工具设置提取配置自动获取表格数据,输出到变量表格数据
image.png

提取的时候发现该网站的表格,产品名称,最高价,最低价,参考价,规格,日期提取到一列, 核心原因是网页表格的 HTML 结构不是 “标准多列表格”,导致「表格数据提取」组件把整行内容识别成了 “单个单元格”;这里将网页的数据自动提取到两列,后续可以使用「字符串分割成列表」,来分割表格数据。
image.png

组件5.2,打印日志,拖拽「打印日志」到「表格数据提取」下方,验证数据提取结果
image.png

组件5.3,For循环,循环表格数据的总行数,写入表格i<表格数据.Rows.Count
(参见https://www.huoyuyan.com/community/detail.html?id=386
image.png

组件5.3.1,表格数据写入,将表格数据按行追加写入
列索引:0~1,列索引从O开始,支持同时操作多列,格式为逗号分隔或波浪线连续列,如:1,2,3或0~3,n表示倒数第n列
指定单行索引:全局表格.Rows.Count,作为 “下一行写入位置”(表格有 N 行,下一行就写第 N 行,无需手动加 1!总行数本身就是下一行的索引,行索引从 0 开始)
写入内容:表格数据.Rows[i].ItemArray,「表格数据提取」得到的临时表格变量,定位临时表格里的第 i 行(i 从 0 开始),提取该行的纯数据(过滤格式 / 样式)
image.png

组件5.4,鼠标/元素点击,点击下一页
image.png

组件6,表格数据导出,将数据导出本地
image.png

组件7,关闭浏览器
image.png

(二)Excel 自动化后处理

可以参考之前的案例:https://www.huoyuyan.com/community/detail.html?id=353
image.png

下面调试该脚本,获取采集结果:
image.png

「表格数据提取」完整脚本分享:
分享: https://www.huoyuyan.com/share.html?key=eyJhdXRvQ29kZSI6IkZhbHNlIiwia2V5IjoiMjVkZDc2MGI0NDg1NDhmMDhhNGJjNjY1NGEzOGZkYzQifQ== 提取码: X5Pf

目录
相关文章
|
6天前
|
人工智能 数据可视化 安全
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
本文详解如何用阿里云Lighthouse一键部署OpenClaw,结合飞书CLI等工具,让AI真正“动手”——自动群发、生成科研日报、整理知识库。核心理念:未来软件应为AI而生,CLI即AI的“手脚”,实现高效、安全、可控的智能自动化。
18006 12
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
|
17天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
29546 141
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
7天前
|
人工智能 JSON 监控
Claude Code 源码泄露:一份价值亿元的 AI 工程公开课
我以为顶级 AI 产品的护城河是模型。读完这 51.2 万行泄露的源码,我发现自己错了。
4612 20
|
6天前
|
人工智能 API 开发者
阿里云百炼 Coding Plan 售罄、Lite 停售、Pro 抢不到?最新解决方案
阿里云百炼Coding Plan Lite已停售,Pro版每日9:30限量抢购难度大。本文解析原因,并提供两大方案:①掌握技巧抢购Pro版;②直接使用百炼平台按量付费——新用户赠100万Tokens,支持Qwen3.5-Max等满血模型,灵活低成本。
1452 3
阿里云百炼 Coding Plan 售罄、Lite 停售、Pro 抢不到?最新解决方案