【实战案例】使用火语言RPA『表格数据提取』组件,批量爬取蔬菜价格+Excel 整理

简介: 火语言RPA中,爬取网页表格数据不必逐个提取元素!使用「表格数据提取」组件,可一键抓取整表内容。本文以采集10页蔬菜价格为例,手把手教你新建全局表格、循环翻页、自动提取并导出Excel,最后进行数据清洗整理,全程可视化操作,新手也能快速上手,高效完成多页表格采集任务。

在火语言 RPA 爬取网页数据时,很多新手只知道用「获取多元素信息属性值」「获取单元素信息属性值」逐个抠取数据?其实面对网页表格类数据时,用「表格数据提取」组件也是不错的选择!不用逐行逐列手动定位元素,不用反复配置属性值,一键就能抓取整表数据。今天就以爬取 10 页蔬菜价格为例,手把手拆解「表格数据提取」组件,新手也能轻松搞定多页表格数据采集~
image.png

一、案例功能概述

自动爬取 https://www.jnmarket.net/fruitsvegetables/dailyprice/vegprice 10 页蔬菜价格表格数据,汇总到 Excel;

二、流程核心逻辑

核心逻辑:打开浏览器→访问网页→创建全局表格→循环爬10页数据(提取→写入全局表格→翻页)→导出Excel→关闭浏览器→Excel后处理(打开→删列/插列→写表头→整理数据→保存)

三、详细操作步骤

(一)数据爬取

组件1,打开浏览器,选择浏览器类型
image.png

组件2,浏览网页,输入网址URL:https://www.jnmarket.net/fruitsvegetables/dailyprice/vegprice
image.png

组件3,表格打开或新建,新建空表格,用于存储表格数据,这里我们把新建的表格输出到变量全局表格,用于后续写入表格数据
image.png

组件4,表格数据初始化,初始化表格,这里初始化2列(具体设置两列在组件6详细说明)
image.png

组件5,For循环,因为这里采集10页数据,所以这里循环条件为:i<10
image.png

组件5.1,表格数据提取,通过自带的选择元素工具设置提取配置自动获取表格数据,输出到变量表格数据
image.png

提取的时候发现该网站的表格,产品名称,最高价,最低价,参考价,规格,日期提取到一列, 核心原因是网页表格的 HTML 结构不是 “标准多列表格”,导致「表格数据提取」组件把整行内容识别成了 “单个单元格”;这里将网页的数据自动提取到两列,后续可以使用「字符串分割成列表」,来分割表格数据。
image.png

组件5.2,打印日志,拖拽「打印日志」到「表格数据提取」下方,验证数据提取结果
image.png

组件5.3,For循环,循环表格数据的总行数,写入表格i<表格数据.Rows.Count
(参见https://www.huoyuyan.com/community/detail.html?id=386
image.png

组件5.3.1,表格数据写入,将表格数据按行追加写入
列索引:0~1,列索引从O开始,支持同时操作多列,格式为逗号分隔或波浪线连续列,如:1,2,3或0~3,n表示倒数第n列
指定单行索引:全局表格.Rows.Count,作为 “下一行写入位置”(表格有 N 行,下一行就写第 N 行,无需手动加 1!总行数本身就是下一行的索引,行索引从 0 开始)
写入内容:表格数据.Rows[i].ItemArray,「表格数据提取」得到的临时表格变量,定位临时表格里的第 i 行(i 从 0 开始),提取该行的纯数据(过滤格式 / 样式)
image.png

组件5.4,鼠标/元素点击,点击下一页
image.png

组件6,表格数据导出,将数据导出本地
image.png

组件7,关闭浏览器
image.png

(二)Excel 自动化后处理

可以参考之前的案例:https://www.huoyuyan.com/community/detail.html?id=353
image.png

下面调试该脚本,获取采集结果:
image.png

「表格数据提取」完整脚本分享:
分享: https://www.huoyuyan.com/share.html?key=eyJhdXRvQ29kZSI6IkZhbHNlIiwia2V5IjoiMjVkZDc2MGI0NDg1NDhmMDhhNGJjNjY1NGEzOGZkYzQifQ== 提取码: X5Pf

目录
相关文章
|
4月前
|
存储 数据采集 索引
【实战案例】火语言 RPA 『获取多元素信息/属性值』抓取网页数据案例
本文介绍如何使用「获取多元素信息/属性值」结合XPath提取网页蔬菜价格数据,相比表格提取更灵活,适用于结构不规整页面。通过抓取outerHTML、循环解析字段并写入表格,最终导出Excel,完整流程含翻页、数据清洗与存储,附详细步骤与避坑指南。
294 0
|
机器人 开发工具 Web App开发
干货满满!解密阿里云RPA (机器人流程自动化)的产品架构和商业化发展
阿里云RPA,作为阿里云自研8年的技术,在资本的热捧下,逐渐从幕后来到台前,成为企业服务市场的黑马。本文将从产品上全面剖析,阿里云RPA这款产品的现阶段情况,同时简单谈谈阿里云RPA的商业化进展。
9037 0
干货满满!解密阿里云RPA (机器人流程自动化)的产品架构和商业化发展
|
1月前
|
Linux API 异构计算
OpenClaw阿里云及本地部署离线运行实战手册:本地大模型Ollama部署、多系统安装与免费API适配
2026年,OpenClaw(Clawdbot)的本地化能力已实现跨越式升级——不再依赖云端大模型API,通过对接本地私有模型,可实现全程离线运行,数据无需上传第三方服务器,兼顾隐私安全与使用便捷性。这种“本地部署+私有模型”的组合,完美解决了敏感数据处理、无网络环境使用、长期成本控制等核心痛点,使其在企业办公、科研场景、隐私敏感领域的适用性大幅提升。
2010 2
OpenClaw阿里云及本地部署离线运行实战手册:本地大模型Ollama部署、多系统安装与免费API适配
|
3月前
|
存储 弹性计算 人工智能
2026年阿里云个人及企业用户新购和续费云服务器活动及优惠政策
2026年阿里云推出众多优惠政策,涵盖新购、续费、升级等多方面,形成全生命周期成本优化体系。个人用户可享38元秒杀、99元经济型实例及学生专属福利;企业用户则有199元普惠套餐、高性能实例及跨境专项补贴。全用户还可共享免费试用、权益领券与迁移补贴。用户应根据业务需求,选择适配方案,并善用优惠券和组合套餐,提前锁定低价,从而实现成本与效率的双重优化提升。
|
4月前
|
数据采集 存储 数据可视化
火语言RPA制作农产品价格采集工具(界面交互 + 数据采集 + 导出)
本案例实现蔬菜水果价格数据的可视化采集与导出:通过界面输入产品名、选择类别、设置页数,点击“查询”自动抓取网页价格信息并展示,支持一键导出为Excel,涵盖界面交互、自动化采集与数据输出全流程。
199 0
|
5月前
|
数据采集 存储 调度
农业爬虫实战:惠农网农产品价格行情抓取全解析
农业爬虫助力现代农业数字化转型,通过实时抓取全国2000+市场农产品价格,解决传统数据采集滞后、覆盖窄等问题。以Python为核心技术,结合Requests、Selenium、代理池等工具,实现高效、稳定的数据获取。应用于种植决策、物流调度与价格预测,推动农业智能化发展。(238字)
592 0
|
数据采集 人工智能 机器人
RPA与爬虫:自动化工具的本质差异与选择指南
本文深入解析RPA与爬虫的本质差异,帮助企业根据业务需求明智选型。RPA侧重内部流程自动化,爬虫专注外部数据采集。内容涵盖技术原理、应用场景、优劣势对比及主流RPA工具介绍,助力把握自动化趋势,提升效率。
2066 0
|
人工智能 自然语言处理 程序员
AI战略丨拓展智能边界,大模型体系全面升级
阿里云在基础模型体系和生态、模型工程化落地路径、端云协同解决方案等多维度上都在快速迭代。

热门文章

最新文章