【实战案例】火语言 RPA 『获取多元素信息/属性值』抓取网页数据案例

简介: 本文介绍如何使用「获取多元素信息/属性值」结合XPath提取网页蔬菜价格数据,相比表格提取更灵活,适用于结构不规整页面。通过抓取outerHTML、循环解析字段并写入表格,最终导出Excel,完整流程含翻页、数据清洗与存储,附详细步骤与避坑指南。

之前我们用「表格数据提取」(https://www.huoyuyan.com/community/detail.html?id=396) 组件抓网页数据很方便,今天分享用 「获取多元素信息/属性值」获取数据的方法,更灵活适配不同页面。

一、案例功能概述

抓取该网页的蔬菜价格(https://www.jnmarket.net/fruitsvegetables/dailyprice/vegprice ),包含产品名称、产地、最高价 / 最低价等字段。
区别于之前使用「表格数据提取」组件,这次咱们用 「获取多元素信息/属性值」(提取网页元素的 outerHTML),再结合 XPath 解析字段 —— 适合表格结构不太规整、但能通过元素路径定位的页面。
image.png

二、实现的逻辑

整个流程是 “初始化→翻页循环→抓元素集合→解析字段→存数据”,简单说:
1、打开浏览器 + 访问目标网页,新建表格存数据;
2、用 While 循环实现翻页(控制 “下一页” 按钮的点击);
3、抓网页中所有数据行的 outerHTML 集合;
4、遍历集合,用 XPath 提取每个字段的内容;
5、把字段写入表格,最后导出 Excel。

三、实现的步骤

组件1、打开浏览器,选择浏览器类型
image.png

组件2、浏览网页,输入网址URL:https://www.jnmarket.net/fruitsvegetables/dailyprice/vegprice
image.png

组件3、表格打开或新建,新建空表格用于存储数据
image.png

组件4、表格数据初始化,初始化表格列头
image.png

组件5、For循环,为了演示,这里使用For循环限制一下采循环次数。
image.png

组件5.1、获取多元素信息/属性值,获取数据行的元素集合
目标元素 XPath:/tbody[@class='n-data-table-tbody']/tr(定位网页里的所有数据行)
属性:选outerHTML(把整行的 HTML 内容存下来)
输出变量:list(后续遍历使用)
image.png

组件5.2、ForEach循环,循环遍历list
image.png

组件5.2.1-5.2.7 Xpath提取,在 ForEach 循环内,拖 7 个「XPath 提取」组件(对应 7 个字段),每个组件参数如下:

字段 XPath 提取的参数设置 输出变量
产品名称 源HTML文本 T:{ {item}};XPath:./tr/td[1] ,属性:源代码 输出变量:产品名称
产地 源HTML文本 T:{ {item}};XPath:./tr/td[2]/span/span ,属性:源代码 输出变量:产地
最高价 源HTML文本 T:{ {item}};XPath:./tr/td[3] ,属性:源代码 输出变量:最高价
最低价 源HTML文本 T:{ {item}};XPath:./tr/td[4],属性:源代码 输出变量:最低价
参考价 源HTML文本 T:{ {item}};XPath:./tr/td[5] ,属性:源代码 输出变量:参考价
规格 源HTML文本 T:{ {item}};XPath:./tr/td[6] ,属性:源代码 输出变量:规格
日期 源HTML文本 T:{ {item}};XPath:./tr/td[7],属性:源代码 输出变量:日期

image.png

组件5.2.8、打印日志,打印以上输出的结果,便于调试诊断
['{ {产品名称}}','{ {产地}}','{ {最高价}}','{ {最低价}}','{ {参考价}}','{ {规格}}','{ {日期}}']
打印出来的结果:
['蒜头','江苏/河南','9','8','8.4','箱','2025-12-16']

组件5.2.9、字符串替换,根据上一步打印出来的结果,那么使用字符串替换,将替换成空值,
替换后样式:['蒜头','江苏/河南','9','8','8.4','箱','2025-12-16']
image.png

组件5.2.10、表格数据写入,创建整数变量行索引rowIndex,默认是0,
写入到:行
写入方式:追加
列索引:0-6
指定单行索引:{ {rowIndex}}
image.png

组件5.2.11、变量赋值,给rowindex做++操作(行号 + 1,下一行继续写)。
image.png

组件5.3、鼠标/元素点击,点击翻页按钮
image.png

组件6、表格数据导出,导出数据到指定路径
image.png

四、避坑指南

在实操中会疑问,变量rowindex到底是什么?流程为啥能 “认得出” 它对应表格的行?其实超简单 ——它不是流程天生认识的 “特殊变量”,是自定义的 “行索引标记”,通过参数绑定告诉流程:这个数对应表格的第几行。
咋用,分三步:

步骤1、先告诉它从哪行开始,

先创建一个变量:rowindex,(自定义的名字,你也可以叫hanghao/行号等,只要前后统一就行);
赋值内容:0(火语言 RPA 的表格行索引从 0 开始,0 对应 “表头下方的第一行数据行”)。
这一步的意思:告诉流程 “一开始,先把数据写到表格的第 一 行”。

步骤2、把 rowindex 绑定到「表格数据写入」组件的 “行索引” 参数

在「表格数据写入」组件里,找到 “行索引” 这个参数,填入{ {rowindex}}(T模式下用{ {rowindex}},#模式下:rowindex)。
「表格数据写入」组件的 “行索引” 参数,是专门用来指定 “要把数据写到表格第几行” 的 —— 咱们把 rowindex 变量填进去,就等于告诉流程:“用rowindex 这个变量里的数字,作为写入的行号”。

步骤3、变量赋值:每写一行,让 rowindex+1(避免覆盖)

直接写rowindex ++,火语言 RPA 支持自增
这一步的意思:“写完当前行,下一条数据要写到下一行”。

完整案例分享: https://www.huoyuyan.com/share.html?key=eyJhdXRvQ29kZSI6IkZhbHNlIiwia2V5IjoiYWI4OTU1NWE0NDg0NDlmNjk4MGU2MjQzMmI1MzYwZWQifQ== 提取码: Des8

目录
相关文章
|
3月前
|
数据采集 存储 数据可视化
【实战案例】使用火语言RPA『表格数据提取』组件,批量爬取蔬菜价格+Excel 整理
火语言RPA中,爬取网页表格数据不必逐个提取元素!使用「表格数据提取」组件,可一键抓取整表内容。本文以采集10页蔬菜价格为例,手把手教你新建全局表格、循环翻页、自动提取并导出Excel,最后进行数据清洗整理,全程可视化操作,新手也能快速上手,高效完成多页表格采集任务。
274 2
|
4月前
|
编解码 API C++
【实用技巧】火语言 RPA“鼠标 / 元素点击” 组件:模拟鼠标点击 vs 浏览器接口点击的核心区别
火语言 RPA“鼠标 / 元素点击” 组件中,有两种核心点击方式 ——“模拟鼠标点击” 和 “通过浏览器接口自动点击元素”,:前者是完全模拟真人手动操作的点击逻辑,后者则是直接向浏览器发送指令、触发元素点击功能。
|
C语言
加速github 下载速度的方法
加速github 下载速度的方法
3474 1
|
JSON 数据格式
易语言 精易模块 操作json数据
作者主页:https://www.couragesteak.com/
易语言 精易模块 操作json数据
|
1月前
|
存储 人工智能 API
火语言 RPA:网页标题采集 + AI 智能优化自动化流程
本案例基于火语言RPA,实现“网页标题采集→AI改写→Excel双列对比”自动化流程:批量抓取网页标题,调用内置或第三方AI(如DeepSeek/Kimi)简洁优化,自动分存原标题(A列)与新标题(B列),支持内容运营高效优化。
114 3
|
1月前
|
缓存 监控 算法
淘宝商品详情 API 接入全流程实战指南 (附完整代码)
item_get 是淘宝开放平台提供的核心商品详情查询接口,支持通过商品 ID(num_iid)获取淘宝/天猫商品的完整结构化数据,包括:
|
2月前
|
存储
火语言RPA:点选式验证码自动化处理案例
本案例基于火语言RPA实现点选验证码自动化,涵盖浏览器初始化、登录页访问、账号输入、验证码截图识别与坐标点选全流程,通过云打码服务解析验证码并循环点击验证,最终完成自动登录,提升效率。
199 2
|
2月前
火语言RPA:滑块验证码自动化处理案例
本案例基于火语言RPA实现当当网滑块验证码自动登录,涵盖浏览器打开、页面访问、账号输入、滑块触发、云码识别、轨迹模拟及拖动提交等全流程自动化操作,提升效率,减少人工干预。
185 0
|
1月前
|
人工智能 安全 机器人
2026年OpenClaw(Clawdbot)汉化版零门槛部署全指南 中文用户专属AI助手搭建教程
2026年,OpenClaw(原Clawdbot、Moltbot)以惊人的增长速度席卷开源社区,一周内GitHub星标数从7800飙升至12万+,成为年度最热门的开源项目之一。这款AI工具彻底打破了传统聊天机器人“只说不做”的局限,能够真正执行读写文件、运行脚本、浏览器自动化等实操任务,成为无数用户提升效率的“AI员工”。
1616 0
|
2月前
|
存储 安全 Linux
【实用技巧】火语言RPA流程分享、复用与迁移实用指南
火语言RPA提供发布EXE、在线分享、导入导出、实时同步四大功能,支持跨平台运行与多设备协作。可一键生成独立程序,灵活分享链接,安全导出导入,云端同步备份,便于团队协作与流程复用,助力高效自动化办公。(238字)
208 0