用AI重塑RPA稳定性:实在Agent TARS语义定位技术拆解与落地实践

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: 实在智能在实在Agent v7.3.4中推出TARS AI元素定位技术,通过视觉-语义联合建模,实现多模态编码、语义锚点生成与动态匹配优化,显著提升RPA在敏捷前端环境下的元素识别稳定性与自适应能力,配置即用,助力企业自动化迈向真正无人值守。(239字)

在企业自动化深水区,RPA与业务系统的耦合痛点日益突出,其中界面元素定位的脆弱性是导致流程中断的首要因素。传统基于静态DOM属性或坐标的定位方式,已无法应对敏捷迭代的前端环境。实在智能在实在Agent v7.3.4中推出的TARS AI元素定位,给出了一种用多模态AI解决该问题的范式。

技术痛点:静态选择器的天花板

RPA元素定位本质是一个模式匹配问题。Xpath、Selector等技术要求目标元素的属性特征保持严格一致。当企业系统进行灰度发布、A/B测试或框架升级时,微小的结构变化就会造成大量流程熔断。工程上常用的通配符和异常重试,本质上是用人力去平滑环境的不确定性,边际成本极高。

TARS AI元素定位的解决思路

TARS采用视觉-语义联合建模,在拾取阶段即对目标元素进行向量化语义特征提取。核心流程如下:

  1. 多模态编码:融合界面截图的空间视觉特征与DOM树/无障碍语义标签。
  2. 语义锚点生成:自动识别元素的业务角色(如“提交类按钮”“数据输入区”),而非依赖瞬时属性。
  3. 动态匹配优化:运行阶段,根据当前界面状态进行语义相似度检索,即使低级属性全部改变,只要元素承担的交互功能不变,即可命中。

官方实测数据表明:“元素识别稳定性大幅提升,彻底解决复杂界面元素拾取失败、流程运行报错问题;同时智能元素捕获响应速度全面提速。”

配置即启用:低门槛的AI接入

企业开发者无需改造现有流程代码,只需在 v7.3.4 及以上版本中,进入「设置」—「常规」—勾选「拾取元素时,自动使用TARS优化元素」,即可将定位引擎切换至TARS。新拾取的元素会自动采用语义优化描述,平滑实现能力升级。

image.png

落地场景与效果

某金融企业在网银流水下载自动化中,受银行前端改版影响,每月因元素定位失败造成的流程中断超30次。启用TARS后,中断次数降至个位数,且绝大部分中断是由于业务异常(如余额不足弹窗)导致,而非定位失败。这证明了语义级定位对于跨版本前端的高度适应性。

云时代自动化的稳定性思考

RPA从“自动化脚本”走向“企业数字员工”,核心挑战是环境的动态性。TARS AI元素定位的实践表明,将视觉语言模型(VLM) 融入执行端,能从根本上降低自动化对界面契约的依赖。未来,结合云端模型持续学习与本地推理,元素定位有望实现“一次拾取,长期自适应”,真正走向无人值守。

对于在阿里云上构建超自动化平台的技术团队,实在Agent的这种AI增强模式,提供了一个有价值的参考架构。


相关文章
|
13天前
|
人工智能 JSON 供应链
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
LucianaiB分享零成本畅用JVS Claw教程(学生认证享7个月使用权),并开源GeoMind项目——将JVS改造为科研与产业地理情报可视化AI助手,支持飞书文档解析、地理编码与腾讯地图可视化,助力产业关系图谱构建。
23495 11
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
|
17天前
|
人工智能 缓存 BI
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro,跑完 Skills —— OA 审批、大屏、报表、部署 5 大实战场景后的真实体验 ![](https://oscimg.oschina.net/oscnet/up608d34aeb6bafc47f
5475 20
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
|
18天前
|
人工智能 JSON BI
DeepSeek V4 来了!超越 Claude Sonnet 4.5,赶紧对接 Claude Code 体验一把
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro 的真实体验与避坑记录 本文记录我将 Claude Code 对接 DeepSeek 最新模型(V4Pro)后的真实体验,测试了 Skills 自动化查询和积木报表 AI 建表两个场景——有惊喜,也踩
6539 16
|
7天前
|
人工智能 缓存 Shell
Claude Code 全攻略:命令大全 + 实战工作流(完整版)
Claude Code 是一款运行在终端环境下的 AI 编码助手,能够直接在项目目录中理解代码结构、编辑文件、执行命令、执行开发计划,并支持持久化记忆、上下文压缩、后台任务、多模型切换等专业能力。对于日常开发、项目维护、快速重构、代码审查等场景,它可以大幅减少手动操作、提升编码效率。本文从常用命令、界面模式、核心指令、记忆机制、图片处理、进阶工作流等维度完整说明,帮助开发者快速上手并稳定使用。
1664 3
|
6天前
|
前端开发 API 内存技术
对比claude code等编程cli工具与deepseek v4的适配情况
DeepSeek V4发布后,多家编程工具因未适配其强制要求的`reasoning_content`字段而报错。本文对比Claude Code、GitHub Copilot、Langcli、OpenCode及DeepSeek-TUI等主流工具的兼容性:Claude Code需按官方方式配置;Langcli表现最佳,开箱即用且无报错;Copilot与OpenCode暂未修复问题;DeepSeek-TUI尚处早期阶段。
1130 3
对比claude code等编程cli工具与deepseek v4的适配情况
|
2天前
|
人工智能 BI 持续交付
Claude Code 深度适配 DeepSeek V4-Pro 实测:全场景通关与真实体验报告
在 AI 编程工具日趋主流的今天,Claude Code 凭借强大的任务执行、工具调用与工程化能力,成为开发者与自动化运维的核心效率工具。但随着原生模型账号稳定性问题频发,寻找一套兼容、稳定、能力在线的替代方案变得尤为重要。DeepSeek V4-Pro 作为新一代高性能大模型,提供了完整兼容 Claude 协议的 API 接口,只需简单配置即可无缝驱动 Claude Code,且在任务执行、工具调用、复杂流程处理上表现极为稳定。
838 0
|
1月前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
本文介绍了Claude Code终端AI助手的使用指南,主要内容包括:1)常用命令如版本查看、项目启动和更新;2)三种工作模式切换及界面说明;3)核心功能指令速查表,包含初始化、压缩对话、清除历史等操作;4)详细解析了/init、/help、/clear、/compact、/memory等关键命令的使用场景和语法。文章通过丰富的界面截图和场景示例,帮助开发者快速掌握如何通过命令行和交互界面高效使用Claude Code进行项目开发,特别强调了CLAUDE.md文件作为项目知识库的核心作用。
27256 65
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)