在企业自动化深水区,RPA与业务系统的耦合痛点日益突出,其中界面元素定位的脆弱性是导致流程中断的首要因素。传统基于静态DOM属性或坐标的定位方式,已无法应对敏捷迭代的前端环境。实在智能在实在Agent v7.3.4中推出的TARS AI元素定位,给出了一种用多模态AI解决该问题的范式。
技术痛点:静态选择器的天花板
RPA元素定位本质是一个模式匹配问题。Xpath、Selector等技术要求目标元素的属性特征保持严格一致。当企业系统进行灰度发布、A/B测试或框架升级时,微小的结构变化就会造成大量流程熔断。工程上常用的通配符和异常重试,本质上是用人力去平滑环境的不确定性,边际成本极高。
TARS AI元素定位的解决思路
TARS采用视觉-语义联合建模,在拾取阶段即对目标元素进行向量化语义特征提取。核心流程如下:
- 多模态编码:融合界面截图的空间视觉特征与DOM树/无障碍语义标签。
- 语义锚点生成:自动识别元素的业务角色(如“提交类按钮”“数据输入区”),而非依赖瞬时属性。
- 动态匹配优化:运行阶段,根据当前界面状态进行语义相似度检索,即使低级属性全部改变,只要元素承担的交互功能不变,即可命中。
官方实测数据表明:“元素识别稳定性大幅提升,彻底解决复杂界面元素拾取失败、流程运行报错问题;同时智能元素捕获响应速度全面提速。”
配置即启用:低门槛的AI接入
企业开发者无需改造现有流程代码,只需在 v7.3.4 及以上版本中,进入「设置」—「常规」—勾选「拾取元素时,自动使用TARS优化元素」,即可将定位引擎切换至TARS。新拾取的元素会自动采用语义优化描述,平滑实现能力升级。
落地场景与效果
某金融企业在网银流水下载自动化中,受银行前端改版影响,每月因元素定位失败造成的流程中断超30次。启用TARS后,中断次数降至个位数,且绝大部分中断是由于业务异常(如余额不足弹窗)导致,而非定位失败。这证明了语义级定位对于跨版本前端的高度适应性。
云时代自动化的稳定性思考
RPA从“自动化脚本”走向“企业数字员工”,核心挑战是环境的动态性。TARS AI元素定位的实践表明,将视觉语言模型(VLM) 融入执行端,能从根本上降低自动化对界面契约的依赖。未来,结合云端模型持续学习与本地推理,元素定位有望实现“一次拾取,长期自适应”,真正走向无人值守。
对于在阿里云上构建超自动化平台的技术团队,实在Agent的这种AI增强模式,提供了一个有价值的参考架构。