低成本、高精度、强泛化——通义实验室联合中国人民大学发布全新 GUI Grounding模型 UI-Ins,首次将指令视为动态推理路径,实现 SOTA 性能与涌现推理能力。
01GUI Grounding模型为何“看不懂”用户?
在迈向通用人工智能(AGI)的道路上,图形用户界面(GUI)智能体正成为关键一环。无论是自动操作手机 App、控制桌面软件,还是辅助残障人士使用电脑,GUI 智能体的核心能力之一,就是 “Grounding” ——即根据自然语言指令,在屏幕截图中精准定位目标 UI 元素。
然而,现有方法普遍将用户指令视为静态代理(static proxy),忽视了一个关键事实:同一个操作意图,可以用多种方式表达。
例如,要“关闭窗口”,人类可能会说:
- 外观视角:“点击红色的 × 按钮”
- 功能视角:“关闭当前文件管理器”
- 空间视角:“点击右上角的按钮”
- 意图视角:“退出这个界面”
人类能灵活切换视角,选择最有效的描述方式。但当前模型大多只在单一指令风格上训练,缺乏多视角理解与动态选择能力,导致在面对复杂、模糊或隐式指令时表现不佳。
更严重的是,论文作者对主流 GUI Grounding数据集(如 OS-Atlas、Widget Captioning、AMEX)进行了人工审查,发现高达 23.3% 的指令存在错误或歧义(如指向多个 UI 元素、或根本无对应元素),严重污染训练数据。
🔍 关键发现:仅通过在推理时切换不同视角的指令,就能在 ScreenSpot-Pro 上实现 76% 的相对性能提升——这说明指令多样性本身就是一种未被充分利用的“免费性能”。
02核心创新
为解决上述问题,UI-Ins 提出了 “指令即推理”(Instruction-as-Reasoning) 新范式:
不再把指令当作被动输入,而是将其视为动态的推理路径(Reasoning Pathway)。模型在执行任务前,会主动“思考”:哪种描述视角最有助于准确定位目标?甚至可以组合多个视角,或生成全新推理角度!
1. 高质量多视角数据构建
UI-Ins 团队构建了一套端到端的数据清洗与增强流水线:
- 预处理:检测 UI 元素,通过 IoU 对齐修正原始标注框,过滤错误样本。
- 多视角指令生成:利用多模态大模型,为每个 UI 元素生成四类高质量指令:
- Appearance(外观):图标、颜色、文字等视觉特征
- Functionality(功能):点击后的行为或目的
- Location(空间):相对于其他元素的位置
- Intent(意图):用户最终目标
- 指令验证:再次调用多模态大模型,确保每条指令唯一对应目标元素,避免歧义。
该流程将原始数据的错误率从 23.3% 降至 <8%,并显著提升模型在多个基准上的表现。
2. 两阶段训练框架:SFT + 强化学习(RL)
UI-Ins 采用 监督微调(SFT) + 强化学习(RL) 的两阶段训练策略:
SFT 阶段:教会模型“多视角思考”
- 每个训练样本包含两种视角:一种作为用户指令,另一种作为模型需生成的“推理过程”。
- 模型输出格式为:
- 目标:让模型学会将任意指令转化为结构化推理路径,再预测坐标。
RL 阶段:优化“最优视角选择”
- 使用 Group Relative Policy Optimization (GRPO) 算法。
- 在推理时不指定视角,鼓励模型自主探索最佳推理路径。
- 奖励函数:若预测坐标落在目标 bounding box 内,则奖励为 1,否则为 0。
- 通过 Z-score 归一化奖励,稳定训练过程。
💡 关键突破:该框架有效缓解了 SFT+RL 中常见的 “策略崩溃”(Policy Collapse) 问题——SFT 阶段的多视角训练为 RL 提供了丰富的探索空间,避免模型陷入单一、僵化的输出模式。
03性能表现:全面刷新 SOTA
UI-Ins 在五大主流 GUI Grounding基准上均取得当前最佳(SOTA)成绩:
| 基准 | UI-Ins-32B | 提升亮点 |
| UI-I2E-Bench | 87.3% | 隐式指令理解能力显著增强 |
| MMBench-GUI L2 | 84.9% | 复杂层级指令处理更稳健 |
| ScreenSpot-Pro | 57.0% | 专业软件高分辨率场景表现优异 |
| ScreenSpot-V2 | 94.9% | 跨平台(Windows/macOS/Android)泛化强 |
| ShowDown | 73.8% | 低级控制与指令跟随能力突出 |
📌 特别亮点:在 MMBench-GUI L2 的“Advanced”子集(需推理用户意图)上,UI-Ins-7B 相比 Qwen2.5-VL-7B 提升 159.4%;在 UI-I2E-Bench 的“隐式”子集上,UI-Ins-32B 相比 GTA1 提升 6.6%,证明其在复杂语义理解上的优势。
在线智能体表现:74.1% 任务成功率!
更令人振奋的是,UI-Ins 不仅在静态Grounding任务上表现出色,在真实动态环境中同样可靠。
- 实验设置:在 AndroidWorld 基准中,使用 GPT-5 作为规划器(Planner),UI-Ins-7B 作为执行器(Executor)。
- 结果:任务成功率达 74.1%,超越 Gemini 2.5 Computer Use(69.7%)、UI-TARS-2(73.3%)等闭源模型。
- 意义:证明 UI-Ins 的Grounding能力可直接转化为真实世界智能体的行动可靠性。
04UI-Ins 到底“强”在哪里?
1. 指令多样性 ≠ 自由形式推理(Free-Form Reasoning)
- 实验表明,传统的自由形式推理在 RL 阶段反而会降低性能(UI-Tars-1.5-7B 下降 6.4%)。
- 而 UI-Ins 的结构化多视角推理则显著提升性能(Qwen2.5-VL-7B 提升 9.9%)。
2. 涌现能力:超越预定义视角
UI-Ins 不仅能使用四种预定义视角,还能:
- 组合视角:如“点击右上角(空间)的红色×(外观)按钮来关闭窗口(意图)”。
- 生成新视角:如基于 UI 元素状态(“未激活的按钮”)、组件分组(“在对齐控制组中”)等进行推理。
- 定性分析显示,1477 个样本中出现了 5245 种不同推理方式,远超训练时的 4 种。
3. 消融实验验证各模块必要性
| 配置 | MMBench-GUI L2 | UI-I2E-Bench |
| 无 SFT + 无 RL | 63.4% | 56.0% |
| 仅 RL | 72.4% | 69.2% |
| 仅 SFT | 76.3% | 70.1% |
| SFT + RL(完整) | 83.1% | 81.1% |
移除中间推理步骤会导致 UI-I2E-Bench 性能下降超 10%,证明结构化推理是性能核心。
05开源应用
UI-Ins 基于 Qwen2.5-VL 架构,支持图像+文本多模态输入,推理脚本简洁高效:
from modelscope import AutoProcessor, Qwen2_5_VLForConditionalGeneration
开源资源一览:
模型:
UI-Ins-7B:https://www.modelscope.cn/models/Tongyi-MiA/UI-Ins-7B
UI-Ins-32B:https://www.modelscope.cn/models/Tongyi-MiA/UI-Ins-32B
论文:https://arxiv.org/abs/2510.20286
代码仓库:https://github.com/alibaba/UI-Ins
包含完整的 SFT/RL 训练代码、数据处理流程、评估脚本,方便研究者复现与二次开发。
06从“映射”到“理解”,GUI 智能体的新起点
UI-Ins 的成功证明:理解用户意图比识别像素位置更重要。通过将指令转化为动态推理路径,模型真正学会了“思考”,而非简单映射。
未来,UI-Ins 的思想可拓展至:
- 多步骤任务规划
- 跨平台 UI 适配
- 无障碍人机交互
- 低资源设备部署(7B 模型即可胜任)
点击即可跳转模型链接
ModelScope 魔搭社区www.modelscope.cn/organization/Tongyi-MiA