UI-Ins:让 GUI 智能体真正“看懂”用户指令的新范式

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 通义实验室联合人大发布全新GUI Grounding模型UI-Ins,首创“指令即推理”范式,通过多视角动态推理实现SOTA性能,在五大基准全面领先,支持开源复现与应用。
低成本、高精度、强泛化——通义实验室联合中国人民大学发布全新 GUI Grounding模型 UI-Ins,首次将指令视为动态推理路径,实现 SOTA 性能与涌现推理能力。

01GUI Grounding模型为何“看不懂”用户?

在迈向通用人工智能(AGI)的道路上,图形用户界面(GUI)智能体正成为关键一环。无论是自动操作手机 App、控制桌面软件,还是辅助残障人士使用电脑,GUI 智能体的核心能力之一,就是 “Grounding” ——即根据自然语言指令,在屏幕截图中精准定位目标 UI 元素。


然而,现有方法普遍将用户指令视为静态代理(static proxy),忽视了一个关键事实:同一个操作意图,可以用多种方式表达。


例如,要“关闭窗口”,人类可能会说:

  • 外观视角:“点击红色的 × 按钮”
  • 功能视角:“关闭当前文件管理器”
  • 空间视角:“点击右上角的按钮”
  • 意图视角:“退出这个界面”


人类能灵活切换视角,选择最有效的描述方式。但当前模型大多只在单一指令风格上训练,缺乏多视角理解与动态选择能力,导致在面对复杂、模糊或隐式指令时表现不佳。


更严重的是,论文作者对主流 GUI Grounding数据集(如 OS-Atlas、Widget Captioning、AMEX)进行了人工审查,发现高达 23.3% 的指令存在错误或歧义(如指向多个 UI 元素、或根本无对应元素),严重污染训练数据。


🔍 关键发现:仅通过在推理时切换不同视角的指令,就能在 ScreenSpot-Pro 上实现 76% 的相对性能提升——这说明指令多样性本身就是一种未被充分利用的“免费性能”。

02核心创新

为解决上述问题,UI-Ins 提出了 “指令即推理”(Instruction-as-Reasoning) 新范式:

不再把指令当作被动输入,而是将其视为动态的推理路径(Reasoning Pathway)。模型在执行任务前,会主动“思考”:哪种描述视角最有助于准确定位目标?甚至可以组合多个视角,或生成全新推理角度!


1. 高质量多视角数据构建

UI-Ins 团队构建了一套端到端的数据清洗与增强流水线:

  • 预处理:检测 UI 元素,通过 IoU 对齐修正原始标注框,过滤错误样本。
  • 多视角指令生成:利用多模态大模型,为每个 UI 元素生成四类高质量指令:
  • Appearance(外观):图标、颜色、文字等视觉特征
  • Functionality(功能):点击后的行为或目的
  • Location(空间):相对于其他元素的位置
  • Intent(意图):用户最终目标
  • 指令验证:再次调用多模态大模型,确保每条指令唯一对应目标元素,避免歧义。

该流程将原始数据的错误率从 23.3% 降至 <8%,并显著提升模型在多个基准上的表现。


2. 两阶段训练框架:SFT + 强化学习(RL)

UI-Ins 采用 监督微调(SFT) + 强化学习(RL) 的两阶段训练策略:

SFT 阶段:教会模型“多视角思考”

  • 每个训练样本包含两种视角:一种作为用户指令,另一种作为模型需生成的“推理过程”。
  • 模型输出格式为:
  • 目标:让模型学会将任意指令转化为结构化推理路径,再预测坐标。


RL 阶段:优化“最优视角选择”

  • 使用 Group Relative Policy Optimization (GRPO) 算法。
  • 在推理时不指定视角,鼓励模型自主探索最佳推理路径。
  • 奖励函数:若预测坐标落在目标 bounding box 内,则奖励为 1,否则为 0。
  • 通过 Z-score 归一化奖励,稳定训练过程。
💡 关键突破:该框架有效缓解了 SFT+RL 中常见的 “策略崩溃”(Policy Collapse) 问题——SFT 阶段的多视角训练为 RL 提供了丰富的探索空间,避免模型陷入单一、僵化的输出模式。

03性能表现:全面刷新 SOTA

UI-Ins 在五大主流 GUI Grounding基准上均取得当前最佳(SOTA)成绩:

基准 UI-Ins-32B 提升亮点
UI-I2E-Bench 87.3% 隐式指令理解能力显著增强
MMBench-GUI L2 84.9% 复杂层级指令处理更稳健
ScreenSpot-Pro 57.0% 专业软件高分辨率场景表现优异
ScreenSpot-V2 94.9% 跨平台(Windows/macOS/Android)泛化强
ShowDown 73.8% 低级控制与指令跟随能力突出
📌 特别亮点:在 MMBench-GUI L2 的“Advanced”子集(需推理用户意图)上,UI-Ins-7B 相比 Qwen2.5-VL-7B 提升 159.4%;在 UI-I2E-Bench 的“隐式”子集上,UI-Ins-32B 相比 GTA1 提升 6.6%,证明其在复杂语义理解上的优势。

在线智能体表现:74.1% 任务成功率!

更令人振奋的是,UI-Ins 不仅在静态Grounding任务上表现出色,在真实动态环境中同样可靠。

  • 实验设置:在 AndroidWorld 基准中,使用 GPT-5 作为规划器(Planner),UI-Ins-7B 作为执行器(Executor)。
  • 结果:任务成功率达 74.1%,超越 Gemini 2.5 Computer Use(69.7%)、UI-TARS-2(73.3%)等闭源模型。
  • 意义:证明 UI-Ins 的Grounding能力可直接转化为真实世界智能体的行动可靠性。

04UI-Ins 到底“强”在哪里?

1. 指令多样性 ≠ 自由形式推理(Free-Form Reasoning)

  • 实验表明,传统的自由形式推理在 RL 阶段反而会降低性能(UI-Tars-1.5-7B 下降 6.4%)。
  • 而 UI-Ins 的结构化多视角推理则显著提升性能(Qwen2.5-VL-7B 提升 9.9%)。

2. 涌现能力:超越预定义视角

UI-Ins 不仅能使用四种预定义视角,还能:

  • 组合视角:如“点击右上角(空间)的红色×(外观)按钮来关闭窗口(意图)”。
  • 生成新视角:如基于 UI 元素状态(“未激活的按钮”)、组件分组(“在对齐控制组中”)等进行推理。
  • 定性分析显示,1477 个样本中出现了 5245 种不同推理方式,远超训练时的 4 种。

3. 消融实验验证各模块必要性

配置 MMBench-GUI L2 UI-I2E-Bench
无 SFT + 无 RL 63.4% 56.0%
仅 RL 72.4% 69.2%
仅 SFT 76.3% 70.1%
SFT + RL(完整) 83.1% 81.1%
移除中间推理步骤会导致 UI-I2E-Bench 性能下降超 10%,证明结构化推理是性能核心。

05开源应用

UI-Ins 基于 Qwen2.5-VL 架构,支持图像+文本多模态输入,推理脚本简洁高效:

from modelscope import AutoProcessor, Qwen2_5_VLForConditionalGeneration

开源资源一览:

模型:

UI-Ins-7B:https://www.modelscope.cn/models/Tongyi-MiA/UI-Ins-7B

UI-Ins-32B:https://www.modelscope.cn/models/Tongyi-MiA/UI-Ins-32B


论文:https://arxiv.org/abs/2510.20286

代码仓库:https://github.com/alibaba/UI-Ins


包含完整的 SFT/RL 训练代码、数据处理流程、评估脚本,方便研究者复现与二次开发。


06从“映射”到“理解”,GUI 智能体的新起点

UI-Ins 的成功证明:理解用户意图比识别像素位置更重要。通过将指令转化为动态推理路径,模型真正学会了“思考”,而非简单映射。


未来,UI-Ins 的思想可拓展至:

  • 多步骤任务规划
  • 跨平台 UI 适配
  • 无障碍人机交互
  • 低资源设备部署(7B 模型即可胜任)


点击即可跳转模型链接

ModelScope 魔搭社区www.modelscope.cn/organization/Tongyi-MiA

目录
相关文章
|
2月前
|
传感器 人工智能 API
仅100多元,他给视障人群装上AI“眼睛”
上海两名开发者为验证AI助盲实效,亲手打造百元AI眼镜,蒙眼实测过马路、识盲道,并开源项目鼓励更多人参与。技术导航,人心照亮。
794 6
仅100多元,他给视障人群装上AI“眼睛”
|
2月前
|
机器学习/深度学习 人工智能 文字识别
全新框架 Glyph 开源:用视觉理解文本,3–4 倍上下文压缩,近 5 倍推理提速!
清华CoAI与智谱AI提出Glyph新范式,将长文本渲染为图像,通过视觉语言模型实现高效长上下文处理。3-4倍压缩比,性能媲美主流大模型,显存占用降2/3,低成本支持百万token任务,开源可商用。
567 26
|
3月前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
948 2
|
2月前
|
编解码 调度 图形学
腾讯混元世界模型1.1开源:支持多视图及视频输入,单卡部署,秒级生成_魔搭ModelScope社区-ModelScope魔搭社区
混元世界模型1.1(WorldMirror)发布,支持多视图、视频输入,单卡秒级生成3D场景。兼容CG管线,开源可部署,实现点云、深度、相机等多任务统一预测,性能领先。
303 1
|
1月前
|
人工智能 自然语言处理 语音技术
Soul App联合西工大和上交大开源语音合成模型SoulX-Podcast,已登顶Hugging Face TTS趋势榜!
Soul AI Lab联合西工大、上交大开源SoulX-Podcast,支持中英粤川等多语种方言及副语言生成,可稳定输出超60分钟自然流畅的多人对话音频,已在Huggingface登顶TTS趋势榜。
401 0
Soul App联合西工大和上交大开源语音合成模型SoulX-Podcast,已登顶Hugging Face TTS趋势榜!
|
1月前
|
人工智能 搜索推荐 API
蚂蚁百宝箱联手深铁打造全国首个地铁 AI 智能体「深铁宝」:你的全能城市向导来啦~
蚂蚁百宝箱联合深铁集团、深圳通推出全国首个“公共出行+城市服务”AI智能体「深铁宝」,上线于深圳地铁、深圳通及支付宝APP,实现一句话直达、秒级响应的智慧出行体验,涵盖出行规划、乘车码快捷调取、周边生活服务推荐等一站式功能,助力城市交通与服务数字化升级。
298 30
|
2月前
|
人工智能 程序员 开发者
「超级开发个体」在诞生:一份白皮书带你理解AI时代开发者
10月24日程序员节,魔搭社区联合知乎发布《THE NEXT WAVE:AI时代开发者生态白皮书》,揭示AI时代开发者新画像:以“超级个体”为核心,兼具技术与商业闭环能力,工具平权让个人开发者崛起。报告涵盖年龄、学历、组织分布及认知行为特征,展现开发者如何用AI提效、实现从“写代码”到“搭系统”的跃迁。点击下载完整报告。
256 0
|
2月前
|
机器学习/深度学习 人工智能 搜索推荐
Thinking Machines Lab最新研究结果如何复现?On-Policy Distillation让训练成本直降10倍
Thinking Machines Lab提出On-Policy Distillation技术,让小模型高效继承大模型能力。相比传统强化学习,训练成本降低90%,效率提升十倍,支持本地部署、降低成本与延迟。结合vLLM加速与独立DeepSpeed配置,MS-SWIFT框架实现开箱即用的高效蒸馏训练,助力轻量模型具备“会思考、能纠错、可进化”的智能。
347 10
|
6天前
|
人工智能 前端开发 JavaScript
告别"玄学调试":用这份指令让AI成为你的"赛博华佗"
调试占用了开发者50%的时间?本文提供一套专业的AI调试指令,将大模型转化为"拥有10年经验的代码医生"。通过结构化的诊断-修复-预防流程,告别低效的"玄学调试",实现从"修好Bug"到"根治隐患"的质变。
172 6
|
24天前
|
数据采集 文字识别 算法
腾讯混元&清华开源15M高质量多模态训练数据,全面开放MLLM迎来质变时刻
腾讯混元与清华推出Bee项目,首创“以数据为中心”的全栈开源方案,通过Honey-Data-15M高质量数据集、HoneyPipe数据增强管线及Bee-8B模型,显著提升全开源多模态大模型性能,缩小与闭源模型差距。
288 4

热门文章

最新文章