❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
原文链接:https://mp.weixin.qq.com/s/jVlCvOHDyh67cOnqawLdOw
🚀 快速阅读
- 功能:跨平台自主 GUI 交互,结合自然语言指令与视觉元素关联。
- 技术:采用纯视觉框架和统一动作空间,结合视觉-语言模型进行训练。
- 应用:适用于自动化测试、虚拟助手、业务流程自动化等场景。
正文(附运行示例)
AGUVIS 是什么
AGUVIS 是香港大学与 Salesforce 联合推出的纯视觉 GUI 自动化框架,专为自主 GUI 智能体设计,能够在各种平台(如网页、桌面、移动设备)上操作。该框架基于图像观察和自然语言指令与视觉元素的关联,采用一致的动作空间实现跨平台泛化。
AGUVIS 结合显式规划和推理,增强代理在复杂数字环境中的自主导航和交互能力。通过大规模数据集和两阶段训练流程,AGUVIS 在离线和在线场景中超越了现有方法的性能,成为首个不依赖外部闭源模型独立完成任务的纯视觉 GUI 代理。
AGUVIS 的主要功能
- 跨平台自主 GUI 交互:在不同平台(如网站、桌面和移动设备)上自主执行 GUI 任务。
- 图像观察与自然语言指令关联:将自然语言指令映射到视觉界面元素,实现基于图像的交互。
- 显式规划与推理:集成规划和推理能力,让代理能够分析环境并生成有效的操作步骤。
- 大规模数据集构建:创建包含多模态推理和基础的大规模 GUI 代理轨迹数据集。
AGUVIS 的技术原理
- 纯视觉框架:采用纯视觉方法,将界面观察统一为图像,将指令基础到图像坐标,提高跨环境的泛化能力。
- 统一动作空间:用标准化的动作空间和插件系统,在不同平台间进行一致的学习与交互。
- 视觉-语言模型(VLM):VLM 作为基础,如 Qwen2-VL,处理任意分辨率的高分辨率图像,并动态转换为视觉令牌。
- 两阶段训练范式:
- 第一阶段:基础训练:专注于使模型理解和与单个 GUI 截图中的对象交互。
- 第二阶段:规划与推理训练:在基础训练的基础上,引入更复杂的决策制定和推理过程,基于多样化的代理轨迹数据训练模型。
- 内省式独白(Inner Monologue):在训练中生成详细的内省式独白,包含观察描述、思考和低级动作指令,模拟代理的思考过程、提升其规划能力。
- 插件系统:为不能直接映射到现有动作空间的动作提供灵活性,让模型能够适应新环境和任务。
如何运行 AGUVIS
安装
克隆仓库:
git clone git@github.com:xlang-ai/aguvis.git cd aguvis
创建并激活 conda 环境:
conda create -n aguvis python=3.10 conda activate aguvis
安装 PyTorch 和依赖:
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia pip install -e .
数据准备
第一阶段:基础训练:
- 从 aguvis-stage1 下载数据集。
- 按照
data/stage1.yaml
中定义的结构放置数据。
第二阶段:规划与推理训练:
- 从 aguvis-stage2 下载数据集。
- 按照
data/stage2.yaml
中定义的结构放置数据。
训练
配置训练设置:
- 打开
scripts/train.sh
。 - 设置
SFT_TASK
变量以指定训练阶段。
- 打开
开始训练:
bash scripts/train.sh
资源
- 项目官网:https://aguvis-project.github.io/
- GitHub 仓库:https://github.com/xlang-ai/aguvis
- arXiv 技术论文:https://arxiv.org/pdf/2412.04454
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦