AGUVIS:指导模型实现 GUI 自动化训练框架,结合视觉-语言模型进行训练,实现跨平台自主 GUI 交互

简介: AGUVIS 是香港大学与 Salesforce 联合推出的纯视觉 GUI 自动化框架,能够在多种平台上实现自主 GUI 交互,结合显式规划和推理,提升复杂数字环境中的导航和交互能力。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

原文链接:https://mp.weixin.qq.com/s/jVlCvOHDyh67cOnqawLdOw


🚀 快速阅读

  1. 功能:跨平台自主 GUI 交互,结合自然语言指令与视觉元素关联。
  2. 技术:采用纯视觉框架和统一动作空间,结合视觉-语言模型进行训练。
  3. 应用:适用于自动化测试、虚拟助手、业务流程自动化等场景。

正文(附运行示例)

AGUVIS 是什么

公众号: 蚝油菜花 - aguvis

AGUVIS 是香港大学与 Salesforce 联合推出的纯视觉 GUI 自动化框架,专为自主 GUI 智能体设计,能够在各种平台(如网页、桌面、移动设备)上操作。该框架基于图像观察和自然语言指令与视觉元素的关联,采用一致的动作空间实现跨平台泛化。

AGUVIS 结合显式规划和推理,增强代理在复杂数字环境中的自主导航和交互能力。通过大规模数据集和两阶段训练流程,AGUVIS 在离线和在线场景中超越了现有方法的性能,成为首个不依赖外部闭源模型独立完成任务的纯视觉 GUI 代理。

AGUVIS 的主要功能

  • 跨平台自主 GUI 交互:在不同平台(如网站、桌面和移动设备)上自主执行 GUI 任务。
  • 图像观察与自然语言指令关联:将自然语言指令映射到视觉界面元素,实现基于图像的交互。
  • 显式规划与推理:集成规划和推理能力,让代理能够分析环境并生成有效的操作步骤。
  • 大规模数据集构建:创建包含多模态推理和基础的大规模 GUI 代理轨迹数据集。

AGUVIS 的技术原理

  • 纯视觉框架:采用纯视觉方法,将界面观察统一为图像,将指令基础到图像坐标,提高跨环境的泛化能力。
  • 统一动作空间:用标准化的动作空间和插件系统,在不同平台间进行一致的学习与交互。
  • 视觉-语言模型(VLM):VLM 作为基础,如 Qwen2-VL,处理任意分辨率的高分辨率图像,并动态转换为视觉令牌。
  • 两阶段训练范式
    • 第一阶段:基础训练:专注于使模型理解和与单个 GUI 截图中的对象交互。
    • 第二阶段:规划与推理训练:在基础训练的基础上,引入更复杂的决策制定和推理过程,基于多样化的代理轨迹数据训练模型。
  • 内省式独白(Inner Monologue):在训练中生成详细的内省式独白,包含观察描述、思考和低级动作指令,模拟代理的思考过程、提升其规划能力。
  • 插件系统:为不能直接映射到现有动作空间的动作提供灵活性,让模型能够适应新环境和任务。

如何运行 AGUVIS

安装

  1. 克隆仓库:

    git clone git@github.com:xlang-ai/aguvis.git
    cd aguvis
    
  2. 创建并激活 conda 环境:

    conda create -n aguvis python=3.10
    conda activate aguvis
    
  3. 安装 PyTorch 和依赖:

    conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia
    pip install -e .
    

数据准备

  1. 第一阶段:基础训练

  2. 第二阶段:规划与推理训练

训练

  1. 配置训练设置:

    • 打开 scripts/train.sh
    • 设置 SFT_TASK 变量以指定训练阶段。
  2. 开始训练:

    bash scripts/train.sh
    

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
7月前
|
Web App开发 人工智能 JavaScript
主流自动化测试框架的技术解析与实战指南
本内容深入解析主流测试框架Playwright、Selenium与Cypress的核心架构与适用场景,对比其在SPA测试、CI/CD、跨浏览器兼容性等方面的表现。同时探讨Playwright在AI增强测试、录制回放、企业部署等领域的实战优势,以及Selenium在老旧系统和IE兼容性中的坚守场景。结合六大典型场景,提供技术选型决策指南,并展望AI赋能下的未来测试体系。
|
5月前
|
数据采集 人工智能 自然语言处理
Playwright MCP 浏览器自动化框架全面解析
Playwright MCP是微软推出的开源项目,结合Playwright与MCP协议,让AI通过结构化数据直接操作浏览器。告别传统视觉识别,实现高效、精准的网页自动化,广泛应用于测试、爬虫、办公自动化等场景,大幅提升效率与可靠性。
|
8月前
|
Web App开发 开发框架 .NET
Playwright 自动化测试系列(6)| 第三阶段:测试框架集成​指南:参数化测试 + 多浏览器并行执行
Pytest 与 Playwright 集成可提升自动化测试效率,支持参数化测试、多浏览器并行执行及统一报告生成。通过数据驱动、Fixture 管理和并行优化,显著增强测试覆盖率与执行速度,适用于复杂 Web 应用测试场景。
|
8月前
|
测试技术 API C++
Playwright 自动化测试系列(7)| 第三阶段:测试框架集成​​Page Object 模式
本课程详解Playwright测试框架中的Page Object模式,通过电商登录-下单实战演示PO架构设计与高级技巧,结合Pytest实现多用户测试。重点解析PO模式提升代码复用性、降低维护成本的核心价值,并提供常见问题解决方案,助力构建高可维护性的自动化测试体系。
|
8月前
|
Java 测试技术 API
自动化测试框架深度解析与选择指南
Apache JMeter是Apache组织基于Java开发的一款压力测试工具,旨在测试软件的性能承受能力。它支持多种协议测试及功能测试,提供灵活的断言创建能力,如同创建带断言的脚本来验证程序是否返回预期结果。
|
5月前
|
数据采集 运维 监控
爬虫与自动化技术深度解析:从数据采集到智能运维的完整实战指南
本文系统解析爬虫与自动化核心技术,涵盖HTTP请求、数据解析、分布式架构及反爬策略,结合Scrapy、Selenium等框架实战,助力构建高效、稳定、合规的数据采集系统。
1021 62
爬虫与自动化技术深度解析:从数据采集到智能运维的完整实战指南
|
6月前
|
运维 Linux 网络安全
自动化真能省钱?聊聊运维自动化如何帮企业优化IT成本
自动化真能省钱?聊聊运维自动化如何帮企业优化IT成本
218 4
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
402 4
|
8月前
|
运维 监控 安全
从实践到自动化:现代运维管理的转型与挑战
本文探讨了现代运维管理从传统人工模式向自动化转型的必要性与路径,分析了传统运维的痛点,如效率低、响应慢、依赖经验等问题,并介绍了自动化运维在提升效率、降低成本、增强系统稳定性与安全性方面的优势。结合技术工具与实践案例,文章展示了企业如何通过自动化实现运维升级,推动数字化转型,提升业务竞争力。

热门文章

最新文章