AGUVIS:指导模型实现 GUI 自动化训练框架,结合视觉-语言模型进行训练,实现跨平台自主 GUI 交互

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: AGUVIS 是香港大学与 Salesforce 联合推出的纯视觉 GUI 自动化框架,能够在多种平台上实现自主 GUI 交互,结合显式规划和推理,提升复杂数字环境中的导航和交互能力。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

原文链接:https://mp.weixin.qq.com/s/jVlCvOHDyh67cOnqawLdOw


🚀 快速阅读

  1. 功能:跨平台自主 GUI 交互,结合自然语言指令与视觉元素关联。
  2. 技术:采用纯视觉框架和统一动作空间,结合视觉-语言模型进行训练。
  3. 应用:适用于自动化测试、虚拟助手、业务流程自动化等场景。

正文(附运行示例)

AGUVIS 是什么

公众号: 蚝油菜花 - aguvis

AGUVIS 是香港大学与 Salesforce 联合推出的纯视觉 GUI 自动化框架,专为自主 GUI 智能体设计,能够在各种平台(如网页、桌面、移动设备)上操作。该框架基于图像观察和自然语言指令与视觉元素的关联,采用一致的动作空间实现跨平台泛化。

AGUVIS 结合显式规划和推理,增强代理在复杂数字环境中的自主导航和交互能力。通过大规模数据集和两阶段训练流程,AGUVIS 在离线和在线场景中超越了现有方法的性能,成为首个不依赖外部闭源模型独立完成任务的纯视觉 GUI 代理。

AGUVIS 的主要功能

  • 跨平台自主 GUI 交互:在不同平台(如网站、桌面和移动设备)上自主执行 GUI 任务。
  • 图像观察与自然语言指令关联:将自然语言指令映射到视觉界面元素,实现基于图像的交互。
  • 显式规划与推理:集成规划和推理能力,让代理能够分析环境并生成有效的操作步骤。
  • 大规模数据集构建:创建包含多模态推理和基础的大规模 GUI 代理轨迹数据集。

AGUVIS 的技术原理

  • 纯视觉框架:采用纯视觉方法,将界面观察统一为图像,将指令基础到图像坐标,提高跨环境的泛化能力。
  • 统一动作空间:用标准化的动作空间和插件系统,在不同平台间进行一致的学习与交互。
  • 视觉-语言模型(VLM):VLM 作为基础,如 Qwen2-VL,处理任意分辨率的高分辨率图像,并动态转换为视觉令牌。
  • 两阶段训练范式
    • 第一阶段:基础训练:专注于使模型理解和与单个 GUI 截图中的对象交互。
    • 第二阶段:规划与推理训练:在基础训练的基础上,引入更复杂的决策制定和推理过程,基于多样化的代理轨迹数据训练模型。
  • 内省式独白(Inner Monologue):在训练中生成详细的内省式独白,包含观察描述、思考和低级动作指令,模拟代理的思考过程、提升其规划能力。
  • 插件系统:为不能直接映射到现有动作空间的动作提供灵活性,让模型能够适应新环境和任务。

如何运行 AGUVIS

安装

  1. 克隆仓库:

    git clone git@github.com:xlang-ai/aguvis.git
    cd aguvis
    
  2. 创建并激活 conda 环境:

    conda create -n aguvis python=3.10
    conda activate aguvis
    
  3. 安装 PyTorch 和依赖:

    conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia
    pip install -e .
    

数据准备

  1. 第一阶段:基础训练

  2. 第二阶段:规划与推理训练

训练

  1. 配置训练设置:

    • 打开 scripts/train.sh
    • 设置 SFT_TASK 变量以指定训练阶段。
  2. 开始训练:

    bash scripts/train.sh
    

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
CogAgent-9B 是智谱AI基于 GLM-4V-9B 训练的专用Agent任务模型,支持高分辨率图像处理和双语交互,能够预测并执行GUI操作,广泛应用于自动化任务。
37 12
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
|
9天前
|
数据采集 人工智能 自然语言处理
Midscene.js:AI 驱动的 UI 自动化测试框架,支持自然语言交互,生成可视化报告
Midscene.js 是一款基于 AI 技术的 UI 自动化测试框架,通过自然语言交互简化测试流程,支持动作执行、数据查询和页面断言,提供可视化报告,适用于多种应用场景。
102 1
Midscene.js:AI 驱动的 UI 自动化测试框架,支持自然语言交互,生成可视化报告
|
3月前
|
机器学习/深度学习 人工智能 运维
构建高效运维体系:从自动化到智能化的演进
本文探讨了如何通过自动化和智能化手段,提升IT运维效率与质量。首先介绍了自动化在简化操作、减少错误中的作用;然后阐述了智能化技术如AI在预测故障、优化资源中的应用;最后讨论了如何构建一个既自动化又智能的运维体系,以实现高效、稳定和安全的IT环境。
85 4
|
3月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
70 4
|
2月前
|
机器学习/深度学习 运维 监控
智能化运维:从自动化到AIOps的演进之路####
本文深入探讨了IT运维领域如何由传统手工操作逐步迈向高度自动化,并进一步向智能化运维(AIOps)转型的过程。不同于常规摘要仅概述内容要点,本摘要将直接引入一个核心观点:随着云计算、大数据及人工智能技术的飞速发展,智能化运维已成为提升企业IT系统稳定性与效率的关键驱动力。文章详细阐述了自动化工具的应用现状、面临的挑战以及AIOps如何通过预测性分析和智能决策支持,实现运维工作的质变,引领读者思考未来运维模式的发展趋势。 ####
|
2月前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的崛起背景,深入分析了其核心概念、关键技术、应用场景及面临的挑战,并对比了传统IT运维模式,揭示了AIOps如何引领运维管理向更高效、智能的方向迈进。通过实际案例分析,展示了AIOps在不同行业中的应用成效,为读者提供了对未来智能运维趋势的洞察与思考。 ####
95 1
|
2月前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####
|
2月前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在故障预测和自动化响应中的应用
智能化运维:机器学习在故障预测和自动化响应中的应用
64 4
|
3月前
|
运维 jenkins 持续交付
自动化部署的魅力:如何用Jenkins和Docker简化运维工作
【10月更文挑战第7天】在现代软件开发周期中,快速且高效的部署是至关重要的。本文将引导你理解如何使用Jenkins和Docker实现自动化部署,从而简化运维流程。我们将从基础概念开始,逐步深入到实战操作,让你轻松掌握这一强大的工具组合。通过这篇文章,你将学会如何利用这些工具来提升你的工作效率,并减少人为错误的可能性。
|
3月前
|
运维 Prometheus 监控
运维中的自动化实践每月一次的系统维护曾经是许多企业的噩梦。不仅因为停机时间长,更因为手动操作容易出错。然而,随着自动化工具的引入,这一切正在悄然改变。本文将探讨自动化在IT运维中的重要性及其具体应用。
在当今信息技术飞速发展的时代,企业对系统的稳定性和效率要求越来越高。传统的手动运维方式已经无法满足现代企业的需求。自动化技术的引入不仅提高了运维效率,还显著降低了出错风险。本文通过几个实际案例,展示了自动化在IT运维中的具体应用,包括自动化部署、监控告警和故障排除等方面,旨在为读者提供一些实用的参考。

热门文章

最新文章