智源提出通用计算机控制智能体框架Cradle

简介: 【2月更文挑战第17天】智源提出通用计算机控制智能体框架Cradle

54.jpeg
在人工智能领域,通用计算机控制(GCC)一直是一个令人向往的目标。智源研究院(BAAI)联合新加坡南洋理工大学和北京大学计算机科学学院的研究团队,提出了一个名为Cradle的智能体框架,这一框架的诞生标志着我们在实现GCC的道路上迈出了重要的一步。

Cradle框架的设计理念是模拟人类与计算机的交互方式,即通过屏幕图像和可能的音频输入,以及键盘和鼠标操作输出,来掌握任何计算机任务。这种设计不仅能够处理多样化的观察和动作空间,还能够跨越语义间隙,不依赖于特定任务的资源,从而实现跨场景的泛化能力。

Cradle框架由六个主要模块组成:信息收集、自我反思、任务推断、技能策划、动作规划和记忆。这些模块相互协作,使得智能体能够在复杂的环境中做出有效的决策和行动。信息收集模块负责处理多模态输入,包括屏幕图像和音频信息;自我反思模块则让智能体能够回顾过去的经验,以改进未来的决策;任务推断模块负责选择最佳的下一个任务;技能策划模块用于生成和更新特定任务的相关技能;动作规划模块决定键盘和鼠标控制的具体动作;而记忆模块则负责存储和检索过去的经验和已知技能。

为了验证Cradle框架的泛化和适应能力,研究团队将其应用于《荒野大镖客救赎2》(RDR2)这款复杂的AAA级游戏。RDR2以其电影般的真实场景、丰富的故事情节和沉浸式的开放世界而闻名,其复杂的黑盒控制系统代表了最具挑战性的计算机任务。在这款游戏中,Cradle需要捕获和解释各种类型的信息,并执行比典型软件更广泛的键盘和鼠标交互操作。

Cradle框架的实现细节体现了其对复杂任务的处理能力。它使用GPT-4V作为核心模型,这是一种大型多模态模型,能够处理复杂的语言和视觉任务。为了降低与核心模型的交互频率,视频记录器每0.5秒捕获一次游戏截图。此外,为了解决GPT-4V在空间理解和精细操作技能方面的不足,研究团队在信息收集模块中添加了视觉增强子模块,利用Grounding DINO输出可能目标的精确边界框,并执行模板匹配,为GPT-4V提供图标识别的地面真实性。

在自我反思模块中,智能体评估先前执行的动作是否成功,并决定当前执行的任务是否完成。任务推断模块在游戏过程中,当GPT-4V认为需要开始新任务时,会提出当前任务。技能策划模块则将游戏中出现的指令转化为可执行的鼠标和键盘动作。动作规划模块从程序记忆中检索与任务最相关的技能,并提供当前任务、检索到的技能集以及可能有助于决策的其他信息。GPT-4V根据这些信息建议应执行哪些技能,并提供选择这些技能的原因。动作执行模块则将键盘和鼠标动作分类为四个主要类别:按键、持续按键、释放键和指针移动。

Cradle框架在RDR2中的部署展示了其在学习和执行新技能、跟随游戏主线以及完成真实任务方面的强性能。这是第一个从零开始在AAA级游戏中完成具体任务的基于大型多模态模型(LMM)的智能体。尽管Cradle在特定任务中仍可能面临困难,但它为开发更强大的基于LMM的通用智能体奠定了基础。

未来的工作计划将扩展Cradle框架,以支持更广泛的游戏类型,如模拟和策略游戏,以及各种软件应用。此外,将音频作为输入的整合也是关键,这将引入处理同时多模态输入的额外挑战。一旦能够与任何软件无缝交互,Cradle将成为一个评估基础智能体多方面能力的互动基准。通过框架开发和执行收集的交互数据将对未来的努力至关重要,从训练更好的模型到增强世界建模,从而提高智能体的能力和对广泛用户的有用性。

Cradle框架的代码库已经开源,这为研究社区提供了一个宝贵的资源,以便进一步研究和开发。

目录
相关文章
|
8天前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
87 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
9天前
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
68 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
12天前
|
存储 人工智能
Optimus-1:哈工大联合鹏城实验室推出挑战开放世界中长期任务的智能体框架
Optimus-1是由哈尔滨工业大学(深圳)和鹏城实验室联合推出的智能体框架,旨在解决开放世界环境中长期任务的挑战。该框架结合了结构化知识和多模态经验,通过混合多模态记忆模块、知识引导规划器和经验驱动反射器,显著提升了在Minecraft等环境中的长期任务性能。本文将详细介绍Optimus-1的主要功能、技术原理以及如何运行该框架。
42 7
Optimus-1:哈工大联合鹏城实验室推出挑战开放世界中长期任务的智能体框架
|
17天前
|
人工智能 自然语言处理 JavaScript
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
Agent-E 是一个基于 AutoGen 代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。它能够执行多种复杂任务,如填写表单、搜索和排序电商产品、定位网页内容等,从而提高在线效率,减少重复劳动。本文将详细介绍 Agent-E 的功能、技术原理以及如何运行该系统。
64 5
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
|
1月前
|
敏捷开发 机器学习/深度学习 数据采集
端到端优化所有能力,字节跳动提出强化学习LLM Agent框架AGILE
【10月更文挑战第23天】字节跳动研究团队提出AGILE框架,通过强化学习优化大型语言模型(LLM)在复杂对话任务中的表现。该框架将LLM作为核心决策模块,结合记忆、工具和专家咨询模块,实现智能体的自我进化。实验结果显示,AGILE智能体在ProductQA和MedMCQA数据集上优于GPT-4。
131 4
|
2月前
|
人工智能 API 决策智能
swarm Agent框架入门指南:构建与编排多智能体系统的利器 | AI应用开发
Swarm是OpenAI在2024年10月12日宣布开源的一个实验性质的多智能体编排框架。其核心目标是让智能体之间的协调和执行变得更轻量级、更容易控制和测试。Swarm框架的主要特性包括轻量化、易于使用和高度可定制性,非常适合处理大量独立的功能和指令。【10月更文挑战第15天】
353 6
|
2月前
|
数据采集 人工智能 自然语言处理
AI Agent 金融助理0-1 Tutorial 利用Python实时查询股票API的FinanceAgent框架构建股票(美股/A股/港股) AI Finance Agent
金融领域Finance AI Agents方面的工作,发现很多行业需求和用户输入的 query都是和查询股价/行情/指数/财报汇总/金融理财建议相关。如果需要准确的 金融实时数据就不能只依赖LLM 来生成了。常规的方案包括 RAG (包括调用API )再把对应数据和prompt 一起拼接送给大模型来做文本生成。稳定的一些商业机构的金融数据API基本都是收费的,如果是以科研和demo性质有一些开放爬虫API可以使用。这里主要介绍一下 FinanceAgent,github地址 https://github.com/AI-Hub-Admin/FinanceAgent
|
2月前
|
人工智能 JSON 自然语言处理
开源模型+Orchestrating Agents多智能体框架,易用、强大且可控
本文采用开源Qwen2.5-14B-instruct-GGUF来体验多智能体编排和交接,希望在体验多智能体编排和交接框架的同时,一起评估中小参数规模的模型(14B)能否较好的完成多智能体任务。
|
4月前
|
人工智能 自然语言处理 算法
可自主进化的Agent?首个端到端智能体符号化训练框架开源了
【8月更文挑战第13天】近年来,AI领域在构建能自主完成复杂任务的智能体方面取得重大突破。这些智能体通常基于大型语言模型,可通过学习适应环境。为简化设计流程,AIWaves Inc.提出智能体符号化学习框架,使智能体能在数据中心模式下自我优化,以推进通向通用人工智能的道路。该框架将智能体视作符号网络,利用提示、工具及其组合方式定义可学习的权重,并采用自然语言模拟反向传播和梯度下降等学习过程,指导智能体的自我改进。实验显示,此框架能有效促进智能体的自主进化。尽管如此,该框架仍面临高质量提示设计及计算资源需求高等挑战。论文详情参见:https://arxiv.org/pdf/2406.18532。
187 58
|
3月前
|
人工智能 安全 量子技术
大疆DJI无人机等你来拿,蚂蚁集团agentUniverse 多智能体框架有奖征文
agentUniverse有奖征文活动来啦!分享agentUniverse的实践经验、亦或是剖析市面上各路智能体技术理念、对比开源框架的洞见,都有机会获得大疆无人机!
大疆DJI无人机等你来拿,蚂蚁集团agentUniverse 多智能体框架有奖征文
下一篇
DataWorks