智源提出通用计算机控制智能体框架Cradle

简介: 【2月更文挑战第17天】智源提出通用计算机控制智能体框架Cradle

54.jpeg
在人工智能领域,通用计算机控制(GCC)一直是一个令人向往的目标。智源研究院(BAAI)联合新加坡南洋理工大学和北京大学计算机科学学院的研究团队,提出了一个名为Cradle的智能体框架,这一框架的诞生标志着我们在实现GCC的道路上迈出了重要的一步。

Cradle框架的设计理念是模拟人类与计算机的交互方式,即通过屏幕图像和可能的音频输入,以及键盘和鼠标操作输出,来掌握任何计算机任务。这种设计不仅能够处理多样化的观察和动作空间,还能够跨越语义间隙,不依赖于特定任务的资源,从而实现跨场景的泛化能力。

Cradle框架由六个主要模块组成:信息收集、自我反思、任务推断、技能策划、动作规划和记忆。这些模块相互协作,使得智能体能够在复杂的环境中做出有效的决策和行动。信息收集模块负责处理多模态输入,包括屏幕图像和音频信息;自我反思模块则让智能体能够回顾过去的经验,以改进未来的决策;任务推断模块负责选择最佳的下一个任务;技能策划模块用于生成和更新特定任务的相关技能;动作规划模块决定键盘和鼠标控制的具体动作;而记忆模块则负责存储和检索过去的经验和已知技能。

为了验证Cradle框架的泛化和适应能力,研究团队将其应用于《荒野大镖客救赎2》(RDR2)这款复杂的AAA级游戏。RDR2以其电影般的真实场景、丰富的故事情节和沉浸式的开放世界而闻名,其复杂的黑盒控制系统代表了最具挑战性的计算机任务。在这款游戏中,Cradle需要捕获和解释各种类型的信息,并执行比典型软件更广泛的键盘和鼠标交互操作。

Cradle框架的实现细节体现了其对复杂任务的处理能力。它使用GPT-4V作为核心模型,这是一种大型多模态模型,能够处理复杂的语言和视觉任务。为了降低与核心模型的交互频率,视频记录器每0.5秒捕获一次游戏截图。此外,为了解决GPT-4V在空间理解和精细操作技能方面的不足,研究团队在信息收集模块中添加了视觉增强子模块,利用Grounding DINO输出可能目标的精确边界框,并执行模板匹配,为GPT-4V提供图标识别的地面真实性。

在自我反思模块中,智能体评估先前执行的动作是否成功,并决定当前执行的任务是否完成。任务推断模块在游戏过程中,当GPT-4V认为需要开始新任务时,会提出当前任务。技能策划模块则将游戏中出现的指令转化为可执行的鼠标和键盘动作。动作规划模块从程序记忆中检索与任务最相关的技能,并提供当前任务、检索到的技能集以及可能有助于决策的其他信息。GPT-4V根据这些信息建议应执行哪些技能,并提供选择这些技能的原因。动作执行模块则将键盘和鼠标动作分类为四个主要类别:按键、持续按键、释放键和指针移动。

Cradle框架在RDR2中的部署展示了其在学习和执行新技能、跟随游戏主线以及完成真实任务方面的强性能。这是第一个从零开始在AAA级游戏中完成具体任务的基于大型多模态模型(LMM)的智能体。尽管Cradle在特定任务中仍可能面临困难,但它为开发更强大的基于LMM的通用智能体奠定了基础。

未来的工作计划将扩展Cradle框架,以支持更广泛的游戏类型,如模拟和策略游戏,以及各种软件应用。此外,将音频作为输入的整合也是关键,这将引入处理同时多模态输入的额外挑战。一旦能够与任何软件无缝交互,Cradle将成为一个评估基础智能体多方面能力的互动基准。通过框架开发和执行收集的交互数据将对未来的努力至关重要,从训练更好的模型到增强世界建模,从而提高智能体的能力和对广泛用户的有用性。

Cradle框架的代码库已经开源,这为研究社区提供了一个宝贵的资源,以便进一步研究和开发。

目录
相关文章
|
6月前
|
人工智能 API 决策智能
MetaGPT( The Multi-Agent Framework):颠覆AI开发的革命性多智能体元编程框架
MetaGPT( The Multi-Agent Framework):颠覆AI开发的革命性多智能体元编程框架
MetaGPT( The Multi-Agent Framework):颠覆AI开发的革命性多智能体元编程框架
|
3月前
|
开发框架 数据可视化 Windows
如何提升大模型Agent的能力 ——LLM Agent框架 Modelscope-Agent 实战
本文介绍Agent到底是什么 ,如何进行优化,以及如何使用Agen框架。
|
3天前
|
人工智能 决策智能 C++
【AI Agent系列】【阿里AgentScope框架】5. Pipeline模块的组合使用及Pipeline模块总结
【AI Agent系列】【阿里AgentScope框架】5. Pipeline模块的组合使用及Pipeline模块总结
18 1
|
3天前
|
人工智能 搜索推荐 决策智能
【AI Agent系列】【阿里AgentScope框架】1. 深入源码:详细解读AgentScope中的智能体定义以及模型配置的流程
【AI Agent系列】【阿里AgentScope框架】1. 深入源码:详细解读AgentScope中的智能体定义以及模型配置的流程
35 0
|
3天前
|
存储 人工智能 开发框架
【AI Agent系列】【阿里AgentScope框架】0. 快速上手:AgentScope框架简介与你的第一个AgentScope程序
【AI Agent系列】【阿里AgentScope框架】0. 快速上手:AgentScope框架简介与你的第一个AgentScope程序
20 0
|
15天前
|
人工智能 前端开发 开发工具
Agent调研--19类Agent框架对比(上)
Agent调研--19类Agent框架对比(上)
189 0
|
7月前
|
开发框架 人工智能 API
魔搭社区推出ModelScope-Agent开发框架,打造属于你的智能体
魔搭社区推出适配开源大语言模型(LLM)的AI Agent(智能体)开发框架ModelScope-Agent。
魔搭社区推出ModelScope-Agent开发框架,打造属于你的智能体
|
机器学习/深度学习 人工智能
李飞飞提出深度进化强化学习新框架:创建具身智能体学会动物进化法则
6亿多年的进化中,动物表现出显著的具身智能,利用进化学习复杂的任务。研究人员称,AI智能体也可以很快学会动物的这种智能行为,但目前推动具身认知面临很多挑战。最近斯坦福李飞飞教授等人的研究「深度进化强化学习」有了突破,首次证明了「鲍德温效应」。
424 0
李飞飞提出深度进化强化学习新框架:创建具身智能体学会动物进化法则
|
机器学习/深度学习 存储 人工智能
DeepMind发布Acme,高效分布式强化学习算法框架轻松编写RL智能体
DeepMind 本周发布了一个强化学习优化框架Acme,可以让AI驱动的智能体在不同的执行规模上运行,从而简化强化学习算法的开发过程。
379 0
DeepMind发布Acme,高效分布式强化学习算法框架轻松编写RL智能体
|
机器学习/深度学习 设计模式 Web App开发
上海交大开源MALib多智能体并行训练框架,支持大规模基于种群的多智能体强化学习训练
基于种群的多智能体深度强化学习(PB-MARL)方法在星际争霸、王者荣耀等游戏AI上已经得到成功验证,MALib 则是首个专门面向 PB-MARL 的开源大规模并行训练框架。MALib 支持丰富的种群训练方式(例如,self-play, PSRO, league training),并且实现和优化了常见多智能体深度强化学习算法,为研究人员降低并行化工作量的同时,大幅提升了训练效率。此外,MALib 基于 Ray 的底层分布式框架,实现了全新的中心化任务分发模型,相较于常见的多智能体强化学习训练框架(RLlib,PyMARL,OpenSpiel),相同硬件条件下吞吐量和训练速度有着数倍的提升。现
464 0
上海交大开源MALib多智能体并行训练框架,支持大规模基于种群的多智能体强化学习训练

热门文章

最新文章