导航、采矿、建造,北大这个新智能体把《我的世界》玩透了

简介: 北京大学研究团队开发的ROCKET-1智能体在《我的世界》中展现了卓越能力。通过视觉-时间上下文提示协议,ROCKET-1结合视觉和语言模型,高效解决复杂任务,如导航、采矿和建造。其核心设计包括高层次推理器和低层次政策模型,分别负责任务分解和具体执行。实验显示,ROCKET-1在短时和长时任务中均表现出色,具备强大的零样本学习能力。

在人工智能研究的浩瀚领域中,一个令人瞩目的突破来自于北京大学的研究团队。他们开发了一个名为ROCKET-1的智能体,这个智能体在《我的世界》这款游戏中展现出了惊人的能力。这篇文章将深入探讨ROCKET-1的设计原理、工作机制以及它在游戏中的卓越表现。

《我的世界》作为一个高度开放和复杂的沙盒游戏,一直以来都是人工智能研究的热门测试平台。它提供了丰富的交互元素和动态环境,能够模拟现实世界中的许多挑战。然而,要在《我的世界》中完成复杂的任务,如导航、采矿和建造,对于传统的人工智能方法来说仍然是一个巨大的挑战。

为了解决这个问题,北京大学的研究团队提出了一种名为视觉-时间上下文提示的新颖通信协议,并基于此协议开发了ROCKET-1智能体。这个智能体旨在通过结合视觉和语言模型的力量,实现对《我的世界》中复杂任务的高效解决。

ROCKET-1的核心设计理念是利用视觉-语言模型(VLM)的强大推理能力,将复杂的任务分解为多个可执行的子任务。具体来说,ROCKET-1由两个主要部分组成:一个高层次的推理器和一个低层次的政策模型。

  • 高层次推理器:这个部分由VLM组成,负责理解任务的要求,并根据当前的环境观察生成相应的提示。这些提示包括目标对象的分割掩码和交互类型,它们为低层次的政策模型提供了明确的行动指导。

  • 低层次政策模型:这个部分是ROCKET-1的实际执行者,它根据高层次推理器提供的提示,在游戏中执行相应的操作。政策模型基于一个因果变换器,能够有效地捕捉视觉观察和提示之间的依赖关系,从而做出准确的决策。

ROCKET-1的工作机制可以概括为以下几个步骤:

  1. 任务分解:高层次推理器接收到任务描述后,会根据当前的环境观察,将任务分解为多个子任务,并生成相应的提示。

  2. 对象分割:利用Segment Anything Model(SAM)等先进的图像分割技术,ROCKET-1能够准确地识别和分割出目标对象,为后续的交互提供基础。

  3. 交互决策:低层次的政策模型根据高层次推理器提供的提示和当前的环境观察,做出相应的交互决策,如移动、挖掘或建造等。

  4. 行动执行:政策模型将决策转化为实际的游戏操作,通过与游戏环境的交互,逐步完成任务。

为了验证ROCKET-1的能力,研究团队在《我的世界》中进行了广泛的实验。实验结果表明,ROCKET-1在多个方面都表现出了卓越的性能。

  • 短时任务:在短时任务上,ROCKET-1能够以极高的准确率完成各种交互操作,如狩猎、采矿和使用工具等。它能够准确地定位目标对象,并根据任务的要求执行相应的操作。

  • 长时任务:在长时任务上,ROCKET-1同样表现出色。它能够根据任务的要求,制定合理的行动计划,并逐步执行,最终完成复杂的建造或采集任务。

  • 零样本学习:ROCKET-1还展示了强大的零样本学习能力。即使面对从未见过的任务,它也能够根据高层次推理器的提示,正确地理解任务的要求,并执行相应的操作。

ROCKET-1的提出为人工智能在开放世界环境中的应用提供了一个新的思路。它通过结合视觉和语言模型的力量,实现了对复杂任务的高效解决。然而,ROCKET-1也存在一些局限性。

  • 视野限制:ROCKET-1只能与视野内的对象进行交互,对于视野外的对象则无能为力。这限制了它在一些需要探索或搜索的任务中的表现。

  • 经验依赖:ROCKET-1的决策能力依赖于高层次推理器提供的提示,如果推理器无法提供准确的提示,政策模型的决策可能会受到影响。

  • 计算成本:由于需要运行多个模型(如VLM和SAM),ROCKET-1的计算成本相对较高,可能不适合在资源有限的环境中部署。

论文链接: https://arxiv.org/pdf/2410.17856

目录
打赏
0
15
16
2
396
分享
相关文章
北大领衔,多智能体强化学习研究登上Nature子刊
北京大学研究团队近日在《Nature》子刊上发布了一篇关于多智能体强化学习(MARL)的论文,提出了一种高效且可扩展的MARL框架,旨在解决大规模网络控制系统中的决策问题。该框架实现了智能体间的局部通信,减少了通信成本与计算复杂度,并在交通、电力及疫情防控等多个真实场景实验中,显著提升了决策性能。论文链接:https://www.nature.com/articles/s42256-024-00879-7。尽管该研究仍存局限,但为MARL的应用提供了新思路。
287 2
北大领衔,多智能体强化学习研究登上Nature子刊
【10月更文挑战第1天】近日,北京大学领导的研究团队在《Nature》子刊上发表了一篇关于多智能体强化学习的论文,提出了一种高效且可扩展的框架,解决了大规模网络控制系统中的决策问题。该框架通过局部通信避免了集中式和独立学习的缺点,在交通、电力等领域的实验中展现了卓越性能。然而,其在更复杂系统中的效果及计算复杂度仍需进一步验证。论文链接:https://www.nature.com/articles/s42256-024-00879-7。
131 3
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性
Meta Motivo 是 Meta 公司推出的 AI 模型,旨在控制数字智能体的全身动作,提升元宇宙体验的真实性。该模型通过无监督强化学习算法,能够实现零样本学习、行为模仿与生成、多任务泛化等功能,适用于机器人控制、虚拟助手、游戏角色动画等多个应用场景。
238 4
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型,以Agent技术为核心,支持多种数据类型的输入与输出,具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。
887 20
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
353 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%
田渊栋团队提出Agent-as-a-Judge框架,利用智能体自身评估其他智能体的性能,不仅关注最终结果,还能提供中间反馈,更全面准确地反映智能体的真实能力。该框架在DevAI基准测试中表现出色,成本效益显著,为智能体的自我改进提供了有力支持。
229 7
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
Agent-E 是一个基于 AutoGen 代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。它能够执行多种复杂任务,如填写表单、搜索和排序电商产品、定位网页内容等,从而提高在线效率,减少重复劳动。本文将详细介绍 Agent-E 的功能、技术原理以及如何运行该系统。
601 5
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
🤖【多Agent大爆炸】——灵活调用与实践指南,解锁AI协作新技能!
本文深入探讨了单Agent与多Agent在不同场景下的应用及优势,通过实例讲解多Agent如何实现高效协作,涵盖智能物流、教育、医疗等多个领域的实际应用,旨在帮助开发者掌握多Agent系统的调用与实践技巧。
585 5
2024.11|全球具身智能的端到端AI和具身Agent技术发展到哪里了
2024年,具身智能领域取得显著进展,特别是在端到端AI控制系统和多模态感知技术方面。这些技术不仅推动了学术研究的深入,也为科技公司在实际应用中带来了突破。文章详细介绍了端到端AI的演化、自监督学习的应用、多模态感知技术的突破、基于强化学习的策略优化、模拟环境与现实环境的迁移学习、长程任务规划与任务分解、人机协作与社会交互能力,以及伦理与安全问题。未来几年,具身智能将在多模态感知、自监督学习、任务规划和人机协作等方面继续取得重要突破。
454 2
AI经营|多Agent择优生成商品标题
商品标题中关键词的好坏是商品能否被主搜检索到的关键因素,使用大模型自动优化标题成为【AI经营】中的核心能力之一,本文讲述大模型如何帮助商家优化商品素材,提升商品竞争力。
930 62
AI经营|多Agent择优生成商品标题
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等