导航、采矿、建造,北大这个新智能体把《我的世界》玩透了

简介: 北京大学研究团队开发的ROCKET-1智能体在《我的世界》中展现了卓越能力。通过视觉-时间上下文提示协议,ROCKET-1结合视觉和语言模型,高效解决复杂任务,如导航、采矿和建造。其核心设计包括高层次推理器和低层次政策模型,分别负责任务分解和具体执行。实验显示,ROCKET-1在短时和长时任务中均表现出色,具备强大的零样本学习能力。

在人工智能研究的浩瀚领域中,一个令人瞩目的突破来自于北京大学的研究团队。他们开发了一个名为ROCKET-1的智能体,这个智能体在《我的世界》这款游戏中展现出了惊人的能力。这篇文章将深入探讨ROCKET-1的设计原理、工作机制以及它在游戏中的卓越表现。

《我的世界》作为一个高度开放和复杂的沙盒游戏,一直以来都是人工智能研究的热门测试平台。它提供了丰富的交互元素和动态环境,能够模拟现实世界中的许多挑战。然而,要在《我的世界》中完成复杂的任务,如导航、采矿和建造,对于传统的人工智能方法来说仍然是一个巨大的挑战。

为了解决这个问题,北京大学的研究团队提出了一种名为视觉-时间上下文提示的新颖通信协议,并基于此协议开发了ROCKET-1智能体。这个智能体旨在通过结合视觉和语言模型的力量,实现对《我的世界》中复杂任务的高效解决。

ROCKET-1的核心设计理念是利用视觉-语言模型(VLM)的强大推理能力,将复杂的任务分解为多个可执行的子任务。具体来说,ROCKET-1由两个主要部分组成:一个高层次的推理器和一个低层次的政策模型。

  • 高层次推理器:这个部分由VLM组成,负责理解任务的要求,并根据当前的环境观察生成相应的提示。这些提示包括目标对象的分割掩码和交互类型,它们为低层次的政策模型提供了明确的行动指导。

  • 低层次政策模型:这个部分是ROCKET-1的实际执行者,它根据高层次推理器提供的提示,在游戏中执行相应的操作。政策模型基于一个因果变换器,能够有效地捕捉视觉观察和提示之间的依赖关系,从而做出准确的决策。

ROCKET-1的工作机制可以概括为以下几个步骤:

  1. 任务分解:高层次推理器接收到任务描述后,会根据当前的环境观察,将任务分解为多个子任务,并生成相应的提示。

  2. 对象分割:利用Segment Anything Model(SAM)等先进的图像分割技术,ROCKET-1能够准确地识别和分割出目标对象,为后续的交互提供基础。

  3. 交互决策:低层次的政策模型根据高层次推理器提供的提示和当前的环境观察,做出相应的交互决策,如移动、挖掘或建造等。

  4. 行动执行:政策模型将决策转化为实际的游戏操作,通过与游戏环境的交互,逐步完成任务。

为了验证ROCKET-1的能力,研究团队在《我的世界》中进行了广泛的实验。实验结果表明,ROCKET-1在多个方面都表现出了卓越的性能。

  • 短时任务:在短时任务上,ROCKET-1能够以极高的准确率完成各种交互操作,如狩猎、采矿和使用工具等。它能够准确地定位目标对象,并根据任务的要求执行相应的操作。

  • 长时任务:在长时任务上,ROCKET-1同样表现出色。它能够根据任务的要求,制定合理的行动计划,并逐步执行,最终完成复杂的建造或采集任务。

  • 零样本学习:ROCKET-1还展示了强大的零样本学习能力。即使面对从未见过的任务,它也能够根据高层次推理器的提示,正确地理解任务的要求,并执行相应的操作。

ROCKET-1的提出为人工智能在开放世界环境中的应用提供了一个新的思路。它通过结合视觉和语言模型的力量,实现了对复杂任务的高效解决。然而,ROCKET-1也存在一些局限性。

  • 视野限制:ROCKET-1只能与视野内的对象进行交互,对于视野外的对象则无能为力。这限制了它在一些需要探索或搜索的任务中的表现。

  • 经验依赖:ROCKET-1的决策能力依赖于高层次推理器提供的提示,如果推理器无法提供准确的提示,政策模型的决策可能会受到影响。

  • 计算成本:由于需要运行多个模型(如VLM和SAM),ROCKET-1的计算成本相对较高,可能不适合在资源有限的环境中部署。

论文链接: https://arxiv.org/pdf/2410.17856

目录
相关文章
|
1天前
|
存储 运维 安全
云上金融量化策略回测方案与最佳实践
2024年11月29日,阿里云在上海举办金融量化策略回测Workshop,汇聚多位行业专家,围绕量化投资的最佳实践、数据隐私安全、量化策略回测方案等议题进行深入探讨。活动特别设计了动手实践环节,帮助参会者亲身体验阿里云产品功能,涵盖EHPC量化回测和Argo Workflows量化回测两大主题,旨在提升量化投研效率与安全性。
云上金融量化策略回测方案与最佳实践
|
3天前
|
人工智能 自然语言处理 前端开发
从0开始打造一款APP:前端+搭建本机服务,定制暖冬卫衣先到先得
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。
3664 16
|
15天前
|
人工智能 自动驾驶 大数据
预告 | 阿里云邀您参加2024中国生成式AI大会上海站,马上报名
大会以“智能跃进 创造无限”为主题,设置主会场峰会、分会场研讨会及展览区,聚焦大模型、AI Infra等热点议题。阿里云智算集群产品解决方案负责人丛培岩将出席并发表《高性能智算集群设计思考与实践》主题演讲。观众报名现已开放。
|
7天前
|
自然语言处理 数据可视化 API
Qwen系列模型+GraphRAG/LightRAG/Kotaemon从0开始构建中医方剂大模型知识图谱问答
本文详细记录了作者在短时间内尝试构建中医药知识图谱的过程,涵盖了GraphRAG、LightRAG和Kotaemon三种图RAG架构的对比与应用。通过实际操作,作者不仅展示了如何利用这些工具构建知识图谱,还指出了每种工具的优势和局限性。尽管初步构建的知识图谱在数据处理、实体识别和关系抽取等方面存在不足,但为后续的优化和改进提供了宝贵的经验和方向。此外,文章强调了知识图谱构建不仅仅是技术问题,还需要深入整合领域知识和满足用户需求,体现了跨学科合作的重要性。
|
3天前
|
人工智能 容器
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
本文介绍了如何利用千问开发一款情侣刮刮乐小游戏,通过三步简单指令实现从单个功能到整体框架,再到多端优化的过程,旨在为生活增添乐趣,促进情感交流。在线体验地址已提供,鼓励读者动手尝试,探索编程与AI结合的无限可能。
|
1月前
|
存储 人工智能 弹性计算
阿里云弹性计算_加速计算专场精华概览 | 2024云栖大会回顾
2024年9月19-21日,2024云栖大会在杭州云栖小镇举行,阿里云智能集团资深技术专家、异构计算产品技术负责人王超等多位产品、技术专家,共同带来了题为《AI Infra的前沿技术与应用实践》的专场session。本次专场重点介绍了阿里云AI Infra 产品架构与技术能力,及用户如何使用阿里云灵骏产品进行AI大模型开发、训练和应用。围绕当下大模型训练和推理的技术难点,专家们分享了如何在阿里云上实现稳定、高效、经济的大模型训练,并通过多个客户案例展示了云上大模型训练的显著优势。
|
7天前
|
Cloud Native Apache 流计算
PPT合集|Flink Forward Asia 2024 上海站
Apache Flink 年度技术盛会聚焦“回顾过去,展望未来”,涵盖流式湖仓、流批一体、Data+AI 等八大核心议题,近百家厂商参与,深入探讨前沿技术发展。小松鼠为大家整理了 FFA 2024 演讲 PPT ,可在线阅读和下载。
3334 10
PPT合集|Flink Forward Asia 2024 上海站
|
20天前
|
人工智能 自然语言处理 前端开发
100个降噪蓝牙耳机免费领,用通义灵码从 0 开始打造一个完整APP
打开手机,录制下你完成的代码效果,发布到你的社交媒体,前 100 个@玺哥超Carry、@通义灵码的粉丝,可以免费获得一个降噪蓝牙耳机。
5915 16
|
3天前
|
消息中间件 人工智能 运维
12月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
419 36
|
1天前
|
云安全 人工智能 安全