NeurIPS 2024:机器人操纵世界模型来了,成功率超过谷歌RT-1 26.6%

简介: PIVOT-R是一种新型世界模型,专注于预测与任务相关的路点,以提高语言引导的机器人操作的性能和效率。该模型由路点感知世界模型(WAWM)和轻量级动作预测模块组成,辅以异步分层执行器(AHE),在SeaWave基准测试中表现优异,平均相对改进达19.45%,执行效率提高28倍。

在人工智能和机器人技术飞速发展的今天,语言引导的机器人操作(Language-guided robotic manipulation)已经成为一个备受关注的前沿领域。这一技术要求机器人能够理解并执行抽象的用户指令,以完成各种复杂的操作任务。然而,现有的模型在处理这一任务时,往往只是简单地拟合数据,而没有揭示指令与低级可执行动作之间的关系。这使得这些模型容易记住数据的表面模式,而不是获得可转移的知识,从而在动态环境变化时表现得非常脆弱。

为了解决这一问题,研究人员提出了一种名为PIVOT-R的新型世界模型,它专注于预测与任务相关的路点(waypoints)。PIVOT-R由两个主要部分组成:一个是路点感知世界模型(Waypoint-aware World Model,WAWM),另一个是轻量级的动作预测模块。WAWM负责解析原始动作并预测由原始动作驱动的路点,而动作预测模块则专注于解码低级动作。此外,研究人员还设计了一个异步分层执行器(Asynchronous Hierarchical Executor,AHE),它能够为模型的不同模块使用不同的执行频率,从而帮助模型减少计算冗余并提高执行效率。

在SeaWave基准测试中,PIVOT-R的表现超过了当前最先进的开源模型,平均相对改进达到了19.45%,涵盖了四个级别的指令任务。与同步执行的PIVOT-R相比,使用AHE的PIVOT-R的执行效率提高了28倍,而性能仅下降了2.9%。这些结果充分证明了PIVOT-R在提高机器人操作的性能和效率方面具有显著优势。

PIVOT-R的成功在于其对路点预测的专注。通过将重点放在与任务相关的路点上,PIVOT-R能够更准确地理解用户指令,并将其转化为可执行的低级动作。这种方式不仅提高了模型的鲁棒性,还使其能够更好地适应动态环境的变化。此外,AHE的使用也为PIVOT-R带来了显著的性能提升。通过为不同模块设置不同的执行频率,AHE能够有效地减少计算冗余,从而提高模型的执行效率。

然而,PIVOT-R也存在一些潜在的局限性。首先,尽管它在SeaWave基准测试中表现出色,但我们仍需要在更广泛的任务和环境中验证其性能。其次,PIVOT-R的路点预测方法可能不适用于所有类型的机器人操作任务。对于一些需要更精确控制或更复杂动作的任务,可能需要进一步改进或扩展PIVOT-R的方法。此外,虽然AHE的使用提高了PIVOT-R的执行效率,但我们仍需要评估其对模型性能的潜在影响,并探索其他可能的优化策略。

论文地址:https://arxiv.org/abs/2410.10394

目录
相关文章
|
6天前
|
存储 运维 安全
云上金融量化策略回测方案与最佳实践
2024年11月29日,阿里云在上海举办金融量化策略回测Workshop,汇聚多位行业专家,围绕量化投资的最佳实践、数据隐私安全、量化策略回测方案等议题进行深入探讨。活动特别设计了动手实践环节,帮助参会者亲身体验阿里云产品功能,涵盖EHPC量化回测和Argo Workflows量化回测两大主题,旨在提升量化投研效率与安全性。
云上金融量化策略回测方案与最佳实践
|
8天前
|
人工智能 自然语言处理 前端开发
从0开始打造一款APP:前端+搭建本机服务,定制暖冬卫衣先到先得
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。
8313 20
|
12天前
|
Cloud Native Apache 流计算
资料合集|Flink Forward Asia 2024 上海站
Apache Flink 年度技术盛会聚焦“回顾过去,展望未来”,涵盖流式湖仓、流批一体、Data+AI 等八大核心议题,近百家厂商参与,深入探讨前沿技术发展。小松鼠为大家整理了 FFA 2024 演讲 PPT ,可在线阅读和下载。
4475 10
资料合集|Flink Forward Asia 2024 上海站
|
12天前
|
自然语言处理 数据可视化 API
Qwen系列模型+GraphRAG/LightRAG/Kotaemon从0开始构建中医方剂大模型知识图谱问答
本文详细记录了作者在短时间内尝试构建中医药知识图谱的过程,涵盖了GraphRAG、LightRAG和Kotaemon三种图RAG架构的对比与应用。通过实际操作,作者不仅展示了如何利用这些工具构建知识图谱,还指出了每种工具的优势和局限性。尽管初步构建的知识图谱在数据处理、实体识别和关系抽取等方面存在不足,但为后续的优化和改进提供了宝贵的经验和方向。此外,文章强调了知识图谱构建不仅仅是技术问题,还需要深入整合领域知识和满足用户需求,体现了跨学科合作的重要性。
|
20天前
|
人工智能 自动驾驶 大数据
预告 | 阿里云邀您参加2024中国生成式AI大会上海站,马上报名
大会以“智能跃进 创造无限”为主题,设置主会场峰会、分会场研讨会及展览区,聚焦大模型、AI Infra等热点议题。阿里云智算集群产品解决方案负责人丛培岩将出席并发表《高性能智算集群设计思考与实践》主题演讲。观众报名现已开放。
|
8天前
|
人工智能 容器
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
本文介绍了如何利用千问开发一款情侣刮刮乐小游戏,通过三步简单指令实现从单个功能到整体框架,再到多端优化的过程,旨在为生活增添乐趣,促进情感交流。在线体验地址已提供,鼓励读者动手尝试,探索编程与AI结合的无限可能。
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
|
1月前
|
存储 人工智能 弹性计算
阿里云弹性计算_加速计算专场精华概览 | 2024云栖大会回顾
2024年9月19-21日,2024云栖大会在杭州云栖小镇举行,阿里云智能集团资深技术专家、异构计算产品技术负责人王超等多位产品、技术专家,共同带来了题为《AI Infra的前沿技术与应用实践》的专场session。本次专场重点介绍了阿里云AI Infra 产品架构与技术能力,及用户如何使用阿里云灵骏产品进行AI大模型开发、训练和应用。围绕当下大模型训练和推理的技术难点,专家们分享了如何在阿里云上实现稳定、高效、经济的大模型训练,并通过多个客户案例展示了云上大模型训练的显著优势。
104585 10
|
8天前
|
消息中间件 人工智能 运维
12月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
664 43
|
5天前
|
弹性计算 运维 监控
阿里云云服务诊断工具:合作伙伴架构师的深度洞察与优化建议
作为阿里云的合作伙伴架构师,我深入体验了其云服务诊断工具,该工具通过实时监控与历史趋势分析,自动化检查并提供详细的诊断报告,极大提升了运维效率和系统稳定性,特别在处理ECS实例资源不可用等问题时表现突出。此外,它支持预防性维护,帮助识别潜在问题,减少业务中断。尽管如此,仍建议增强诊断效能、扩大云产品覆盖范围、提供自定义诊断选项、加强教育与培训资源、集成第三方工具,以进一步提升用户体验。
637 243
|
2天前
|
弹性计算 运维 监控
云服务测评 | 基于云服务诊断全方位监管云产品
本文介绍了阿里云的云服务诊断功能,包括健康状态和诊断两大核心功能。作者通过个人账号体验了该服务,指出其在监控云资源状态和快速排查异常方面的优势,同时也提出了一些改进建议,如增加告警配置入口和扩大诊断范围等。