NeurIPS 2024:机器人操纵世界模型来了,成功率超过谷歌RT-1 26.6%

简介: PIVOT-R是一种新型世界模型,专注于预测与任务相关的路点,以提高语言引导的机器人操作的性能和效率。该模型由路点感知世界模型(WAWM)和轻量级动作预测模块组成,辅以异步分层执行器(AHE),在SeaWave基准测试中表现优异,平均相对改进达19.45%,执行效率提高28倍。

在人工智能和机器人技术飞速发展的今天,语言引导的机器人操作(Language-guided robotic manipulation)已经成为一个备受关注的前沿领域。这一技术要求机器人能够理解并执行抽象的用户指令,以完成各种复杂的操作任务。然而,现有的模型在处理这一任务时,往往只是简单地拟合数据,而没有揭示指令与低级可执行动作之间的关系。这使得这些模型容易记住数据的表面模式,而不是获得可转移的知识,从而在动态环境变化时表现得非常脆弱。

为了解决这一问题,研究人员提出了一种名为PIVOT-R的新型世界模型,它专注于预测与任务相关的路点(waypoints)。PIVOT-R由两个主要部分组成:一个是路点感知世界模型(Waypoint-aware World Model,WAWM),另一个是轻量级的动作预测模块。WAWM负责解析原始动作并预测由原始动作驱动的路点,而动作预测模块则专注于解码低级动作。此外,研究人员还设计了一个异步分层执行器(Asynchronous Hierarchical Executor,AHE),它能够为模型的不同模块使用不同的执行频率,从而帮助模型减少计算冗余并提高执行效率。

在SeaWave基准测试中,PIVOT-R的表现超过了当前最先进的开源模型,平均相对改进达到了19.45%,涵盖了四个级别的指令任务。与同步执行的PIVOT-R相比,使用AHE的PIVOT-R的执行效率提高了28倍,而性能仅下降了2.9%。这些结果充分证明了PIVOT-R在提高机器人操作的性能和效率方面具有显著优势。

PIVOT-R的成功在于其对路点预测的专注。通过将重点放在与任务相关的路点上,PIVOT-R能够更准确地理解用户指令,并将其转化为可执行的低级动作。这种方式不仅提高了模型的鲁棒性,还使其能够更好地适应动态环境的变化。此外,AHE的使用也为PIVOT-R带来了显著的性能提升。通过为不同模块设置不同的执行频率,AHE能够有效地减少计算冗余,从而提高模型的执行效率。

然而,PIVOT-R也存在一些潜在的局限性。首先,尽管它在SeaWave基准测试中表现出色,但我们仍需要在更广泛的任务和环境中验证其性能。其次,PIVOT-R的路点预测方法可能不适用于所有类型的机器人操作任务。对于一些需要更精确控制或更复杂动作的任务,可能需要进一步改进或扩展PIVOT-R的方法。此外,虽然AHE的使用提高了PIVOT-R的执行效率,但我们仍需要评估其对模型性能的潜在影响,并探索其他可能的优化策略。

论文地址:https://arxiv.org/abs/2410.10394

目录
相关文章
|
3月前
|
机器学习/深度学习 数据采集 监控
量化交易机器人开发风控模型对比分析与落地要点
本文系统对比规则止损、统计模型、机器学习及组合式风控方案,从成本、鲁棒性、可解释性等维度评估其在合约量化场景的适用性,结合落地实操建议,为不同阶段的交易系统提供选型参考。
|
5月前
|
传感器 算法 定位技术
KF,EKF,IEKF 算法的基本原理并构建推导出四轮前驱自主移动机器人的运动学模型和观测模型(Matlab代码实现)
KF,EKF,IEKF 算法的基本原理并构建推导出四轮前驱自主移动机器人的运动学模型和观测模型(Matlab代码实现)
164 2
|
机器学习/深度学习 人工智能 分布式计算
使用PAI+LLaMA Factory 微调 Qwen2-VL 模型,搭建文旅领域知识问答机器人
本次教程介绍了如何使用 PAI ×LLaMA Factory 框架,基于全参方法微调 Qwen2-VL 模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
使用PAI+LLaMA Factory 微调 Qwen2-VL 模型,搭建文旅领域知识问答机器人
|
10月前
|
数据采集 人工智能 数据可视化
SpatialLM:手机视频秒建3D场景!开源空间认知模型颠覆机器人训练
SpatialLM 是群核科技开源的空间理解多模态模型,能够通过普通手机拍摄的视频重建 3D 场景布局,赋予机器人类似人类的空间认知能力,适用于具身智能训练、自动导航、AR/VR 等领域。
798 5
SpatialLM:手机视频秒建3D场景!开源空间认知模型颠覆机器人训练
|
12月前
|
数据采集 人工智能 算法
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
Seer是由上海AI实验室与北大等机构联合推出的端到端操作模型,结合视觉预测与动作执行,显著提升机器人任务成功率。
509 20
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
|
12月前
|
人工智能 自动驾驶 安全
Cosmos:英伟达生成式世界基础模型平台,加速自动驾驶与机器人开发
Cosmos 是英伟达推出的生成式世界基础模型平台,旨在加速物理人工智能系统的发展,特别是在自动驾驶和机器人领域。
1039 15
Cosmos:英伟达生成式世界基础模型平台,加速自动驾驶与机器人开发
|
存储 自然语言处理 机器人
基于的Qwen模型的智能客服Discord机器人,使用🐫 CAMEL、SambaNova、Firecrawl和Qdrant实现RAG Agent
基于Qwen模型的智能客服Discord机器人,使用CAMEL、SambaNova、Firecrawl和Qdrant实现RAG Agent。构建了一个能够处理复杂问题并能进行快速响应的强大聊天机器人。该机器人可在Discord平台上运行,支持实时对话和语义搜索,提供准确、全面的回答。项目包含详细的安装步骤、代码示例及集成指南,适合开发者快速上手。
|
传感器 人工智能 自然语言处理
RDT:清华开源全球最大的双臂机器人操作任务扩散基础模型、代码与训练集,基于模仿能力机器人能够自主完成复杂任务
RDT(Robotics Diffusion Transformer)是由清华大学AI研究院TSAIL团队推出的全球最大的双臂机器人操作任务扩散基础模型。RDT具备十亿参数量,能够在无需人类操控的情况下自主完成复杂任务,如调酒和遛狗。
760 22
RDT:清华开源全球最大的双臂机器人操作任务扩散基础模型、代码与训练集,基于模仿能力机器人能够自主完成复杂任务
|
12月前
|
人工智能 算法 自动驾驶
Jim Fan全华人团队HOVER问世,1.5M小模型让机器人获潜意识!
在机器人技术领域,人形机器人的全身控制一直极具挑战。传统方法为不同任务(如导航、移动操作等)单独训练控制策略,限制了策略的可转移性。Jim Fan团队提出HOVER框架,通过全身运动模仿作为共同抽象,整合多种控制模式,实现无缝过渡,显著提升控制效率和灵活性。HOVER不仅为人形机器人应用带来巨大潜力,也为机器人技术发展提供新思路。论文地址:https://arxiv.org/abs/2410.21229
250 23
|
人工智能 算法 机器人
EMMA-X:新加坡科技设计大学推出具身多模态动作模型,使夹爪机器人具备空间推理和任务规划能力
EMMA-X是由新加坡科技设计大学推出的具身多模态动作模型,具备70亿参数,通过在链式思维推理数据上微调OpenVLA创建。该模型结合层次化的具身数据集,增强空间推理和任务规划能力。
465 3
EMMA-X:新加坡科技设计大学推出具身多模态动作模型,使夹爪机器人具备空间推理和任务规划能力

热门文章

最新文章