3D具身基础模型!北大提出Lift3D赋予2D大模型鲁棒的3D操纵能力

简介: 北京大学研究团队提出Lift3D框架,通过增强2D预训练模型的隐式与显式3D机器人表示,实现鲁棒的3D操作策略。核心包括任务感知掩码自编码器和2D模型提升策略,有效提高3D空间感知能力。实验表明,Lift3D在模拟与真实场景中性能优越,但计算成本较高且未涉及语言条件理解。未来可结合多模态模型优化应用。

在人工智能与机器人技术迅速发展的今天,3D几何信息在机器人操作任务中的重要性愈发凸显。机器人需要感知3D环境、理解空间关系,并与复杂的空间配置进行交互。然而,目前的2D大型预训练模型在处理3D操作任务时仍存在局限性,如缺乏大规模的机器人3D数据和潜在的空间几何信息损失。

为了解决这些问题,北京大学的研究团队提出了一种名为Lift3D的创新框架。该框架通过逐步增强2D基础模型的隐式和显式3D机器人表示,来构建一个鲁棒的3D操作策略。这一成果已发表在论文《Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic Manipulation》中。

Lift3D的核心思想是利用现有的2D大型预训练模型,通过增强其隐式和显式3D机器人表示,使其能够处理3D操作任务。具体而言,Lift3D包括两个关键策略:

  1. 任务感知的掩码自编码器(Task-aware Masked Autoencoder):该策略通过在2D图像中掩码与任务相关的可行区域,并重建深度信息,来增强2D基础模型的隐式3D机器人表示。这种方式不仅提高了模型对3D空间的感知能力,还为后续的点云模仿学习奠定了基础。

  2. 2D模型提升策略(2D Model-lifting Strategy):该策略通过将2D基础模型的预训练位置嵌入(PEs)直接用于编码3D点云数据,来增强显式3D机器人表示。这种方式避免了模式转换过程中的空间信息损失,同时利用了2D基础模型的大规模预训练知识。

为了验证Lift3D的有效性,研究团队在多个模拟基准和真实世界场景中进行了广泛的实验。实验结果表明,Lift3D在多个方面表现出了优越的性能:

  • 模拟基准测试:在MetaWorld和Adroit等模拟基准测试中,Lift3D的平均成功率分别比之前的SOTA 3D策略提高了18.2%和21.3%。这表明Lift3D在处理复杂3D操作任务时具有更高的准确性和鲁棒性。

  • 真实世界实验:在真实世界实验中,Lift3D能够仅通过30个episodes的学习,就掌握新的操作技能。此外,Lift3D还展示了强大的泛化能力,能够有效地利用2D基础模型的大规模预训练知识和全面的3D机器人表示,在不同的操作实例、背景场景和光照条件下保持稳定的性能。

Lift3D的提出为2D大型预训练模型在3D操作任务中的应用提供了新的思路和方法。其创新之处在于通过增强隐式和显式3D机器人表示,使2D模型能够更好地理解和处理3D空间信息。实验结果表明,Lift3D在多个模拟基准和真实世界场景中都表现出了优越的性能,为3D操作任务的研究和应用提供了新的可能。

然而,Lift3D也存在一些局限性。首先,Lift3D主要关注于提升2D视觉模型在3D操作任务中的能力,而没有涉及语言条件的理解。虽然可以通过与CLIP等多模态模型的结合来解决这一问题,但如何更好地整合语言信息仍是一个挑战。其次,Lift3D的训练和推理过程可能需要较高的计算资源和时间成本,这可能限制了其在资源受限场景中的应用。

尽管存在一些局限性,但Lift3D的提出为3D操作任务的研究和应用带来了新的机遇。未来,研究人员可以进一步探索如何将Lift3D与多模态模型更好地结合,以实现更强大的3D Vision-Language-Action模型。此外,还可以研究如何优化Lift3D的训练和推理过程,以降低其计算资源和时间成本,使其能够更广泛地应用于实际场景中。

论文链接: https://arxiv.org/pdf/2411.18623

目录
相关文章
|
7月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
1201 109
|
7月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
652 2
|
8月前
|
文字识别 算法 语音技术
基于模型蒸馏的大模型文案生成最佳实践
本文介绍了基于模型蒸馏技术优化大语言模型在文案生成中的应用。针对大模型资源消耗高、部署困难的问题,采用EasyDistill算法框架与PAI产品,通过SFT和DPO算法将知识从大型教师模型迁移至轻量级学生模型,在保证生成质量的同时显著降低计算成本。内容涵盖教师模型部署、训练数据构建及学生模型蒸馏优化全过程,助力企业在资源受限场景下实现高效文案生成,提升用户体验与业务增长。
855 23
|
6月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
843 120
|
8月前
|
存储 人工智能 自然语言处理
告别文字乱码!全新文生图模型Qwen-Image来咯
通义千问团队开源了Qwen-Image,一个20B参数的MMDiT模型,具备卓越的文本渲染和图像编辑能力。支持复杂中英文文本生成与自动布局,适用于多场景图像生成与编辑任务,已在魔搭社区与Hugging Face开源。
1503 2
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
1035 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
7月前
|
自然语言处理 机器人 图形学
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
腾讯混元图像3.0,真的来了——开源,免费开放使用。 正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对…
1442 2
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型

热门文章

最新文章

下一篇
开通oss服务