何恺明新作出炉!异构预训练Transformer颠覆本体视觉学习范式,AI性能暴涨超20%

简介: 【10月更文挑战第29天】在机器人学习领域,训练通用模型面临数据异构性的挑战。近期研究“Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers”提出异构预训练Transformer(HPT),通过大规模预训练学习跨不同本体和任务的共享表示,显著提升了性能。实验结果显示,HPT在未见过的任务上表现优异,性能提升超过20%。

在机器人学习领域,训练一个能够适应多种任务和环境的通用模型一直是一个挑战。传统方法通常需要为每个特定的机器人、任务和环境收集数据,这不仅昂贵而且容易过拟合。然而,最近一项名为“Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers”的研究提出了一种新颖的方法,该方法利用异构预训练Transformer(HPT)来学习跨不同本体和任务的共享表示,从而实现了显著的性能提升。

机器人学习的难点在于数据的异构性,包括不同的机器人硬件、环境和任务。这种异构性使得传统方法难以泛化到新的场景中。然而,机器学习领域的历史经验表明,在大规模、高质量和多样化的数据上进行预训练可以带来更一般的模型,这些模型通常比特定任务的模型表现更好。

为了解决机器人学习中的异构性问题,该研究提出了HPT方法。HPT是一种通用的架构,它通过在大量不同本体和任务的数据上进行预训练,学习一个与任务和本体无关的共享表示。该架构将来自不同本体的特定本体感觉和视觉输入对齐到一个短序列的标记中,然后处理这些标记以映射到不同任务的机器人控制。

HPT的关键思想是利用异构预训练来对齐来自不同本体的本体感觉和视觉信息,从而创建一个共享的“语言”或策略。通过这种共享表示,新的本体只需要少量的数据和训练来“翻译”其特定的设置到共享的“语言”中。

该研究在多个模拟器基准和真实世界设置中进行了实验,并比较了HPT与其他基线的性能。实验结果表明,HPT在未见过的任务上表现显著优于其他方法,性能提升超过20%。

在模拟器实验中,HPT在Meta-world、RoboMimic和Fleet-Tools等多个机器人操作模拟器基准上进行了评估。实验结果表明,HPT在所有这些基准上都表现出了显著的性能提升。

在真实世界实验中,HPT在宠物护理和装配等任务上进行了评估。实验结果表明,HPT在真实世界环境中也表现出了良好的泛化性能,能够执行动态、长时域的接触丰富任务。

HPT方法的提出为机器人学习领域带来了新的思路和方法。通过利用异构预训练来学习共享表示,HPT能够适应不同的本体和任务,并在未见过的任务上表现出显著的性能提升。

然而,HPT方法也存在一些局限性。首先,HPT的预训练需要大量的数据和计算资源,这可能限制了其在资源受限环境中的应用。其次,HPT的泛化性能仍然受到限制,特别是在处理非常不同的本体和任务时。

论文地址:https://arxiv.org/pdf/2409.20537

目录
相关文章
|
3月前
|
机器学习/深度学习 人工智能 数据可视化
首个全自动科学发现AI系统,Transformer作者创业公司Sakana AI推出AI Scientist
【9月更文挑战第11天】Sakana AI公司近日推出全球首个全自动科学发现AI系统——AI Scientist,实现了人工智能在科学研究领域的重大突破。AI Scientist不仅能独立完成从假设提出到实验设计、数据分析及论文撰写的全过程,还能通过模拟评审提升研究成果的质量。该系统已成功应用于机器学习的多个子领域,并产出达到顶级会议标准的论文。尽管其高效性备受赞誉,但也引发了关于研究可信度和潜在风险的讨论。Sakana AI强调,系统具备可追溯的决策过程与严格的评审机制,确保了研究的可靠性和透明度。论文详情参见:[链接]。
83 6
|
24天前
|
机器学习/深度学习 人工智能 数据可视化
何恺明CV课程 | AI大咖说
麻省理工学院(MIT)电气工程与计算机科学系(EECS)副教授何恺明开设了两门精彩课程:“Advance in Computer Vision”和“Deep Generative Models”。何恺明是计算机视觉和深度学习领域的杰出科学家,曾提出深度残差网络(ResNet)等重要成果。这两门课程不仅涵盖了最新的研究前沿,还由何恺明亲自授课,内容涉及卷积神经网络、生成对抗网络、变分自编码器等,是学习计算机视觉和生成模型的宝贵资源。
61 8
|
2月前
|
存储 人工智能 自然语言处理
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
|
24天前
|
人工智能 Java 编译器
.NET 9 发布 性能提升、AI 支持与全方位改进
【11月更文挑战第5天】.NET 9 引入了多项改进,包括性能提升、AI 支持和全方位功能优化。性能方面,编译器增强、服务器 GC 优化、矢量化和硬件支持等提升了执行效率。AI 方面,新增学习材料、合作伙伴生态、原生支持和生成式 AI 集成。此外,.NET Aspire 组件升级、编程语言新功能和开发工具更新进一步提升了开发体验。
|
28天前
|
机器学习/深度学习 人工智能 自然语言处理
o1医学领域大胜GPT-4,性能暴涨!顶尖华人团队激动发文:离AI医生越来越近了
【10月更文挑战第29天】近日,一支顶尖华人团队发布论文《A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?》,揭示了OpenAI最新语言模型o1在医学领域的卓越表现。研究显示,o1在概念识别、文本总结、问答等任务上远超GPT-4,显著提升了医学领域的AI应用水平,向实现AI医生的目标迈进了一大步。
46 3
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
揭开模型微调Fine-Tuning的神秘面纱:如何在预训练基础上巧妙调整,解锁定制AI解决方案的秘密武器
【10月更文挑战第8天】模型微调是在预训练模型基础上,利用特定领域数据进一步训练,以优化模型在特定任务上的表现。此方法广泛应用于自然语言处理和计算机视觉等领域,通过调整预训练模型的部分或全部参数,结合适当的正则化手段,有效提升模型性能。例如,使用Hugging Face的Transformers库对BERT模型进行微调,以改善文本匹配任务的准确率。
61 1
|
3月前
|
人工智能 安全 测试技术
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
|
3月前
|
人工智能 测试技术
语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场
【9月更文挑战第20天】Meta研究人员提出了一种名为Transfusion的创新方法,通过融合Transformer和Diffusion模型,实现了能同时处理文本和图像数据的多模态模型。此模型结合了语言模型的预测能力和Diffusion模型的生成能力,能够在单一架构中处理混合模态数据,有效学习文本与图像间的复杂关系,提升跨模态理解和生成效果。经过大规模预训练,Transfusion模型在多种基准测试中表现出色,尤其在图像压缩和模态特定编码方面具有优势。然而,其训练所需的大量计算资源和数据、以及潜在的伦理和隐私问题仍需关注。
73 7
|
2月前
|
机器学习/深度学习 人工智能
【AI大模型】深入Transformer架构:编码器部分的实现与解析(下)
【AI大模型】深入Transformer架构:编码器部分的实现与解析(下)
|
2月前
|
人工智能 自然语言处理
【NLP自然语言处理】NLP中的常用预训练AI模型
【NLP自然语言处理】NLP中的常用预训练AI模型