何恺明新作出炉!异构预训练Transformer颠覆本体视觉学习范式,AI性能暴涨超20%

简介: 【10月更文挑战第29天】在机器人学习领域,训练通用模型面临数据异构性的挑战。近期研究“Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers”提出异构预训练Transformer(HPT),通过大规模预训练学习跨不同本体和任务的共享表示,显著提升了性能。实验结果显示,HPT在未见过的任务上表现优异,性能提升超过20%。

在机器人学习领域,训练一个能够适应多种任务和环境的通用模型一直是一个挑战。传统方法通常需要为每个特定的机器人、任务和环境收集数据,这不仅昂贵而且容易过拟合。然而,最近一项名为“Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers”的研究提出了一种新颖的方法,该方法利用异构预训练Transformer(HPT)来学习跨不同本体和任务的共享表示,从而实现了显著的性能提升。

机器人学习的难点在于数据的异构性,包括不同的机器人硬件、环境和任务。这种异构性使得传统方法难以泛化到新的场景中。然而,机器学习领域的历史经验表明,在大规模、高质量和多样化的数据上进行预训练可以带来更一般的模型,这些模型通常比特定任务的模型表现更好。

为了解决机器人学习中的异构性问题,该研究提出了HPT方法。HPT是一种通用的架构,它通过在大量不同本体和任务的数据上进行预训练,学习一个与任务和本体无关的共享表示。该架构将来自不同本体的特定本体感觉和视觉输入对齐到一个短序列的标记中,然后处理这些标记以映射到不同任务的机器人控制。

HPT的关键思想是利用异构预训练来对齐来自不同本体的本体感觉和视觉信息,从而创建一个共享的“语言”或策略。通过这种共享表示,新的本体只需要少量的数据和训练来“翻译”其特定的设置到共享的“语言”中。

该研究在多个模拟器基准和真实世界设置中进行了实验,并比较了HPT与其他基线的性能。实验结果表明,HPT在未见过的任务上表现显著优于其他方法,性能提升超过20%。

在模拟器实验中,HPT在Meta-world、RoboMimic和Fleet-Tools等多个机器人操作模拟器基准上进行了评估。实验结果表明,HPT在所有这些基准上都表现出了显著的性能提升。

在真实世界实验中,HPT在宠物护理和装配等任务上进行了评估。实验结果表明,HPT在真实世界环境中也表现出了良好的泛化性能,能够执行动态、长时域的接触丰富任务。

HPT方法的提出为机器人学习领域带来了新的思路和方法。通过利用异构预训练来学习共享表示,HPT能够适应不同的本体和任务,并在未见过的任务上表现出显著的性能提升。

然而,HPT方法也存在一些局限性。首先,HPT的预训练需要大量的数据和计算资源,这可能限制了其在资源受限环境中的应用。其次,HPT的泛化性能仍然受到限制,特别是在处理非常不同的本体和任务时。

论文地址:https://arxiv.org/pdf/2409.20537

目录
相关文章
|
17天前
|
人工智能 API 开发工具
【重磅发布】 免费领取阿里云百炼AI大模型100万Tokens教程出炉,API接口实战操作,DeepSeek-R1满血版即刻体验!
阿里云百炼是一站式大模型开发及应用构建平台,支持开发者和业务人员轻松设计、构建大模型应用。通过简单操作,用户可在5分钟内开发出大模型应用或在几小时内训练专属模型,专注于创新。
412 88
【重磅发布】 免费领取阿里云百炼AI大模型100万Tokens教程出炉,API接口实战操作,DeepSeek-R1满血版即刻体验!
|
8天前
|
机器学习/深度学习 人工智能 编解码
阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频
Wan2.1是阿里云开源的一款AI视频生成大模型,支持文生视频和图生视频任务,具备强大的视觉生成能力,性能超越Sora、Luma等国内外模型。
387 2
阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频
|
2天前
|
人工智能 网络性能优化 调度
Koordinator v1.6: 支持AI/ML场景的异构资源调度能力
如何高效管理和调度这些资源成为了行业关注的核心问题。在这一背景下,Koordinator积极响应社区诉求,持续深耕异构设备调度能力,并在最新的v1.6版本中推出了一系列创新功能,帮助客户解决异构资源调度难题。
38 16
|
19天前
|
人工智能 编解码 算法
ENEL:3D建模革命!上海AI Lab黑科技砍掉编码器,7B模型性能吊打13B巨头
ENEL是由上海AI Lab推出的无编码器3D大型多模态模型,能够在多个3D任务中实现高效语义编码和几何结构理解,如3D对象分类、字幕生成和视觉问答。
61 9
ENEL:3D建模革命!上海AI Lab黑科技砍掉编码器,7B模型性能吊打13B巨头
|
16天前
|
人工智能 自然语言处理 运维
AI性能极致体验:通过阿里云平台高效调用满血版DeepSeek-R1模型
DeepSeek是近期热门的开源大语言模型(LLM),以其强大的训练和推理能力备受关注。然而,随着用户需求的增长,其官网在高并发和大数据处理场景下常面临服务不稳定的问题。本文将深度测评通过阿里云平台调用满血版DeepSeek模型(671B),以充分发挥其性能和稳定性。阿里云提供高效、低延迟、大规模并发支持及稳定的云服务保障,并为用户提供100万免费token,简化操作流程,确保企业在AI应用上的高效性和成本效益。尽管如此,DeepSeek API目前不支持联网搜索和图片、文档分析功能,需结合其他工具实现。
901 17
|
8天前
|
人工智能 Java 数据处理
Java高级应用开发:基于AI的微服务架构优化与性能调优
在现代企业级应用开发中,微服务架构虽带来灵活性和可扩展性,但也增加了系统复杂性和性能瓶颈。本文探讨如何利用AI技术,特别是像DeepSeek这样的智能工具,优化Java微服务架构。AI通过智能分析系统运行数据,自动识别并解决性能瓶颈,优化服务拆分、通信方式及资源管理,实现高效性能调优,助力开发者设计更合理的微服务架构,迎接未来智能化开发的新时代。
|
8天前
|
机器学习/深度学习 自然语言处理 算法
生成式 AI 大语言模型(LLMs)核心算法及源码解析:预训练篇
生成式 AI 大语言模型(LLMs)核心算法及源码解析:预训练篇
|
2月前
|
机器学习/深度学习 人工智能 算法
Transformer打破三十年数学猜想!Meta研究者用AI给出反例,算法杀手攻克数学难题
《PatternBoost: Constructions in Mathematics with a Little Help from AI》提出了一种结合传统搜索算法和Transformer神经网络的PatternBoost算法,通过局部搜索和全局优化交替进行,成功应用于组合数学问题。该算法在图论中的Ramsey数研究中找到了更小的反例,推翻了一个30年的猜想,展示了AI在数学研究中的巨大潜力,但也面临可解释性和通用性的挑战。论文地址:https://arxiv.org/abs/2411.00566
94 13
|
2月前
|
机器学习/深度学习 人工智能 测试技术
登上Nature的AI芯片设计屡遭质疑,谷歌发文反击,Jeff Dean:质疑者连预训练都没做
2020年,谷歌的AlphaChip在Nature上发表并开源,其深度强化学习方法能生成超越人类水平的芯片布局,引发AI在芯片设计领域的研究热潮。然而,ISPD 2023的一篇论文对其性能提出质疑,指出未按Nature论文方法运行、计算资源不足等问题。谷歌DeepMind团队回应,强调AlphaChip已在多代TPU和Alphabet芯片中成功应用,并批驳ISPD论文的主要错误。此外,针对Igor Markov的“元分析”和无根据猜测,谷歌提供了详细的时间线和非机密部署情况,澄清事实并重申AlphaChip的开放性和透明度。
46 13
|
2月前
|
机器学习/深度学习 数据采集 人工智能
昇腾AI行业案例(七):基于 Conformer 和 Transformer 模型的中文语音识别
欢迎学习《基于 Conformer 和 Transformer 模型的中文语音识别》实验。本案例旨在帮助你深入了解如何运用深度学习模型搭建一个高效精准的语音识别系统,将中文语音信号转换成文字,并利用开源数据集对模型效果加以验证。
76 12

热门文章

最新文章