何恺明新作出炉!异构预训练Transformer颠覆本体视觉学习范式,AI性能暴涨超20%

简介: 【10月更文挑战第29天】在机器人学习领域,训练通用模型面临数据异构性的挑战。近期研究“Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers”提出异构预训练Transformer(HPT),通过大规模预训练学习跨不同本体和任务的共享表示,显著提升了性能。实验结果显示,HPT在未见过的任务上表现优异,性能提升超过20%。

在机器人学习领域,训练一个能够适应多种任务和环境的通用模型一直是一个挑战。传统方法通常需要为每个特定的机器人、任务和环境收集数据,这不仅昂贵而且容易过拟合。然而,最近一项名为“Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers”的研究提出了一种新颖的方法,该方法利用异构预训练Transformer(HPT)来学习跨不同本体和任务的共享表示,从而实现了显著的性能提升。

机器人学习的难点在于数据的异构性,包括不同的机器人硬件、环境和任务。这种异构性使得传统方法难以泛化到新的场景中。然而,机器学习领域的历史经验表明,在大规模、高质量和多样化的数据上进行预训练可以带来更一般的模型,这些模型通常比特定任务的模型表现更好。

为了解决机器人学习中的异构性问题,该研究提出了HPT方法。HPT是一种通用的架构,它通过在大量不同本体和任务的数据上进行预训练,学习一个与任务和本体无关的共享表示。该架构将来自不同本体的特定本体感觉和视觉输入对齐到一个短序列的标记中,然后处理这些标记以映射到不同任务的机器人控制。

HPT的关键思想是利用异构预训练来对齐来自不同本体的本体感觉和视觉信息,从而创建一个共享的“语言”或策略。通过这种共享表示,新的本体只需要少量的数据和训练来“翻译”其特定的设置到共享的“语言”中。

该研究在多个模拟器基准和真实世界设置中进行了实验,并比较了HPT与其他基线的性能。实验结果表明,HPT在未见过的任务上表现显著优于其他方法,性能提升超过20%。

在模拟器实验中,HPT在Meta-world、RoboMimic和Fleet-Tools等多个机器人操作模拟器基准上进行了评估。实验结果表明,HPT在所有这些基准上都表现出了显著的性能提升。

在真实世界实验中,HPT在宠物护理和装配等任务上进行了评估。实验结果表明,HPT在真实世界环境中也表现出了良好的泛化性能,能够执行动态、长时域的接触丰富任务。

HPT方法的提出为机器人学习领域带来了新的思路和方法。通过利用异构预训练来学习共享表示,HPT能够适应不同的本体和任务,并在未见过的任务上表现出显著的性能提升。

然而,HPT方法也存在一些局限性。首先,HPT的预训练需要大量的数据和计算资源,这可能限制了其在资源受限环境中的应用。其次,HPT的泛化性能仍然受到限制,特别是在处理非常不同的本体和任务时。

论文地址:https://arxiv.org/pdf/2409.20537

目录
相关文章
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
Transformer架构:重塑现代AI的核心引擎
Transformer架构:重塑现代AI的核心引擎
300 98
|
5天前
|
人工智能 运维 安全
从被动防御到主动免疫进化!迈格网络 “天机” AI 安全防护平台,助推全端防护性能提升
迈格网络推出“天机”新版本,以AI自学习、全端防护、主动安全三大核心能力,重构网络安全防线。融合AI引擎与DeepSeek-R1模型,实现威胁预测、零日防御、自动化响应,覆盖Web、APP、小程序全场景,助力企业从被动防御迈向主动免疫,护航数字化转型。
从被动防御到主动免疫进化!迈格网络 “天机” AI 安全防护平台,助推全端防护性能提升
|
3月前
|
机器学习/深度学习 人工智能 编解码
智谱AI发布新版VLM开源模型GLM-4.1V-9B-Thinking,引入思考范式,性能提升8倍
视觉语言大模型(VLM)已经成为智能系统的关键基石。
767 0
|
12天前
|
机器学习/深度学习 人工智能 自然语言处理
​​超越CNN与RNN:为什么Transformer是AI发展的必然选择?​
本文深入解析Transformer及其在AI领域的三大突破:自然语言处理、视觉识别(ViT)与图像生成(DiT)。以“注意力即一切”为核心,揭示其如何成为AI时代的通用架构。
148 2
|
14天前
|
人工智能 数据可视化 前端开发
AI Ping:精准可靠的大模型服务性能评测平台
AI Ping是清华系团队推出的“大模型服务评测平台”,被誉为“AI界的大众点评”。汇聚230+模型服务,7×24小时监测性能数据,以吞吐量、延迟等硬指标助力开发者科学选型。界面简洁,数据可视化强,支持多模型对比,横向对标国内外主流平台,为AI应用落地提供权威参考。
174 3
|
2月前
|
人工智能 编解码 安全
阿里云服务器上新,第9代AMD企业级实例g9ae,提升企业AI业务创新与性能突破
近日,阿里云推出的服务器ECS第9代AMD企业级实例-g9ae实例已开启邀测阶段,g9ae实例基于CIPU 2.0架构,搭载AMD Turin处理器,为国内首创物理核设计的“性能旗舰型”算力产品,专为AI时代企业离线数据处理打造。本文为大家介绍g9ae实例的性能及适用场景,以供了解与参考。
|
3月前
|
机器学习/深度学习 人工智能 算法
深度强化学习在异构环境中AI Agent行为泛化能力研究
随着人工智能技术的迅猛发展,AI Agent 在游戏、智能制造、自动驾驶等场景中已逐步展现出强大的自适应能力。特别是深度强化学习(Deep Reinforcement Learning, DRL)的引入,使得智能体能够通过与环境的交互,自动学习最优的行为策略。本文将系统性地探讨基于深度强化学习的AI Agent行为决策机制,并结合代码实战加以说明。
深度强化学习在异构环境中AI Agent行为泛化能力研究
|
3月前
|
存储 人工智能 API
AI代理性能提升实战:LangChain+LangGraph内存管理与上下文优化完整指南
在AI代理系统开发中,上下文工程成为提升系统性能的关键技术。本文探讨了从提示工程到上下文工程的转变,强调其通过为AI系统提供背景信息和工具支持,显著提升智能化程度和实用价值。文章系统分析了上下文工程的理论基础、核心策略(如写入、选择、压缩和隔离),并结合LangChain和LangGraph工具,展示了如何实现上下文工程技术以优化AI代理性能。通过Scratchpad机制、内存管理、RAG系统集成、多代理架构及沙盒环境等技术手段,开发者可以更高效地构建高性能、可扩展的AI系统。
267 0
AI代理性能提升实战:LangChain+LangGraph内存管理与上下文优化完整指南

热门文章

最新文章