用MoE横扫99个子任务!浙大等提出全新通用机器人策略GeRM

简介: 【4月更文挑战第28天】浙江大学等研究团队提出的通用机器人模型GeRM,基于Transformer和Mixture-of-Experts(MoE)架构,能有效处理多种任务。通过离线强化学习,GeRM在99个子任务中展现出优越性能,优于单一专家网络策略,且具备高训练和推理效率。尽管需更多计算资源,但GeRM为多任务机器人技术带来了新突破,有望推动领域发展。[链接:https://arxiv.org/abs/2403.13358]

近年来,机器人技术的发展日新月异,但机器人在执行多个任务时仍然面临着一些挑战。其中一个主要问题是机器人需要具备处理不同任务的能力,而这些任务可能具有不同的输入和输出。为了解决这个问题,来自浙江大学等机构的研究人员提出了一种全新的通用机器人策略GeRM(Generalist Robotic Model)。

GeRM是一种基于Transformer的模型,它使用了一种名为Mixture-of-Experts(MoE)的结构。MoE结构允许模型将任务分成不同的子任务,并使用不同的专家网络来处理每个子任务。这种结构使得GeRM能够同时处理多个任务,并且可以在不同的任务之间共享知识。

GeRM的另一个重要特点是它使用了离线强化学习(offline reinforcement learning)来优化数据利用策略。离线强化学习是一种通过学习历史数据来训练机器人的方法,它可以帮助机器人在没有人类示范的情况下学习新的任务。GeRM通过离线强化学习来学习如何利用不同类型的数据,包括演示数据和次优数据,从而提高其在多个任务上的性能。

为了验证GeRM的性能,研究人员进行了一系列的实验。他们将GeRM与其他一些机器人策略进行了比较,包括那些使用单一专家网络的策略。结果显示,GeRM在99个子任务上都表现出色,并且其性能超过了其他策略。此外,GeRM还表现出了较高的训练和推理效率,这对于实际应用中的机器人来说非常重要。

GeRM的成功表明,使用MoE结构和离线强化学习可以提高机器人在多个任务上的性能。这种新的通用机器人策略有望在未来得到更广泛的应用,并推动机器人技术的发展。然而,GeRM也存在一些限制,例如它可能需要更多的计算资源和存储空间来处理多个任务。此外,离线强化学习也存在一些挑战,如数据的不完整性和不准确性。

论文地址:https://arxiv.org/abs/2403.13358

目录
相关文章
|
1月前
|
自然语言处理 物联网 异构计算
比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA
【4月更文挑战第3天】伊利诺伊大学香槟分校和LMFlow团队推出LISA,一种新型微调技术,用于解决大型语言模型的内存消耗问题。LISA基于层重要性采样,随机冻结中间层,降低内存使用,同时提供比LoRA更快的训练速度和更高性能。实验显示,LISA在相似或更低的GPU内存消耗下,超越LoRA和全参数调优。该方法提高了资源受限环境下的微调效率,有望成为LoRA的有效替代,但仍然面临内存限制和随机性影响的问题。
79 4
比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA
|
21天前
|
机器学习/深度学习 数据采集 人工智能
ICLR 2024:RLHF有了通用平台和基准,天大开源,专攻现实决策场景
【4月更文挑战第21天】天津大学在ICLR 2024发布RLHF新框架Uni-RLHF,以人类反馈引导强化学习,降低奖励函数设计需求,适应现实决策场景。该框架提供通用平台和基准,支持大规模众包注释,促进研究。尽管面临准确捕捉人类反馈、数据质量和多任务处理等挑战,但开源特性加速了学术进步。[链接](https://arxiv.org/abs/2402.02423)
15 0
|
2月前
|
机器学习/深度学习 编解码 人工智能
全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA
【2月更文挑战第17天】全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA
30 2
全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA
|
3月前
|
机器学习/深度学习 编解码 自然语言处理
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
39 0
|
5月前
|
机器学习/深度学习 存储 人工智能
极智AI | 谈谈模型量化组织方式
本文主要聊一下深度学习模型量化组织方式。
130 0
|
9月前
|
机器学习/深度学习 算法
谷歌大脑阿尔伯塔联合发表:离线强化学习的优化视角【附代码】
谷歌大脑阿尔伯塔联合发表:离线强化学习的优化视角【附代码】
|
12月前
|
机器学习/深度学习 人工智能 搜索推荐
AAAI 2023 | 超越SOTA 3.27%,上交大等提出自适应本地聚合新方法
AAAI 2023 | 超越SOTA 3.27%,上交大等提出自适应本地聚合新方法
144 0
|
12月前
|
机器学习/深度学习 人工智能 运维
ECCV 2022 Oral | 无需微调即可推广,上交大、上海人工智能实验室等提出基于配准的少样本异常检测框架
ECCV 2022 Oral | 无需微调即可推广,上交大、上海人工智能实验室等提出基于配准的少样本异常检测框架
100 0
|
12月前
|
机器学习/深度学习 数据可视化 算法
SIGIR 2022 | 当多层级遇到多兴趣:快手联合武汉大学提出用于序列推荐的多粒度神经模型
SIGIR 2022 | 当多层级遇到多兴趣:快手联合武汉大学提出用于序列推荐的多粒度神经模型
108 0
|
12月前
|
机器学习/深度学习 算法 数据可视化
精准高效估计多人3D姿态,美图&北航分布感知式单阶段模型入选CVPR 2022
精准高效估计多人3D姿态,美图&北航分布感知式单阶段模型入选CVPR 2022