用MoE横扫99个子任务!浙大等提出全新通用机器人策略GeRM

简介: 【4月更文挑战第28天】浙江大学等研究团队提出的通用机器人模型GeRM,基于Transformer和Mixture-of-Experts(MoE)架构,能有效处理多种任务。通过离线强化学习,GeRM在99个子任务中展现出优越性能,优于单一专家网络策略,且具备高训练和推理效率。尽管需更多计算资源,但GeRM为多任务机器人技术带来了新突破,有望推动领域发展。[链接:https://arxiv.org/abs/2403.13358]

近年来,机器人技术的发展日新月异,但机器人在执行多个任务时仍然面临着一些挑战。其中一个主要问题是机器人需要具备处理不同任务的能力,而这些任务可能具有不同的输入和输出。为了解决这个问题,来自浙江大学等机构的研究人员提出了一种全新的通用机器人策略GeRM(Generalist Robotic Model)。

GeRM是一种基于Transformer的模型,它使用了一种名为Mixture-of-Experts(MoE)的结构。MoE结构允许模型将任务分成不同的子任务,并使用不同的专家网络来处理每个子任务。这种结构使得GeRM能够同时处理多个任务,并且可以在不同的任务之间共享知识。

GeRM的另一个重要特点是它使用了离线强化学习(offline reinforcement learning)来优化数据利用策略。离线强化学习是一种通过学习历史数据来训练机器人的方法,它可以帮助机器人在没有人类示范的情况下学习新的任务。GeRM通过离线强化学习来学习如何利用不同类型的数据,包括演示数据和次优数据,从而提高其在多个任务上的性能。

为了验证GeRM的性能,研究人员进行了一系列的实验。他们将GeRM与其他一些机器人策略进行了比较,包括那些使用单一专家网络的策略。结果显示,GeRM在99个子任务上都表现出色,并且其性能超过了其他策略。此外,GeRM还表现出了较高的训练和推理效率,这对于实际应用中的机器人来说非常重要。

GeRM的成功表明,使用MoE结构和离线强化学习可以提高机器人在多个任务上的性能。这种新的通用机器人策略有望在未来得到更广泛的应用,并推动机器人技术的发展。然而,GeRM也存在一些限制,例如它可能需要更多的计算资源和存储空间来处理多个任务。此外,离线强化学习也存在一些挑战,如数据的不完整性和不准确性。

论文地址:https://arxiv.org/abs/2403.13358

目录
相关文章
|
1月前
|
自然语言处理 物联网 异构计算
比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA
【4月更文挑战第3天】伊利诺伊大学香槟分校和LMFlow团队推出LISA,一种新型微调技术,用于解决大型语言模型的内存消耗问题。LISA基于层重要性采样,随机冻结中间层,降低内存使用,同时提供比LoRA更快的训练速度和更高性能。实验显示,LISA在相似或更低的GPU内存消耗下,超越LoRA和全参数调优。该方法提高了资源受限环境下的微调效率,有望成为LoRA的有效替代,但仍然面临内存限制和随机性影响的问题。
85 4
比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA
|
23天前
|
机器学习/深度学习 数据采集 人工智能
ICLR 2024:RLHF有了通用平台和基准,天大开源,专攻现实决策场景
【4月更文挑战第21天】天津大学在ICLR 2024发布RLHF新框架Uni-RLHF,以人类反馈引导强化学习,降低奖励函数设计需求,适应现实决策场景。该框架提供通用平台和基准,支持大规模众包注释,促进研究。尽管面临准确捕捉人类反馈、数据质量和多任务处理等挑战,但开源特性加速了学术进步。[链接](https://arxiv.org/abs/2402.02423)
15 0
|
28天前
|
人工智能
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。
23 6
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
|
29天前
|
编解码 人工智能 自然语言处理
贾佳亚团队新模型对标ChatGPT+DALL-E 3王炸组合!
【4月更文挑战第15天】贾佳亚团队推出Mini-Gemini模型,旨在缩小与GPT-4和Gemini的性能差距。该模型采用双视觉编码器处理高分辨率图像,提升视觉对话和推理准确性。搭配高质量数据集,增强图像理解和推理能力。Mini-Gemini在零样本基准测试中表现出色,尤其在高分辨率图像处理上。不过,模型在复杂视觉推理和计数能力上仍有改进空间。
13 1
贾佳亚团队新模型对标ChatGPT+DALL-E 3王炸组合!
|
2月前
|
机器学习/深度学习 编解码 人工智能
全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA
【2月更文挑战第17天】全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA
30 2
全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA
|
5月前
|
存储 机器学习/深度学习 人工智能
极智AI | 从部署的角度看bn和in算子
本文介绍一下从部署角度来看 bn 和 in 的实现与对比。
70 1
|
9月前
|
机器学习/深度学习 算法
谷歌大脑阿尔伯塔联合发表:离线强化学习的优化视角【附代码】
谷歌大脑阿尔伯塔联合发表:离线强化学习的优化视角【附代码】
|
12月前
|
机器学习/深度学习 存储 缓存
LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理
LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理
225 0
|
12月前
|
机器学习/深度学习 存储 人工智能
阿里巴巴提出USI 让AI炼丹自动化了,训练任何Backbone无需超参配置,实现大一统!
阿里巴巴提出USI 让AI炼丹自动化了,训练任何Backbone无需超参配置,实现大一统!
256 0
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
中山大学HCP实验室新突破:用因果范式再升级多模态大模型
中山大学HCP实验室新突破:用因果范式再升级多模态大模型
116 0