在机器人领域,如何让机器人能够像人类一样理解视觉场景并执行相应的操作,一直是一个重要的研究方向。然而,现有的机器人多模态大模型(MLLM)在处理复杂任务时,往往存在推理能力不足和计算成本高昂的问题。为了解决这些问题,北京大学的研究团队提出了一种名为RoboMamba的新型机器人多模态大模型。
RoboMamba的设计灵感来源于一种名为Mamba的状态空间模型(SSM)。Mamba模型在非平凡序列建模方面表现出色,并且具有线性的推理复杂度,这意味着它的计算效率非常高。RoboMamba通过将Mamba模型与视觉编码器集成在一起,实现了对视觉数据和语言嵌入的对齐,从而赋予了模型视觉常识和机器人相关的推理能力。
为了进一步增强RoboMamba的操作预测能力,研究团队探索了一种高效的微调策略,即在模型中添加一个简单的策略头部。他们发现,当RoboMamba具备足够的推理能力时,只需要对模型进行少量的微调(仅占模型参数的0.1%),就可以在短短20分钟内获得出色的操作技能。
在实验中,RoboMamba在通用和机器人场景下的评估基准上表现出了出色的推理能力。此外,它在模拟和真实世界环境中的操作预测任务中也取得了令人印象深刻的结果,并且推理速度比现有的机器人多模态大模型快了7倍。
RoboMamba的优势在于它结合了Mamba模型的高效性和视觉编码器的多模态性,从而实现了高效的推理和操作预测。然而,RoboMamba仍然面临一些挑战,例如如何在更复杂的任务和环境中进行泛化,以及如何进一步提高模型的可解释性和可控性。