最近,一篇名为《使用长上下文VLM和拓扑图进行多模态指令导航》的论文引起了广泛关注。该论文由来自Google DeepMind的研究人员团队撰写,并发表在arXiv预印本服务器上。
该论文主要介绍了一种名为Gemini 1.5 Pro的人工智能模型,该模型被集成到一个机器人中,以实现多模态指令导航。多模态指令导航是指机器人能够理解和执行多种形式的指令,包括自然语言和图像。
为了实现这一目标,研究人员提出了一种名为MINT(Multimodal Instruction Navigation with Tours)的导航任务类别。在MINT中,环境的先验知识是通过一个预先录制的演示视频提供的。
研究人员还提出了一种名为Gemini的分层视觉-语言-动作(VLA)导航策略,该策略结合了长上下文VLM的环境理解和常识推理能力,以及基于拓扑图的稳健低级导航策略。
具体来说,高级策略由一个长上下文VLM组成,该VLM将演示视频和多模态用户指令作为输入,以在视频中找到目标帧。然后,低级策略使用目标帧和离线构建的拓扑图来生成机器人在每个时间步的动作。
研究人员在836平方米的真实世界环境中评估了Gemini,并展示了它在以前无法解决的多模态指令上的高端到端成功率,例如“我应该把这个放回哪里?”同时拿着一个塑料箱。
然而,Gemini也存在一些限制。首先,它缺乏探索能力,目前版本依赖于演示视频,无法自动探索环境。其次,长VLM的推理时间可能会阻碍自然的用户交互,因为用户可能需要等待机器人响应。
尽管存在这些限制,Gemini仍然是一个令人印象深刻的成就,它展示了人工智能在理解和执行多模态指令方面的潜力。通过将Gemini集成到机器人中,研究人员已经迈出了将人工智能从实验室转移到现实世界的重要一步。
Gemini的成功也为未来的研究提供了许多有趣的方向。例如,研究人员可以探索将Gemini与其他探索机制(如前沿探索或扩散探索)结合使用,以增强其在未知环境中的导航能力。
此外,研究人员还可以研究减少长VLM推理时间的方法,以改善用户体验。这可能涉及使用更高效的模型或优化推理过程。