近年来,人工智能领域取得了显著的进展,特别是在多模态大模型方面。谷歌的最新研究将大模型集成在实体机器人中,使其能够看、听、说并执行57种不同的任务。这一突破性的成果引起了广泛关注。
该研究的核心在于开发了一种名为Mobility VLA的系统,它结合了视觉、语言和行动的能力,使机器人能够理解并执行复杂的多模态指令。Mobility VLA系统由两个主要部分组成:一个是高级策略,它利用长期上下文的视觉语言模型来理解环境和用户的指令;另一个是低级策略,它基于拓扑图来生成机器人的实时动作。
Mobility VLA系统的独特之处在于它能够处理多种类型的输入,包括自然语言和图像。这使得机器人能够理解并执行诸如“我应该把这个放回哪里?”这样的复杂指令,同时它还能够根据之前记录的示范视频来学习环境的先验知识。
为了评估Mobility VLA系统的性能,研究人员在836平方米的真实世界环境中进行了实验。结果显示,该系统在处理之前无法解决的多模态指令时取得了很高的成功率。例如,当机器人被要求归还一个塑料箱时,它能够准确地找到正确的位置。
然而,尽管Mobility VLA系统取得了令人印象深刻的成果,但仍然存在一些挑战和限制。首先,该系统的训练和部署需要大量的计算资源和数据,这可能会限制其在实际应用中的可行性。其次,尽管该系统能够处理多种类型的输入,但仍然存在一些指令或情况是它无法理解或处理的。
此外,将大模型集成在实体机器人中还涉及到一些伦理和社会问题。例如,如果机器人在执行任务时出现错误或意外,谁应该对此负责?机器人是否应该被赋予自主决策的能力?这些问题都需要进一步的研究和讨论。