Gemini 1.5 Pro装进机器人，参观一遍公司就能礼宾、带路-阿里云开发者社区

Gemini 1.5 Pro装进机器人，参观一遍公司就能礼宾、带路

2024-07-31 77 发布于北京

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【7月更文挑战第30天】新论文《使用长上下文VLM和拓扑图进行多模态指令导航》介绍Gemini 1.5 Pro AI模型, 集成至机器人实现多模态指令导航。通过MINT任务, 结合演示视频与用户指令, Gemini在真实环境中达到高端到端成功率, 如回答“我应该把这个放回哪里?”。尽管受限于缺乏探索能力和较长的推理时间, 但它仍标志着AI向现实世界应用迈出重要一步。未来方向包括增强探索能力和减少推理时间。[论文](https://arxiv.org/pdf/2407.07775v1)

最近，一篇名为《使用长上下文VLM和拓扑图进行多模态指令导航》的论文引起了广泛关注。该论文由来自Google DeepMind的研究人员团队撰写，并发表在arXiv预印本服务器上。

该论文主要介绍了一种名为Gemini 1.5 Pro的人工智能模型，该模型被集成到一个机器人中，以实现多模态指令导航。多模态指令导航是指机器人能够理解和执行多种形式的指令，包括自然语言和图像。

为了实现这一目标，研究人员提出了一种名为MINT（Multimodal Instruction Navigation with Tours）的导航任务类别。在MINT中，环境的先验知识是通过一个预先录制的演示视频提供的。

研究人员还提出了一种名为Gemini的分层视觉-语言-动作（VLA）导航策略，该策略结合了长上下文VLM的环境理解和常识推理能力，以及基于拓扑图的稳健低级导航策略。

具体来说，高级策略由一个长上下文VLM组成，该VLM将演示视频和多模态用户指令作为输入，以在视频中找到目标帧。然后，低级策略使用目标帧和离线构建的拓扑图来生成机器人在每个时间步的动作。

研究人员在836平方米的真实世界环境中评估了Gemini，并展示了它在以前无法解决的多模态指令上的高端到端成功率，例如“我应该把这个放回哪里？”同时拿着一个塑料箱。

然而，Gemini也存在一些限制。首先，它缺乏探索能力，目前版本依赖于演示视频，无法自动探索环境。其次，长VLM的推理时间可能会阻碍自然的用户交互，因为用户可能需要等待机器人响应。

尽管存在这些限制，Gemini仍然是一个令人印象深刻的成就，它展示了人工智能在理解和执行多模态指令方面的潜力。通过将Gemini集成到机器人中，研究人员已经迈出了将人工智能从实验室转移到现实世界的重要一步。

Gemini的成功也为未来的研究提供了许多有趣的方向。例如，研究人员可以探索将Gemini与其他探索机制（如前沿探索或扩散探索）结合使用，以增强其在未知环境中的导航能力。

此外，研究人员还可以研究减少长VLM推理时间的方法，以改善用户体验。这可能涉及使用更高效的模型或优化推理过程。

论文链接：https://arxiv.org/pdf/2407.07775v1

Gemini 1.5 Pro装进机器人，参观一遍公司就能礼宾、带路

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Gemini 1.5 Pro装进机器人，参观一遍公司就能礼宾、带路

热门文章

最新文章

相关课程

相关电子书

相关实验场景