Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路

简介: 【7月更文挑战第30天】新论文《使用长上下文VLM和拓扑图进行多模态指令导航》介绍Gemini 1.5 Pro AI模型, 集成至机器人实现多模态指令导航。通过MINT任务, 结合演示视频与用户指令, Gemini在真实环境中达到高端到端成功率, 如回答“我应该把这个放回哪里?”。尽管受限于缺乏探索能力和较长的推理时间, 但它仍标志着AI向现实世界应用迈出重要一步。未来方向包括增强探索能力和减少推理时间。[论文](https://arxiv.org/pdf/2407.07775v1)

最近,一篇名为《使用长上下文VLM和拓扑图进行多模态指令导航》的论文引起了广泛关注。该论文由来自Google DeepMind的研究人员团队撰写,并发表在arXiv预印本服务器上。

该论文主要介绍了一种名为Gemini 1.5 Pro的人工智能模型,该模型被集成到一个机器人中,以实现多模态指令导航。多模态指令导航是指机器人能够理解和执行多种形式的指令,包括自然语言和图像。

为了实现这一目标,研究人员提出了一种名为MINT(Multimodal Instruction Navigation with Tours)的导航任务类别。在MINT中,环境的先验知识是通过一个预先录制的演示视频提供的。

研究人员还提出了一种名为Gemini的分层视觉-语言-动作(VLA)导航策略,该策略结合了长上下文VLM的环境理解和常识推理能力,以及基于拓扑图的稳健低级导航策略。

具体来说,高级策略由一个长上下文VLM组成,该VLM将演示视频和多模态用户指令作为输入,以在视频中找到目标帧。然后,低级策略使用目标帧和离线构建的拓扑图来生成机器人在每个时间步的动作。

研究人员在836平方米的真实世界环境中评估了Gemini,并展示了它在以前无法解决的多模态指令上的高端到端成功率,例如“我应该把这个放回哪里?”同时拿着一个塑料箱。

然而,Gemini也存在一些限制。首先,它缺乏探索能力,目前版本依赖于演示视频,无法自动探索环境。其次,长VLM的推理时间可能会阻碍自然的用户交互,因为用户可能需要等待机器人响应。

尽管存在这些限制,Gemini仍然是一个令人印象深刻的成就,它展示了人工智能在理解和执行多模态指令方面的潜力。通过将Gemini集成到机器人中,研究人员已经迈出了将人工智能从实验室转移到现实世界的重要一步。

Gemini的成功也为未来的研究提供了许多有趣的方向。例如,研究人员可以探索将Gemini与其他探索机制(如前沿探索或扩散探索)结合使用,以增强其在未知环境中的导航能力。

此外,研究人员还可以研究减少长VLM推理时间的方法,以改善用户体验。这可能涉及使用更高效的模型或优化推理过程。

论文链接:https://arxiv.org/pdf/2407.07775v1

目录
打赏
0
1
1
1
396
分享
相关文章
gemini国内能用吗?请收下这份gemini使用攻略!
在当今技术迅猛发展的时代,人工智能(AI)语言模型已经成为一股变革性的力量,推动着从自然语言处理到对话生成等广泛应用领域的创新。在众多杰出的AI语言模型中,Gemini以其卓越的性能和广泛的用途脱颖而出,备受推崇。作为谷歌旗下的多模态AI巨头,Gemini融合了最先进的语言处理技术,为用户提供了无与伦比的语言理解和生成能力。
还在死磕AI咒语?北大-百川搞了个自动提示工程系统PAS
【10月更文挑战第4天】北京大学和百川智能研究人员开发了一种名为PAS的即插即用自动提示工程(APE)系统,利用高质量数据集训练的大型语言模型(LLMs),在基准测试中取得了显著成果,平均提升了6.09个百分点。PAS仅需9000个数据点即可实现顶尖性能,并能自主生成提示增强数据,提高了灵活性和效率。尽管存在训练数据质量和提示多样性等方面的潜在局限性,PAS仍为解决提示工程挑战提供了有前景的方法,有望提升LLM的可用性和有效性。论文详见:https://arxiv.org/abs/2407.06027。
113 3
【1024特别活动】开发者,百问求答!机械键盘等你赢
1024程序员节特别活动【百问求答】,回答问题赢定制机械键盘,赶快参与起来吧!
4597 18
【1024特别活动】开发者,百问求答!机械键盘等你赢
这些免费插件给 ChatGPT 插上翅膀
相信很多人已经开始用上了 ChatGPT,但是使用 ChatGPT 还有诸多不便的地方。常见的问题有:- 经常会出现网络错误- ChatGPT 下载和分享非常不方便- 输入的效率不高- 无法联网获取最新信息本文将针对这些主要问题推荐对应的插件,为你的 ChatGPT 插上翅膀,让 ChatGPT 的效率爆表!
428 0
这些免费插件给 ChatGPT 插上翅膀
Meta开源的ChatGPT平替到底好不好用?测试结果、加料改装方法已出炉,2天5.2k星
Meta开源的ChatGPT平替到底好不好用?测试结果、加料改装方法已出炉,2天5.2k星
194 0
MIT最新成果:这款能「自我复制」的机器人,从飞机到火箭都能自己造!
MIT最新成果:这款能「自我复制」的机器人,从飞机到火箭都能自己造!
247 0
新来个技术总监,给团队引入了这款开发神器,同事直呼哇塞
带团队时间久了,就能发现整个 Team 都渐渐疲了。前两年老板还专门买了个系统搞 OKR,现在也不大提了;Scrum 我们也搞了,用起来也就那样;项目管理工具试了好几个,禅道、Worktile、现在用 Coding,反正有一个能用的就行;微服务化改造从去年开始在吭哧吭哧搞,我们自己搞得觉得很厉害,但业务部门那边就觉得没啥差别,搞不懂你们研发部门每天在弄些什么,赶紧做我们提的需求要紧。
新来个技术总监,给团队引入了这款开发神器,同事直呼哇塞
知网“哭穷”:赔不起 1200 亿;微信公众号文章留言显示 IP 属地;程序员延寿指南霸榜 GitHub;联想高层大降薪|架构周报
本周架构视点:知网“哭穷”:赔不起 1200 亿;微信公众号文章留言显示 IP 属地;程序员延寿指南霸榜 GitHub;联想高层大规模降薪;网易云音乐起诉腾讯音乐;GitHub 弃用 io;ARM 安谋中国 430 多名员工联名签署公开信,反对软银夺权;Firefox:我们不会卖给亿万富翁
192 0
知网“哭穷”:赔不起 1200 亿;微信公众号文章留言显示 IP 属地;程序员延寿指南霸榜 GitHub;联想高层大降薪|架构周报
新款 iMac Pro 将于 6 月发布;库克薪酬达员工 1500 倍;IntelliJ 删除 Log4j 组件 | 思否周刊
新款 iMac Pro 将于 6 月发布;库克薪酬达员工 1500 倍;IntelliJ 删除 Log4j 组件 | 思否周刊
148 0