Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路

简介: 【7月更文挑战第30天】新论文《使用长上下文VLM和拓扑图进行多模态指令导航》介绍Gemini 1.5 Pro AI模型, 集成至机器人实现多模态指令导航。通过MINT任务, 结合演示视频与用户指令, Gemini在真实环境中达到高端到端成功率, 如回答“我应该把这个放回哪里?”。尽管受限于缺乏探索能力和较长的推理时间, 但它仍标志着AI向现实世界应用迈出重要一步。未来方向包括增强探索能力和减少推理时间。[论文](https://arxiv.org/pdf/2407.07775v1)

最近,一篇名为《使用长上下文VLM和拓扑图进行多模态指令导航》的论文引起了广泛关注。该论文由来自Google DeepMind的研究人员团队撰写,并发表在arXiv预印本服务器上。

该论文主要介绍了一种名为Gemini 1.5 Pro的人工智能模型,该模型被集成到一个机器人中,以实现多模态指令导航。多模态指令导航是指机器人能够理解和执行多种形式的指令,包括自然语言和图像。

为了实现这一目标,研究人员提出了一种名为MINT(Multimodal Instruction Navigation with Tours)的导航任务类别。在MINT中,环境的先验知识是通过一个预先录制的演示视频提供的。

研究人员还提出了一种名为Gemini的分层视觉-语言-动作(VLA)导航策略,该策略结合了长上下文VLM的环境理解和常识推理能力,以及基于拓扑图的稳健低级导航策略。

具体来说,高级策略由一个长上下文VLM组成,该VLM将演示视频和多模态用户指令作为输入,以在视频中找到目标帧。然后,低级策略使用目标帧和离线构建的拓扑图来生成机器人在每个时间步的动作。

研究人员在836平方米的真实世界环境中评估了Gemini,并展示了它在以前无法解决的多模态指令上的高端到端成功率,例如“我应该把这个放回哪里?”同时拿着一个塑料箱。

然而,Gemini也存在一些限制。首先,它缺乏探索能力,目前版本依赖于演示视频,无法自动探索环境。其次,长VLM的推理时间可能会阻碍自然的用户交互,因为用户可能需要等待机器人响应。

尽管存在这些限制,Gemini仍然是一个令人印象深刻的成就,它展示了人工智能在理解和执行多模态指令方面的潜力。通过将Gemini集成到机器人中,研究人员已经迈出了将人工智能从实验室转移到现实世界的重要一步。

Gemini的成功也为未来的研究提供了许多有趣的方向。例如,研究人员可以探索将Gemini与其他探索机制(如前沿探索或扩散探索)结合使用,以增强其在未知环境中的导航能力。

此外,研究人员还可以研究减少长VLM推理时间的方法,以改善用户体验。这可能涉及使用更高效的模型或优化推理过程。

论文链接:https://arxiv.org/pdf/2407.07775v1

目录
相关文章
|
8月前
|
人工智能 自然语言处理 搜索推荐
gemini国内能用吗?请收下这份gemini使用攻略!
在当今技术迅猛发展的时代,人工智能(AI)语言模型已经成为一股变革性的力量,推动着从自然语言处理到对话生成等广泛应用领域的创新。在众多杰出的AI语言模型中,Gemini以其卓越的性能和广泛的用途脱颖而出,备受推崇。作为谷歌旗下的多模态AI巨头,Gemini融合了最先进的语言处理技术,为用户提供了无与伦比的语言理解和生成能力。
|
5月前
|
数据采集 人工智能 测试技术
还在死磕AI咒语?北大-百川搞了个自动提示工程系统PAS
【10月更文挑战第4天】北京大学和百川智能研究人员开发了一种名为PAS的即插即用自动提示工程(APE)系统,利用高质量数据集训练的大型语言模型(LLMs),在基准测试中取得了显著成果,平均提升了6.09个百分点。PAS仅需9000个数据点即可实现顶尖性能,并能自主生成提示增强数据,提高了灵活性和效率。尽管存在训练数据质量和提示多样性等方面的潜在局限性,PAS仍为解决提示工程挑战提供了有前景的方法,有望提升LLM的可用性和有效性。论文详见:https://arxiv.org/abs/2407.06027。
99 3
|
机器学习/深度学习 人工智能 自然语言处理
炸裂全场!百度如流超级助理、Comate X两大黑科技全面开挂,工作生产力狂飙
用户只需要准确描述需求,在执行任务的过程中不需要或者仅需人类简单的确认操作,至于如何理解需求、如何整合系统、如何生成答复,都由AI自动去完成,很多冗长的过程被大模型的能力给“折叠”了。
183 0
|
10月前
|
人工智能 算法 机器人
Scratch3.0——助力新进程序员理解程序(难度案例三、五子棋双人对战-电脑需要AI写不出来)
Scratch3.0——助力新进程序员理解程序(难度案例三、五子棋双人对战-电脑需要AI写不出来)
142 0
|
SQL 人工智能 算法
Meta开源的ChatGPT平替到底好不好用?测试结果、加料改装方法已出炉,2天5.2k星
Meta开源的ChatGPT平替到底好不好用?测试结果、加料改装方法已出炉,2天5.2k星
189 0
|
人工智能 自然语言处理 搜索推荐
ChatGPT再出“王炸”,客服都要下岗了?
ChatGPT再出“王炸”,客服都要下岗了?
309 0
|
机器学习/深度学习 人工智能 自然语言处理
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
这是ShowMeAI每周通讯的第3期。本期内容关键词:新冠、ChatGPT、2022 AI 报告、腾讯·绝悟、阿里·AliceMind、小红书·全站智投、OpenAI·Point-E、Google·CALM、Wayve·MILE、AI2·MemPrompt、Stanford x MosaicML·PubMed GPT、腾讯全员大会、特斯拉裁员、图森未来裁员、AI 应用与工具大全。
581 0
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
|
机器学习/深度学习 人工智能 Oracle
懒人福音!谷歌AI整理房间、收盘子、叠罗汉,样样拿手!
谷歌AI研究院的研究人员提出了 「Transporter Network」,用全新方式实现3D理解,可以让机械臂更好更快的进行操作。
196 0
懒人福音!谷歌AI整理房间、收盘子、叠罗汉,样样拿手!
|
定位技术 iOS开发 芯片
一张图看懂苹果2017新品发布会!这里有你想要的!
凌晨1点的苹果发布会已经正式结束,毫不夸张的说,这是悬念最低的一场活动,事前的几乎99%的猜测都得到了证实。
148 0
一张图看懂苹果2017新品发布会!这里有你想要的!
|
安全 定位技术 Android开发
跟《原神》学学怎么让用户上瘾
我刚玩一周,抽卡还不到20次的时候,就抽到了当期up的五星角色“胡桃”,一查发现这个角色很厉害,有人抽了上百次都没抽到,白板号都能卖到5、600元,觉得自己运气很好,赚到了的感觉,更加卖力地玩下去把角色养大。
1512 0
跟《原神》学学怎么让用户上瘾