谷歌让机器人充当大语言模型的手和眼,一个任务拆解成16个动作一气呵成

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 谷歌让机器人充当大语言模型的手和眼,一个任务拆解成16个动作一气呵成
大模型在机器人领域找到了用武之地。


「我把饮料撒了,你能帮我一下吗?」这是我们日常生活中再正常不过的一句求助语。听到这句话,你的家人或朋友往往会不假思索地递给你一块抹布、几张纸巾或直接帮你清理掉。


但如果换成机器人,事情就没有那么简单了。它需要理解「饮料撒了」、「帮我一下」是什么意思,以及到底要怎么帮。这对于平时只能听懂简单指令(如移动到 (x,y),抓取可乐瓶)的机器人来说确实有些困难。


为了让机器人听懂,你可以把上面那句话分解成几个简单的指令,但这一过程的繁琐可能会让你放弃使用机器人。为了消除这种尴尬,我们需要给机器人安装一个聪明的大脑。

深度学习领域的研究表明,拥有优秀语言理解能力的大型语言模型(如 GPT-3, PaLM 等)有望充当这个大脑。对于同样一句话(我把饮料撒了,你能帮我一下吗?),大模型们给出的回应可能是:「可以试试用吸尘器」或「你想让我去找个清理工具吗?」


可以看出,大型语言模型可以理解稍微复杂一些的高级指令,不过它们给出的回答并不总是可行的(比如机器人可能没办法拿取吸尘器或屋子里没有吸尘器)。要想将二者更好地结合,大模型还需要了解机器人的技能范围以及周围的环境限制。

谷歌的「Robotics at Google」最近就瞄准了这一方向,并提出了一个名为「Saycan」(DO AS I CAN, NOT AS I SAY)的算法。在这个算法中,他们让机器人充当语言模型的「手和眼睛」,而语言模型提供有关任务的高级语义知识。

,时长00:58

,时长00:57


在这种合作模式下,机器人甚至能够完成一个包含 16 个步骤的长任务:

,时长01:26

那么,这是怎么做到的呢?研究团队在项目网站上介绍了他们的方法。


项目网站:https://say-can.github.io/论文地址:https://arxiv.org/abs/2204.01691
方法概览

研究者将大型语言模型(LLM)与机器人的物理任务组合到一起时用到了这样一个原则:除了让 LLM 简单地解释一条指令之外,我们还可以用它来评估单个动作对完成整个高级指令有帮助的概率。简单来说,每个动作可以有一个语言描述,我们可以通过 prompt 语言模型让它给这些动作打分。此外,如果每个动作都有一个相应的 affordance 函数,可以量化它从当前状态(比如学到的价值函数)获得成功的可能性。两个概率值的乘积就是机器人能成功地完成一个对于指令有帮助的动作的概率。根据这个概率将一系列动作排序,选取概率最高的一个。

选择了某个动作之后,我们就可以让机器人去执行这个动作,这个过程通过迭代式地选择一个任务并将其添加到指令上来进行。实际上,这里将规划结构化为用户和机器人之间的对话:用户提供高级指令,比如「你如何给我一个可乐罐?」然后语言模型会以一个明确的顺序来回应,比如「我会:1、找到一个可乐罐;2、把可乐罐捡起来;3、把它拿给你;4、完成。


总之,给定一个高层次的指令,SayCan 将来自语言模型的概率(某个动作对高级指令有用的概率)与来自值函数的概率(成功执行上述动作的概率)结合起来,然后选择要执行的动作。这种方法选出来的动作是可行的、有用的。研究者通过将选择的动作附加到机器人响应中并再次查询模型来重复这个过程,直到输出步骤终止。
实验数据

研究者在两个场景中对提出的算法 Saycan 进行了测试,一个是办公室厨房,另一个是模拟办公室厨房,其中 101 个任务由自然语言指令指定。下面将展示一些结果的亮点。

从下图中,我们可以直观地看到 SayCan 的决策过程。蓝色条表示(归一化)LLM 概率,红色条表示(归一化)成功执行选定动作的概率。综合得分为绿色条,算法会选择综合得分最高的动作。这种可视化突出了 SayCan 的可解释性。

比如任务是「我把可乐弄洒了,你能给我拿点东西来清理吗?」,SayCan 成功地计划和执行了以下步骤:1、找一块海绵;2、拿起海绵;3、把它拿给你;4、完成。如下所示:


如果把任务稍微调整为「我把可乐弄洒了,你能给我换一瓶吗?」,SayCan 会用这些步骤来执行:1、找到一瓶可乐;2、把可乐拿起来;3、把它拿给你;4、完成。这表明 SayCan 能够利用 LLM 的大容量,它们关于世界的语义知识对于解释指令和理解如何执行指令都是有用的。


在下一个例子中,SayCan 利用了 affordance 的能力来「推翻」语言模型做出的选择。尽管语言模型认为拿取海绵是正确的动作,但 affordance 意识到这是不可能的,因此选择了「寻找海绵」。这突出了 affordance grounding 的必要性。



作者将 SayCan 应用到一个很复杂的指令上 “我把可乐撒在了桌上,你能把它扔掉并且拿东西来擦一下吗”,这个指令需要 8 个动作,机器人成功规划并完成了这个任务。在实验中,最长的任务长达 16 个步骤。

总结来说,该方法实现 101 个任务的总计划成功率为 70% ,执行成功率为 61% ,如果去掉 affordance grouding,大致会损失一半的性能。 


更多细节可参考原论文。本文共有 43 个作者,共同通讯作者为 Karol Hausman、Brian Ichter 和华人学者夏斐。

相关文章
|
7月前
|
算法 机器人 Python
动态规划法在扫地机器人中的实战应用(基于动作值函数的策略迭代 python 附源码)
动态规划法在扫地机器人中的实战应用(基于动作值函数的策略迭代 python 附源码)
95 0
|
7月前
|
机器学习/深度学习 算法 Python
动态规划法和策略迭代在扫地机器人中确定状态值和动作值函数的策略评估(python实现 附源码 超详细)
动态规划法和策略迭代在扫地机器人中确定状态值和动作值函数的策略评估(python实现 附源码 超详细)
80 0
|
6天前
|
传感器 人工智能 自然语言处理
RDT:清华开源全球最大的双臂机器人操作任务扩散基础模型、代码与训练集,基于模仿能力机器人能够自主完成复杂任务
RDT(Robotics Diffusion Transformer)是由清华大学AI研究院TSAIL团队推出的全球最大的双臂机器人操作任务扩散基础模型。RDT具备十亿参数量,能够在无需人类操控的情况下自主完成复杂任务,如调酒和遛狗。
58 22
RDT:清华开源全球最大的双臂机器人操作任务扩散基础模型、代码与训练集,基于模仿能力机器人能够自主完成复杂任务
|
5天前
|
机器学习/深度学习 人工智能 机器人
NeurIPS 2024:机器人操纵世界模型来了,成功率超过谷歌RT-1 26.6%
PIVOT-R是一种新型世界模型,专注于预测与任务相关的路点,以提高语言引导的机器人操作的性能和效率。该模型由路点感知世界模型(WAWM)和轻量级动作预测模块组成,辅以异步分层执行器(AHE),在SeaWave基准测试中表现优异,平均相对改进达19.45%,执行效率提高28倍。
44 26
|
17天前
|
编解码 网络协议 机器人
顶顶通电话机器人开发接口对接大语言模型之实时流TTS对接介绍
大语言模型通常流式返回文字,若一次性TTS会导致严重延迟。通过标点断句或流TTS可实现低延迟的文本到语音转换。本文介绍了电话机器人接口适配流TTS的原理及技术点,包括FreeSWITCH通过WebSocket流TTS放音,以及推流协议和旁路流对接的详细说明。
|
6月前
|
传感器 人工智能 算法
适应多形态多任务,最强开源机器人学习系统八爪鱼诞生
【6月更文挑战第6天】【八爪鱼开源机器人学习系统】由加州大学伯克利分校等机构研发,适用于多形态多任务,已在arXiv上发表。系统基于transformer,预训练于800k机器人轨迹数据集,能快速适应新环境,支持单臂、双机械臂等。特点是多形态适应、多任务处理、快速微调及开源可复现。实验显示其在9个平台有效,但仍需改进传感器处理和语言指令理解。论文链接:https://arxiv.org/pdf/2405.12213
117 1
|
3月前
|
人工智能 自然语言处理 机器人
谷歌将大模型集成在实体机器人中,能看、听、说执行57种任务
【9月更文挑战第17天】近年来,人工智能在多模态大模型领域取得显著进展。谷歌最新研发的Mobility VLA系统,将大模型与实体机器人结合,实现了视觉、语言和行动的融合,使机器人能理解并执行复杂多模态指令,如“我应该把这个放回哪里?”系统在真实环境测试中表现出色,但在计算资源、数据需求及伦理问题上仍面临挑战。相关论文发布于https://arxiv.org/abs/2407.07775。
77 9
|
4月前
|
自然语言处理 机器人 API
Instruct2Act:使用大型语言模型将多模态指令映射到机器人动作
Instruct2Act是一个框架,它结合了大型语言模型和多模态基础模型,将自然语言和视觉指令转换为机器人的顺序动作,实现精确的感知、规划和行动,展示了强大的零样本性能和灵活性。
63 0
Instruct2Act:使用大型语言模型将多模态指令映射到机器人动作
|
7月前
|
机器学习/深度学习 机器人
用MoE横扫99个子任务!浙大等提出全新通用机器人策略GeRM
【4月更文挑战第28天】浙江大学等研究团队提出的通用机器人模型GeRM,基于Transformer和Mixture-of-Experts(MoE)架构,能有效处理多种任务。通过离线强化学习,GeRM在99个子任务中展现出优越性能,优于单一专家网络策略,且具备高训练和推理效率。尽管需更多计算资源,但GeRM为多任务机器人技术带来了新突破,有望推动领域发展。[链接:https://arxiv.org/abs/2403.13358]
70 2
|
7月前
|
机器学习/深度学习 人工智能 机器人
[译][AI 机器人] Atlas的电动新时代,不再局限于人类运动范围的动作方式
波士顿动力宣布液压Atlas机器人退役,推出全新电动Atlas,旨在实现更广泛的实际应用。这款全电动机器人将拓展人类运动范围,解决复杂工业挑战。现代汽车公司将参与其商业化进程,作为测试应用场景。波士顿动力计划与创新客户合作,逐步迭代Atlas的应用,打造高效、实用的移动机器人解决方案。Atlas将结合强化学习和计算机视觉等先进技术,通过Orbit软件平台进行管理,未来将在真实世界中发挥超越人类能力的作用。

热门文章

最新文章