5620亿参数,最大多模态模型控制机器人,谷歌把具身智能玩出新高度

简介: 5620亿参数,最大多模态模型控制机器人,谷歌把具身智能玩出新高度


机器人越来越像人了!谷歌等的这项研究将现实世界的信息通过传感器纳入多模态语言模型,不但能执行机器人任务,还具有视觉问答、文本补全等功能。


一直以来,人们都想拥有一款能听懂吩咐的机器人,比如「请帮我热一下午餐」,「请把遥控器帮我拿过来」。这些指令听上去简单,但一旦让机器人去做,失误率还是很高的。

在这一过程中,机器人需要克服很多困难,比如理解指令、分解任务、规划路线、识别物体等等,涉及到的能力跨语言、视觉等多个模态。

为了让机器人更加擅长这些任务,不少研究者都在尝试将大型语言模型与机器人结合起来,让大模型充当机器人的「大脑」,从而更出色地完成各项任务。这是「具身智能」领域一个比较热门的研究方向。

具身智能是具有身体体验的智能,是第一人称(而非第三人称)视角的智能。图源:卢策吾演讲 PPT,参见文末《为什么说具身智能是通往 AGI 值得探索的方向?上海交大教授卢策吾深度解读》。

在过去的一年中,我们已经看到了谷歌的 SayCan、UC 伯克利的 LM Nav 等多项工作。前者能够让机器人在大型语言模型的帮助下,完成一个包含 16 个步骤的长任务;后者则用三个大模型(视觉导航模型 ViNG、大型语言模型 GPT-3、视觉语言模型 CLIP)教会了机器人在不看地图的情况下按照语言指令到达目的地。


单独使用大型语言模型或者将视觉、语言、视觉 - 语言模型组合起来使用似乎都给机器人提供了很大的帮助,那如果直接训练一个更大的、单一的大型多模态模型呢?

最近,谷歌在这一方向上投入了大量资源,推出了一个参数量达 5620 亿的具身多模态语言模型 —— PaLM-E。具体来说, PaLM-E-562B 集成了参数量 540B 的 PaLM 和参数量 22B 的视觉 Transformer(ViT),是目前已知的最大的视觉 - 语言模型。

Vit 和 PaLM 融合的视频

在实验中,这个模型在很多任务中都表现出了强大的能力。

比如,在机器人任务中,它可以帮你从抽屉里拿东西,然后走过去递给你。在这一过程中,它既要听懂你的语言指令,还要会识别指定物体并规划任务步骤。

抽屉里拿东西


接下来,研究人员让机器人完成一个颜色归类任务,但给出的输入不限于语言指令,还掺杂了视觉信息。

结果显示,有 PaLM-E 加持的机器人确实会排列积木,把相同的颜色块放到一起:


你还能命令 PaLM-E 将红色积木推到咖啡杯旁边而不会出错:


除了解锁机器人相关任务外,PaLM-E 还是一个合格的视觉 - 语言或纯语言模型,具有视觉问答、文本补全等功能。

如下图,给定一张图像,并向 PaLM-E 提问:「如果一个机器人想在这里发挥作用,它应该采取哪些步骤?」PaLM-E 给出的回答是:首先清理桌子,清理垃圾,然后挪动椅子,擦椅子,最后把椅子放回原处。PaLM-E 的回答看起来很符合逻辑。

除了谷歌之外,微软最近似乎也在探索大模型与机器人的结合。前段时间,他们发表了一篇论文,探讨如何将 ChatGPT 的功能扩展到机器人领域,从而让我们用语言直观控制如机械臂、无人机、家庭辅助机器人等多个平台。


正如上海交大教授卢策吾所说,早在 1950 年,图灵就在他的论文中首次提出了具身智能的概念,在之后的几十年里,大家都觉得这是一个很重要的概念,但具身智能并没有取得很大的进展,因为当时的技术还不足以支撑其发展。到了今天,多学科的技术已经改变了这一局面,可以让我们去研究具身智能的一些本质问题。

接下来,我们将详细介绍 PaLM-E 这篇论文。

论文概览

首先我们先来了解一下背景,才能更好的理解本文。

众所周知,大型语言模型(LLM)在各个领域表现出强大的推理能力,包括对话、逐步推理、解决数学问题、代码编写等方面。然而,这种模型在现实世界中又面临推理性能不好的短板,即虽然 LLM 是在大型数据集上训练而成,可以生成与物理世界相关的表示,但将这些表示与现实世界中的视觉和物理传感器连接起来时又存在很多困难。

2022 年 Brian Ichter,Fei Xia 等人在 SayCan 的论文中提出将 LLM 的输出与学习到的机器人策略相结合以做出决策,但其局限性在于 LLM 本身仅提供文本输入,对图像输入还没有涉及,这对于许多任务来说是不够的。此外,当前 SOTA 视觉语言模型是在典型的视觉语言任务(如视觉问答(VQA))上训练而成,不能直接用来解决机器人推理任务。

谷歌推出的具身语言模型 PaLM-E 可以很好地解决上述问题,它可以将连续的传感器数据直接整合到语言模型里,从而使得语言模型能够做出更有根据的推理。值得一提的是,他们之所以将此模型命名为 PaLM-E,是因为本文使用了 2022 年谷歌发布的 PaLM 作为预训练语言模型。

PaLM-E-562B 在 OK-VQA 基准上实现了 SOTA 性能,而不依赖特定于任务的微调。除此以外,PaLM-E-562B 在其他任务上也表现良好,包括零样本多模态思维链 (CoT) 推理、少样本提示、OCR-free 数学推理和多图像推理等。


方法概览

至于实现过程,总结而言,PaLM-E 的架构思想是将连续的具身观察结果(例如图像、状态估计或其他传感器模态)注入到预训练语言模型的语言嵌入空间中。PaLM-E 将连续信息以类似于语言 token 的方式注入到语言模型中。它不是那种常见的编码器 - 解码器架构模型,而是一种只具有解码器的 LLM。

具体到输入上,PaLM-E 的输入包括文本和(多个)连续观察。与这些观察相对应的多模态 token 与文本交错形成多模态句子。例如多模态句子 Q(给出一个提问):What happened between  <img_1> and  <img_2> ? 其中 < img_i > 表示图像的嵌入。PaLM-E 的输出是由模型自回归生成的文本,可以是问题的答案,也可以是 PaLM-E 以文本形式生成的应该由机器人执行的一系列决策。

在论文第 3 章,作者详细介绍了他们使用的方法。

有人猜测,这项工作可能是受到「红色代码」影响而做出的成果?三个月前谷歌拉响「红色代码」警报,以应对 ChatGPT 带来的威胁。不过这也只是一种猜测,总归,谷歌是将传感器数据给整合到语言模型里了。

实验结果

该研究进行了大量的实验。首先是模型的迁移能力:下图表明,在不同任务和数据集上训练完成 PaLM-E 显著优于那些在单独任务上训练的模型。

图 4 表明,LLM 在 full mixture 训练模式下,比其他训练模式性能提高了一倍以上。

表 9 显示了不同模型在移动操作环境下对故障检测的能力,评价标准为精度和召回:

同样的,下表 2 为模型在模拟环境中对规划任务的结果

该研究还展示了模型在语言方面的能力,当对整个模型进行端到端训练时,随着模型规模的增加,模型保留了更多的原始语言性能(图 6)。

相关文章
|
6天前
|
传感器 人工智能 自然语言处理
RDT:清华开源全球最大的双臂机器人操作任务扩散基础模型、代码与训练集,基于模仿能力机器人能够自主完成复杂任务
RDT(Robotics Diffusion Transformer)是由清华大学AI研究院TSAIL团队推出的全球最大的双臂机器人操作任务扩散基础模型。RDT具备十亿参数量,能够在无需人类操控的情况下自主完成复杂任务,如调酒和遛狗。
58 22
RDT:清华开源全球最大的双臂机器人操作任务扩散基础模型、代码与训练集,基于模仿能力机器人能够自主完成复杂任务
|
25天前
|
人工智能 自然语言处理 算法
具身智能高校实训解决方案 ----从AI大模型+机器人到通用具身智能
在具身智能的发展历程中,AI 大模型的出现成为了关键的推动力量。高校作为培养未来科技人才的摇篮,需要紧跟这一前沿趋势,开展具身智能实训课程。通过将 AI 大模型与具备 3D 视觉的机器人相结合,为学生搭建一个实践平台。
183 64
|
4天前
|
人工智能 算法 机器人
EMMA-X:新加坡科技设计大学推出具身多模态动作模型,使夹爪机器人具备空间推理和任务规划能力
EMMA-X是由新加坡科技设计大学推出的具身多模态动作模型,具备70亿参数,通过在链式思维推理数据上微调OpenVLA创建。该模型结合层次化的具身数据集,增强空间推理和任务规划能力。
30 3
EMMA-X:新加坡科技设计大学推出具身多模态动作模型,使夹爪机器人具备空间推理和任务规划能力
|
5天前
|
机器学习/深度学习 人工智能 机器人
NeurIPS 2024:机器人操纵世界模型来了,成功率超过谷歌RT-1 26.6%
PIVOT-R是一种新型世界模型,专注于预测与任务相关的路点,以提高语言引导的机器人操作的性能和效率。该模型由路点感知世界模型(WAWM)和轻量级动作预测模块组成,辅以异步分层执行器(AHE),在SeaWave基准测试中表现优异,平均相对改进达19.45%,执行效率提高28倍。
44 26
|
6天前
|
人工智能 自然语言处理 机器人
机器人迈向ChatGPT时刻!清华团队首次发现具身智能Scaling Laws
清华大学研究团队在机器人操作领域发现了数据规模定律,通过大规模数据训练,机器人策略的泛化性能显著提升。研究揭示了环境和对象多样性的重要性,提出了高效的數據收集策略,使机器人在新环境中成功率达到约90%。这一发现有望推动机器人技术的发展,实现更广泛的应用。
51 26
|
11天前
|
编解码 机器人 测试技术
技术实践 | 使用 PAI+LLaMA Factory 微调 Qwen2-VL 模型快速搭建专业领域知识问答机器人
Qwen2-VL是一款具备高级图像和视频理解能力的多模态模型,支持多种语言,适用于多模态应用开发。通过PAI和LLaMA Factory框架,用户可以轻松微调Qwen2-VL模型,快速构建文旅领域的知识问答机器人。本教程详细介绍了从模型部署、微调到对话测试的全过程,帮助开发者高效实现定制化多模态应用。
|
19天前
|
XML 算法 自动驾驶
使用URDF和Xacro构建差速轮式机器人模型
前言 本篇文章介绍的是ROS高效进阶内容,使用URDF 语言(xml格式)做一个差速轮式机器人模型,并使用URDF的增强版xacro,对机器人模型文件进行二次优化。 差速轮式机器人:两轮差速底盘由两个动力轮位于底盘左右两侧,两轮独立控制速度,通过给定不同速度实现底盘转向控制。一般会配有一到两个辅助支撑的万向轮。 此次建模,不引入算法,只是把机器人模型的样子做出来,所以只使用 rivz 进行可视化显示。 机器人的定义和构成 机器人定义:机器人是一种自动化的机器,所不同的是这种机器具备一些与人或生物相似的智能能力,如感知能力、规划能力、动作能力和协同能力,是一种具有高级灵活性的自动化机器
57 15
|
1月前
|
算法 机器人 语音技术
由通义千问驱动的人形机器人具身智能Multi-Agent系统
申昊科技人形机器人小昊,集成通义千问多模态大模型的具身智能系统,旨在讲解销售、迎宾表演等场景。机器人通过语音、动作等方式与用户互动,利用云端大语言模型处理自然语言,结合视觉、听觉等多模态感知技术,实现流畅的人机对话、目标追踪、展厅讲解等功能。
202 3
由通义千问驱动的人形机器人具身智能Multi-Agent系统
|
28天前
|
自然语言处理 算法 机器人
智能电话销售机器人源码搭建部署系统电话机器人源码
智能电话销售机器人源码搭建部署系统电话机器人源码
27 4
|
1月前
|
机器学习/深度学习 传感器 算法
智能机器人在工业自动化中的应用与前景###
本文探讨了智能机器人在工业自动化领域的最新应用,包括其在制造业中的集成、操作灵活性和成本效益等方面的优势。通过分析当前技术趋势和案例研究,预测了智能机器人未来的发展方向及其对工业生产模式的潜在影响。 ###
130 9