像GPT-4一样能看懂图文,李飞飞等人的具身AI给机器人造了个多模态对话框

简介: 像GPT-4一样能看懂图文,李飞飞等人的具身AI给机器人造了个多模态对话框

VIMA 是一个带有机械臂的 LLM ,它接受多模态 Prompt :文本、图像、视频或它们的混合。


是时候给大模型造个身体了,这是多家顶级研究机构在今年的 ICML 大会上向社区传递的一个重要信号。


在这次大会上,谷歌打造的 PaLM-E 和斯坦福大学李飞飞教授、英伟达高级研究科学家 Linxi "Jim" Fan(范麟熙,师从李飞飞)参与打造的 VIMA 机器人智能体悉数亮相,展示了具身智能领域的顶尖研究成果。



PaLM-E 诞生于今年 3 月份,是一个参数量达 5620 亿的具身多模态语言模型,集成了参数量 540B 的 PaLM 和参数量 22B 的视觉 Transformer(ViT),是目前已知的最大的视觉 - 语言模型。利用这个大模型控制机器人,谷歌把具身智能玩出了新高度。它能让机器人听懂人类指令,并自动将其分解为若干步骤并执行,越来越贴近人类对于智能机器人的期待和想象(更多细节参见:《5620 亿参数,最大多模态模型控制机器人,谷歌把具身智能玩出新高度》)。


VIMA 则诞生于 2022 年 10 月,是一个基于 Transformer 架构的(仿真)机器人智能体,由来自斯坦福大学、玛卡莱斯特学院、英伟达、加州理工学院、清华大学、德克萨斯大学奥斯汀分校的多位研究者合作完成。论文一作 Yunfan Jiang 是斯坦福大学即将入学的计算机科学博士研究生,曾在英伟达实习,与 Linxi "Jim" Fan 等人合作。



论文地址:https://arxiv.org/pdf/2210.03094.pdf

论文主页:https://vimalabs.github.io/

Github 地址:https://github.com/vimalabs/VIMA


VIMA 智能体能像 GPT-4 一样接受 Prompt 输入,而且输入可以是多模态的(文本、图像、视频或它们的混合),然后输出动作,完成指定任务。


比如,我们可以要求它把积木按照图片所示摆好再还原:


让它按照视频帧的顺序完成一系列动作:


给出一些图示让它学习新概念:


通过图文混合提示对它施加一些限制:


为什么要研发这样的机器人智能体?作者在论文中写道:


在 GPT-3 等大模型中,基于 Prompt 的学习为将自然语言理解任务传达给通用模型提供了一种便捷灵活的接口。因此,他们设想,一台通用机器人也应该具备类似的直观且富有表现力的任务规范接口。


以家务机器人为例,我们可以通过简单的自然语言指令要求机器人给我们拿一杯水。如果有更具体(但语言难以准确描述)的需求,我们可以把指令改为语言 + 图像(给机器人指令的同时再给他一张参考图像,比如某个水杯的照片)。如果需要机器人学习新技能,机器人应该能够借助几个视频来自学、适应。需要与不熟悉的物体交互时,我们应该能通过几张简单的图像示例来教会机器人新的基本概念。最后,为了确保安全部署,我们可以进一步指定视觉约束,如「不要进入房间」。为了让一个机器人智能体具备所有这些能力,作者在这项工作中做出了三个关键贡献:


1、提出了一种新的多模态 prompting 形式,将各种各样的机器人操作任务转换为一个序列建模问题;

2、构建了一个大型基准,包含多样化的任务,以系统评估智能体的可扩展性和泛化能力;

3、开发了一个支持多模态 prompt 的机器人智能体,能够进行多任务学习和零样本泛化。


他们从以下观察开始:许多机器人操作任务可以通过语言、图像、视频的交织多模态 prompt 来描述(见图 1)。例如在重新排列任务中,我们可以给机器人输入以下图文 prompt:「请重新排列物品,使其与 {某场景图} 相一致」;在少样本仿真中,prompt 可以写成「遵循积木的运动轨迹:{视频帧 1}, {视频帧 2}, {视频帧 3}, {视频帧 4}」。



多模态 prompt 不仅比单个模态有更强的表达能力,还为训练通用型机器人提供了统一的序列 IO 接口。以前,不同的机器人操作任务需要不同的策略架构、目标函数、数据处理流程和训练过程,导致孤立的机器人系统无法轻易地结合多样的用例。相反,作者在论文中提出的多模态 prompt 接口使他们能够利用最新的大型 Transformer 模型进展,开发可扩展的多任务机器人学习器。


为了系统评估使用多模态 prompt 的智能体,他们开发了一个名为 VIMA-BENCH 的新基准测试,该基准构建在 Ravens 模拟器上。他们提供了 17 个具有多模态 prompt 模板的代表性任务。每个任务可以通过不同纹理和桌面物体的各种组合进行程序化实例化,产生数千个实例。VIMA-BENCH 建立了一个四级协议,逐步评估智能体的泛化能力,如图 2 所示。



该研究引入了 VIMA(VisuoMotor Attention agent)来从多模态 prompt 中学习机器人操作。模型架构遵循编码器 - 解码器 transformer 设计,这种设计在 NLP 中被证明是有效的并且是可扩展的。

为了证明 VIMA 具有可扩展性,该研究训练了 7 个模型,参数范围从 2M 到 200M 不等。结果表明本文方法优于其他设计方案,比如图像 patch token、图像感知器和仅解码器条件化(decoder-only conditioning)。在四个零样本泛化级别和所有模型容量上,VIMA 都获得了一致的性能提升,有些情况下提升幅度很大,例如在相同的训练数据量下,VIMA 任务成功率提高到最多 2.9 倍,在数据量减少 10 倍的情况下,VIMA 性能提高到 2.7 倍。


为了确保可复现性并促进社区未来的研究工作,该研究还开源了仿真环境、训练数据集、算法代码和预训练模型的 checkpoint。


方法介绍


本文旨在构建一个机器人智能体,该智能体可以执行多模态 prompt 任务。本文提出的 VIMA 兼具多任务编码器 - 解码器架构以及以对象为中心的设计。VIMA 的架构图如下:



VIMA 完整的演示流程:


,时长00:19

具体到细节,首先是输入 prompt,VIMA 包含 3 种格式:文本、包含单个对象的图像、包含全场景的图像。


对于输入文本,该研究使用预训练的 T5 tokenizer 和词嵌入来获取词 token;

对于全场景图像,该研究首先使用领域微调 Mask R-CNN 提取单个对象。每个对象通过 bounding box 和裁剪的图像来表示,之后分别使用 bounding box 编码器和 ViT 对它们进行编码,从而得到对象 token;

对于单个对象的图像,除了使用虚拟 bounding box,该研究以相同的方式获得 token。


然后,该研究遵循 Tsimpoukelli 等人的做法,通过预训练的 T5 编码器对 prompt 进行编码。由于 T5 已在大规模文本语料库上进行了预训练,因而 VIMA 继承了语义理解能力和稳健性质。为了适应来自新模态的 token,该研究在非文本 token 和 T5 之间插入了 MLP(多层感知机)层。


接着是机器人控制器。如上图 3 所示,机器人控制器(解码器)通过在 prompt 序列 P 和轨迹历史序列 H 之间使用一系列交叉注意力层来对其进行条件化。


该研究按照 Raffel 等人中的编码器 - 解码器约定,从 prompt 中计算关键键序列 K_P 和值序列 V_P,同时从轨迹历史中查询 Q_H。然后,每个交叉注意力层生成一个输出序列其中 d 是嵌入维度。为了将高层与输入的轨迹历史序列相连接,该研究还添加了残差连接。


研究中还用到了交叉注意力层,其具有三个优势:1)加强与 prompt 的连接;2)保持原始 prompt token 的完整和深入流动;3)更好的计算效率。VIMA 解码器由 L 个交替的交叉注意力层和自注意力层组成。最后,该研究遵循 Baker 等人的做法,将预测的动作 token 映射到机械臂离散姿态。


最后是训练。该研究采用行为克隆(behavioral cloning)训练模型。具体而言,对于一个包含 T 个步骤的轨迹,研究者需要优化函数整个训练过程在一个离线数据集上进行,期间没有访问仿真器。为了使 VIMA 更具鲁棒性,该研究采用了对象增强技术,即随机注入 false-positive 检测输出。训练完成后,该研究选择模型 checkpoint 进行评估。


实验


实验旨在回答以下三个问题:


基于多模态 prompt,构建多任务的、基于 transformer 的机器人智能体的最佳方案是什么?

本文方法在模型容量和数据大小方面的缩放特性是什么?

不同的组件,如视觉 tokenizers、prompt 条件和 prompt 编码,如何影响机器人的性能?


下图(上部)比较了不同模型大小(参数范围从 2M 到 200M)的性能,结果表明,VIMA 在性能上明显优于其他方法。尽管像 VIMA-Gato 和 VIMA-Flamingo 这样的模型在较大的模型大小下表现有所提升,但 VIMA 在所有模型大小上始终表现出优异的性能。


下图(底部)固定模型大小为 92M,比较了不同数据集大小(0.1%、1%、10% 和完整数据)带来的影响。结果表明,VIMA 具有极高的样本效率,可以在数据为原来 1/10 的情况下实现与其他方法相当的性能。



对视觉 tokenizer 的消融研究:下图比较了 VIMA-200M 模型在不同视觉 tokenizer 上的性能。结果表明,本文提出的对象 token 优于所有直接从原始像素学习的方法,此外,这种方法还优于 Object Perceiver 方法。



下图表明,交叉注意力在低参数状态和较难的泛化任务中特别有用。



相关阅读:


《5620 亿参数,最大多模态模型控制机器人,谷歌把具身智能玩出新高度》

《为什么说具身智能是通往 AGI 值得探索的方向?上海交大教授卢策吾深度解读》

《李飞飞划重点的「具身智能」,走到哪一步了?》

相关文章
|
1月前
|
人工智能 算法 开发者
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
188 10
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
|
3月前
|
人工智能 安全 机器人
无代码革命:10分钟打造企业专属数据库查询AI机器人
随着数字化转型加速,企业对高效智能交互解决方案的需求日益增长。阿里云AppFlow推出的AI助手产品,借助创新网页集成技术,助力企业打造专业数据库查询助手。本文详细介绍通过三步流程将AI助手转化为数据库交互工具的核心优势与操作指南,包括全场景适配、智能渲染引擎及零代码配置等三大技术突破。同时提供Web集成与企业微信集成方案,帮助企业实现便捷部署与安全管理,提升内外部用户体验。
414 12
无代码革命:10分钟打造企业专属数据库查询AI机器人
|
2月前
|
存储 人工智能 文字识别
医疗病历结构化处理系统技术白皮书——基于多模态AI的医联体数据治理方案
本系统基于双端协同架构,集成移动端OCR识别与云端数据分析,实现医疗文档高效结构化处理。采用PaddleOCR轻量引擎与隐私计算技术,支持离线识别与敏感信息脱敏。后端构建分布式数据仓库与多租户机制,满足PB级存储与数据安全合规要求。实测OCR准确率达96.2%(印刷体)与88.7%(手写体),字段抽取F1值92.4%,显著提升病历处理效率与质量。
286 3
|
2月前
|
机器学习/深度学习 人工智能 编解码
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
|
2月前
|
机器学习/深度学习 人工智能 自动驾驶
AI Agent多模态融合策略研究与实证应用
本文从多模态信息融合的理论基础出发,构建了一个结合图像与文本的AI Agent模型,并通过PyTorch代码实现了完整的图文问答流程。未来,多模态智能体将在医疗、自动驾驶、虚拟助手等领域展现巨大潜力。模型优化的核心是提升不同模态的协同理解与推理能力,从而打造真正“理解世界”的AI Agent。
AI Agent多模态融合策略研究与实证应用
|
2月前
|
人工智能 Serverless 数据处理
AI练习场|如何从多模态文件中自动提取有效信息?
本文介绍了利用AI技术进行多模态文件信息抽取的实战教程,涵盖从文档、图像、音视频等多种数据中自动提取关键信息的技术方案。通过阿里云百炼模型与函数计算服务,实现高效数据处理,适用于信息提取、图片分类、音视频分析等场景,提升数据处理效率与准确性。
AI练习场|如何从多模态文件中自动提取有效信息?
|
2月前
|
人工智能 物联网 机器人
面向多模态感知与反思的智能体架构Agentic AI的实践路径与挑战
Agentic AI(能动智能体)代表人工智能从被动响应向主动规划、自主决策的范式转变。本文系统解析其核心架构,涵盖感知、记忆、意图识别、决策与执行五大模块,并探讨多智能体协作机制与通信协议设计。结合代码示例,展示意图识别、任务规划与异步执行的实现方式,分析该架构的优势与挑战,如高自主性与通信复杂性等问题。最后展望未来方向,包括引入RAG、LoRA与多模态感知等技术,推动Agentic AI在自动编程、机器人协作等场景的广泛应用。
面向多模态感知与反思的智能体架构Agentic AI的实践路径与挑战
|
2月前
|
机器学习/深度学习 人工智能 机器人
Meta AI Research:虚拟/可穿戴/机器人三位一体的AI进化路径
本文阐述了我们对具身AI代理的研究——这些代理以视觉、虚拟或物理形式存在,使其能够与用户及环境互动。这些代理包括虚拟化身、可穿戴设备和机器人,旨在感知、学习并在其周围环境中采取行动。与非具身代理相比,这种特性使它们更接近人类的学习与环境交互方式。我们认为,世界模型的构建是具身AI代理推理与规划的核心,这使代理能够理解并预测环境、解析用户意图及社会背景,从而增强其自主完成复杂任务的能力。世界建模涵盖多模态感知的整合、通过推理进行行动规划与控制,以及记忆机制,以形成对物理世界的全面认知。除物理世界外,我们还提出需学习用户的心理世界模型,以优化人机协作。
131 3
|
2月前
|
人工智能 分布式计算 DataWorks
分布式×多模态:当ODPS为AI装上“时空穿梭”引擎
本文深入探讨了多模态数据处理的技术挑战与解决方案,重点介绍了基于阿里云ODPS的多模态数据处理平台架构与实战经验。通过Object Table与MaxFrame的结合,实现了高效的非结构化数据管理与分布式计算,显著提升了AI模型训练效率,并在工业质检、多媒体理解等场景中展现出卓越性能。
|
3月前
|
数据采集 传感器 人工智能
船厂复杂环境下的多模态AI安防系统技术实践
本方案针对船厂复杂工业场景,设计了五层分布式AI安防系统架构:数据采集层(海康摄像头+气体传感器)、预处理层(动态光照补偿)、特征引擎层(YOLOv8s检测+ESRGAN增强+ByteTrack跟踪)和规则决策层。同时,实现交通违规检测、龙门吊防撞及人员滞留监测等关键模块,并通过两阶段小目标检测、工业干扰优化与边缘计算加速解决工程挑战。系统采用边缘-中心协同架构,支持REST API与MQTT/ZMQ通信,技术验证数据显示其准确率高达92.4%,障碍物识别延迟平均仅850ms。
83 1
船厂复杂环境下的多模态AI安防系统技术实践