清华、华为等提出iVideoGPT:专攻交互式世界模型

简介: 【6月更文挑战第6天】清华和华为团队联合推出iVideoGPT,这是一种创新的交互式世界模型,旨在解决视频生成模型的互动性和扩展性挑战。iVideoGPT采用可扩展的自回归变换器框架,整合多模态信号,通过预测标记序列提升智能体交互体验。模型利用压缩标记技术处理高维视觉数据,预训练于大量人类和机器人操控轨迹,适用于视频预测、视觉规划等任务,展现出与顶级方法相当的性能。尽管存在数据多样性、长视频处理和高分辨率视频预测等问题,iVideoGPT仍展现了在视觉机器人操控等领域的巨大潜力。[论文链接](https://arxiv.org/pdf/2405.15223)

在人工智能领域,交互式世界模型作为一种新兴技术,正逐渐成为研究的热点。这类模型赋予了基于模型的智能体在模拟环境中进行交互式探索、推理和规划的能力,以支持现实世界中的决策制定。然而,要实现高度互动性与大规模扩展性的结合,对于视频生成模型来说是一个不小的挑战。近期,清华大学联合华为诺亚方舟实验室等团队,提出了一种名为iVideoGPT的新型交互式世界模型框架,其研究成果在预印本网站arXiv上发表,引起了业界的广泛关注。

iVideoGPT的核心优势在于其可扩展的自回归变换器框架,该框架能够将视觉观察、动作和奖励等多模态信号整合到一个序列化的标记序列中,通过预测下一个标记来促进智能体的交互体验。该模型采用了一种新颖的压缩标记技术,有效地将高维视觉观察结果进行了离散化处理,显著提高了处理效率。利用这一可扩展的架构,研究团队在数百万人类和机器人操控轨迹上进行了预训练,为广泛的下游任务建立了一个多功能的基础,如动作条件视频预测、视觉规划和基于模型的强化学习等,在这些领域iVideoGPT均展现出了与最先进方法相媲美的性能。

iVideoGPT的提出,标志着在交互式通用世界模型的发展上迈出了重要的一步,它在生成视频模型与基于模型的强化学习应用之间架起了桥梁。这种模型的实用性和高效性,使其在视觉机器人操控等实际应用中展现出了巨大的潜力。

从研究的角度来看,iVideoGPT的架构设计巧妙,它通过自回归变换器的方式,将多模态信号整合到标记序列中,实现了对视频内容的高效预测和控制。这种设计不仅提高了模型的可扩展性,还保持了与大型语言模型(LLM)生态系统的无缝集成,显示出了在处理多样化条件时的灵活性。

在预训练阶段,iVideoGPT利用了超过一百万的轨迹数据,这些数据来源于机器人和人类的操控行为。通过大规模的预训练,模型学习到了丰富的物理世界知识,这为其在多种下游任务中的适应性提供了强有力的支持。此外,iVideoGPT在微调阶段展现出了良好的灵活性,能够根据不同的任务需求,通过线性投影和奖励预测等手段,将动作和奖励信号有效地整合到模型中。

在实验部分,研究团队对iVideoGPT进行了全面的性能评估。在视频预测、视觉规划和视觉模型增强学习等多个场景中,iVideoGPT均显示出了强大的竞争力。特别是在视觉模型增强学习方面,iVideoGPT不仅显著提高了样本效率,还与最先进的模型基强化学习算法相匹敌,这表明了其在实际应用中的潜力。

然而,尽管iVideoGPT在技术上取得了显著的进展,但仍存在一些局限性和改进空间。首先,公开可用的机器人数据集在多样性上仍有限制,这可能影响到模型的泛化能力。其次,iVideoGPT在处理长视频和显著相机运动的场景时可能会遇到挑战,这需要在未来的研究中加以解决。此外,尽管模型在低分辨率下的表现已经相当不错,但在高分辨率视频的处理上,如何保持预测的准确性和效率,也是需要进一步研究的问题。

论文地址:https://arxiv.org/pdf/2405.15223

目录
相关文章
|
9月前
|
物联网 机器人 Swift
|
4月前
|
数据采集 API 决策智能
华为诺亚联合中科大发布工具调用模型ToolACE,效果持平GPT-4获开源第一
 【10月更文挑战第10天】华为诺亚方舟实验室与中国科学技术大学合作推出ToolACE,一种自进化合成过程的工具调用模型。ToolACE通过多智能体交互和双重验证系统生成准确、复杂、多样化的工具学习数据,显著提升大型语言模型(LLM)的功能调用能力。实验结果显示,使用ToolACE数据训练的80亿参数模型性能媲美GPT-4,在伯克利功能调用排行榜上获得开源第一。
129 4
|
24天前
|
人工智能 Python
子曰-o1:网易有道开源国内首个分步式讲解推理模型,支持K12数学教学
子曰-o1是网易有道推出的国内首个分步式讲解推理模型,采用14B轻量级架构,专为消费级显卡设计,支持K12数学教学,提供精准的解题思路和答案。
72 1
子曰-o1:网易有道开源国内首个分步式讲解推理模型,支持K12数学教学
|
2月前
|
人工智能 算法 测试技术
Insight-V:腾讯联合南洋理工、清华大学推出提升长链视觉推理能力的多模态模型
Insight-V是由南洋理工大学、腾讯公司和清华大学联合推出的多模态模型,旨在提升长链视觉推理能力。通过渐进式数据生成、多智能体系统和两阶段训练流程,Insight-V在多个视觉推理基准测试中表现出色,展现出强大的视觉推理能力。
115 42
Insight-V:腾讯联合南洋理工、清华大学推出提升长链视觉推理能力的多模态模型
|
3月前
|
安全 机器人 开发者
清华开源全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶HF具身热榜
清华大学近期发布了全球最大的双臂机器人扩散大模型RDT,该模型在调酒、遛狗等任务上表现优异,登顶Hugging Face具身智能热榜。RDT采用扩散架构,具备强大的学习能力,能生成高质量的机器人动作序列,展示了清华在机器人技术领域的领先水平。尽管面临泛化能力、计算资源及安全性等挑战,RDT的开源特性仍为其广泛应用和发展提供了广阔前景。
105 8
|
3月前
|
人工智能 计算机视觉 网络架构
OpenAI攻克扩散模型短板,清华校友路橙、宋飏合作最新论文
扩散模型在生成AI领域取得显著成果,但其训练不稳定性和采样速度慢限制了发展。OpenAI与清华校友合作,提出连续时间一致性模型(CMs),通过TrigFlow等创新解决了这些问题,大幅提升了训练稳定性和计算效率,实现了与最优模型相当的样本质量,同时减少了计算资源消耗。
76 2
|
6月前
|
机器学习/深度学习 人工智能
清华研究登Nature,首创全前向智能光计算训练架构,戴琼海、方璐领衔
【8月更文挑战第30天】清华大学研究人员在《自然》杂志上发表了一项开创性成果,提出了一种全前向智能光计算训练架构,解决了传统光学AI方法依赖电子计算机模拟和优化的问题,实现了光学系统的自学习和自设计。该架构通过将光学系统映射到参数化神经网络中,消除了反向传播需求,展示了在多个领域的广泛应用前景,如深度光学神经网络和高分辨率散射成像等。这一成果为光学AI的发展开辟了新道路,但实际应用中仍需克服一些挑战。论文详情见:https://www.nature.com/articles/s41586-024-07687-4
89 2
|
机器学习/深度学习 人工智能 算法
智源「悟道3.0」大模型系列问世,这次不拼参数,开源开放成为主角(2)
智源「悟道3.0」大模型系列问世,这次不拼参数,开源开放成为主角
353 0
|
自然语言处理 算法 测试技术
后GPT 3.0时代,主流大模型技术精要详解,走向AGI之路的大门已开(3)
后GPT 3.0时代,主流大模型技术精要详解,走向AGI之路的大门已开
276 0
|
机器学习/深度学习 存储 人工智能
后GPT 3.0时代,主流大模型技术精要详解,走向AGI之路的大门已开(1)
后GPT 3.0时代,主流大模型技术精要详解,走向AGI之路的大门已开
420 0