DeepMind 开源最强多模态模型Perceiver IO!玩转音频、文本、图片,还会打星际争霸

简介: 你印象中的多模态模型还停留在文本+图片吗?DeepMind最近开源了一个新模型Perceiver IO,除了传统的音频、文本、图片数据可以输入进去以外,还能打星际争霸!作者宣称这可能是迈向通用人工智能的重要一步!

神经网络和人脑之间最大的区别可能就是输入输出数据的不同,人脑和其他动物都具有从多种来源获取数据、并且把多种类型的数据集成起来产生知识、灵活部署数据来实现某个特定目标的能力。 然而,大多数机器学习研究侧重于构建定制系统,以处理与单个任务相关的定型输入和输出集,例如一个人工神经网络模型只能输入特定类型的数据,如文本、音频、图片,输出也是固定不变的。

90.jpg即使是处理多模态的输入或输出的模型也是如此,典型的流程就是使用深度、模态特定的架构:例如使用2D ResNet进行视觉数据转换,使用Transformer进行语言数据转换,两个模型独立处理每个输入,然后使用第三个融合网络对其进行集成,并以特定于任务的方式读出结果。 随着输入或输出变得更加多样化,这样的系统模型复杂性会急剧增加,而任务输入和输出的形状(shape)和结构可能会对这样一个系统处理数据的方式产生极大限制,使其难以适应新的数据模式。 在目前的研究来说,为每一组新的输入和输出开发特定问题的模型已然不可避免。但如果一个单一的神经网络模型架构能够处理各种各样的输入模式和输出任务,那么这种模型开发工作将大大简化。 DeepMind的研究团队还真就开发出这样一个模型,取名Perceiver IO(感知者 IO),91.jpg这个模型已经是第二版,第一版模型为Perceiver,第一版模型基于Transformer 的结构,不需要修改网络结构,就可以利用于各种模态的数据,模型结构达到甚至超过了精心设计用于某一个模态数据的模型的效果。92.jpgPerceiver使用交叉注意力机制将多模态数据(byte array)转换为一个固定大小的隐空间,这个过程将网络的处理与输入的大小和特定于模态的细节相分离,并允许其扩展到大型多模态数据。93.jpg但是Perceiver模型过于简单,只能处理如分类这种简单的输出,与现实世界任务的复杂性还有很大差距,所以这个模型并不是真正意义上的多模态通用模型。 新模型Perceiver IO 具有从Perceiver 的隐空间中直接解码结构化输出(文本、视频、音频、符号集合等)的机制,该机制允许Perceiver IO处理大量新的数据类型。94.jpgPerceiver IO 模型的架构基于Perceiver,第一步包括输入的encoding,processing和decoding。 95.jpg每个模块都是用一个全局query-key-value(QKV)注意力操作,然后是一个多层感知器(MLP)。在Transformer的架构中,通常将MLP独立地应用于索引index维度的每个元素。 编码器和解码器都接受两个输入矩阵,第一个用作模块的key和value网络的输入,第二个用作模块查询网络的输入。模块的输出具有与query输入相同的索引维度(即相同数量的元素),这也是编码器和解码器模块能够产生不同大小输出的原因。 那为什么不直接用Transformer? 作者给出的答案是Transformer在计算和内存方面的扩展性都很差,Transformer需要在其整个架构中全部署注意力模块,使用其全部输入在每一层生成query和key,这也意味着每一层在计算和内存中都是二次时间复杂度的,像图片这种输入比较长的数据,不预处理的话根本没法训练。 相比之下,Perceiver IO非均匀地使用注意力,首先使用它将输入映射到隐空间,然后在该隐空间中进行处理,最后使用注意力映射到输出空间。 最终这个架构对输入或输出大小没有二次时间复杂度的依赖性,因为编码器和解码器注意模块分别线性依赖于输入和输出大小,而隐注意力独立于输入和输出大小。 并且这个架构需要更少的计算和内存需求,Perceiver IO可以扩展到更大的输入和输出。虽然Transformer通常用于输入和输出最多几千维的设置,但这个新模型在输入和输出维度数十万的数据上都显示了不错的结果。 第二步是将隐空间中的表示向量进行解码,目标是在给定大小为N×D的隐表示的情况下,生成大小为O×E的输出矩阵,这意味着query信息应该反映下游任务,并能够捕获输出中所需的任何结构,可能也包括图像中的空间位置或序列中输出字的位置。 96.jpg

通过组合(连接或添加)一组向量到一个query向量中来构造queries,该查询向量包含与O个期望输出之一相关的所有信息。 对于具有简单输出的任务,例如分类,这些query可以在每个示例中重复使用,并且可以从头开始学习。对于具有空间或序列结构的输出,例如,学习的位置编码或傅里叶特征,则额外包括表示输出中要解码的位置的位置编码。对于具有多任务或多模态结构的输出,学习每个任务或每个模态的单个查询,该信息允许网络将一个任务或模态查询与其他任务或模态查询区分开来,就像位置编码允许注意区分一个位置与另一个位置一样。 为了评估Perceiver IO的通用性,研究人员在多个领域、多种数据的任务中对其进行评估,包括语言理解(masked language modeling和下游任务微调)、视觉理解(optical flow和图像分类)、游戏符号表示(星际争霸II)以及多模式和多任务设置。 

97.jpg在语言实验中,首先探讨了如何使用Perceiver IO进行语言理解,特别是查看它与标准Transformer相比在一个环境中的性能是否有提升,在GLUE基准上评估了Perceiver IO学习表示的质量。 与最新的语言理解模型(如BERT[21]或XLNet[96])不同,Perceiver  IO能够随着输入长度的增加有效地扩展。对于限制给定的FLOPs下允许研究人员训练一个无标记器的语言模型,该模型与使用句子片段标记器训练的基线模型的性能相匹配,因此不再需要手工制作可能具有潜在不正确的标注方案。 在多模态语音编码上,研究人员在Kinetics-700-2020数据集上使用Perceiver IO进行音视频标签多模自动编码,这个数据具有视频、音频和类别标签。。这个任务的目标是学习一个模型,使该模型能够准确地重构多模态输入。这个问题之前已经用限制玻尔兹曼机(Restricted Boltzmann Machines)等技术进行了研究,但研究的是更定型和更小规模的数据。 98.jpg通过在评估期间屏蔽分类标签,文中提出的自动编码模型成为一个分类器。由于隐变量在各个模式之间共享,因此每个模式的重建质量对其损失项和其他训练参数的权重非常敏感。所以主要强调视频和音频PSNR,但牺牲了分类精度。如果更加强调分类准确率,则可以在保持20.7 PSNR的同时达到45%的top-1准确率。结果表明该模型能够学习到跨模式的联合分布。 Perceiver IO 模型能够处理通用输入和输出,同时可以线性扩展输入和输出大小,这种架构在各种各样的环境中都取得了不错的效果,并且可能有希望成为通用神经网络架构的候选模型。 但这个模型还有局限性:例如,目前没有解决生成性建模,也没有探索自动调整潜在空间大小的机制。 从道德的角度来看,这个模型和其他深度学习模型一样,可能受到大数据中的偏见的影响,并且它们可能对域转移或对抗性攻击不具鲁棒性,这意味着在安全关键应用中必须小心。 总的来说,这是迈向通用人工智能的关键一步!

相关文章
|
1月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
257 120
|
1月前
|
人工智能 缓存 自然语言处理
Java与多模态AI:构建支持文本、图像和音频的智能应用
随着大模型从单一文本处理向多模态能力演进,现代AI应用需要同时处理文本、图像、音频等多种信息形式。本文深入探讨如何在Java生态中构建支持多模态AI能力的智能应用。我们将完整展示集成视觉模型、语音模型和语言模型的实践方案,涵盖从文件预处理、多模态推理到结果融合的全流程,为Java开发者打开通往下一代多模态AI应用的大门。
307 41
|
2月前
|
自然语言处理 安全
Min-p采样:通过动态调整截断阈值让大模型文本生成兼顾创造力与逻辑性
大语言模型通过预测下一个词生成文本,采样策略决定其创造力与连贯性。Min-p采样根据模型置信度动态调整选择阈值,在高不确定性时扩大候选范围,低不确定性时聚焦高概率词,相较Top-k、Top-p等方法,更好平衡了多样性与质量,尤其在高温下仍保持输出稳定,提升生成文本的流畅性与创新性。
151 3
|
1月前
|
人工智能 自然语言处理 自动驾驶
超越文本:多模态大语言模型如何让AI“看世界
超越文本:多模态大语言模型如何让AI“看世界
|
1月前
|
缓存 物联网 PyTorch
使用TensorRT LLM构建和运行Qwen模型
本文档介绍如何在单GPU和单节点多GPU上使用TensorRT LLM构建和运行Qwen模型,涵盖模型转换、引擎构建、量化推理及LoRA微调等操作,并提供详细的代码示例与支持矩阵。
396 2
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
88_多模态提示:图像与文本融合
在人工智能领域的快速发展中,多模态融合已成为突破单一模态限制、实现更全面智能理解的关键技术方向。人类理解世界的方式天然是多模态的——我们同时通过视觉、听觉、语言等多种感官获取信息并进行综合分析。例如,在餐厅点餐时,我们会同时处理菜单上的图片、服务员的介绍和菜品的文字描述,最终做出决策。这种自然的多模态信息整合能力,正是人工智能系统长期以来努力追求的目标。
|
1月前
|
存储 机器学习/深度学习 人工智能
54_模型优化:大模型的压缩与量化
随着大型语言模型(LLM)的快速发展,模型规模呈指数级增长,从最初的数亿参数到如今的数千亿甚至万亿参数。这种规模扩张带来了惊人的能源消耗和训练成本,同时也给部署和推理带来了巨大挑战。2025年,大模型的"瘦身"已成为行业发展的必然趋势。本文将深入剖析大模型压缩与量化的核心技术、最新进展及工程实践,探讨如何通过创新技术让大模型在保持高性能的同时实现轻量化部署,为企业和开发者提供全面的技术指导。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
38_多模态模型:CLIP的视觉-语言对齐_深度解析
想象一下,当你看到一张小狗在草地上奔跑的图片时,你的大脑立刻就能将视觉信息与"小狗"、"草地"、"奔跑"等概念联系起来。这种跨模态的理解能力对于人类来说似乎是理所当然的,但对于人工智能系统而言,实现这种能力却经历了长期的技术挑战。多模态学习的出现,标志着AI从单一模态处理向更接近人类认知方式的综合信息处理迈出了关键一步。

热门文章

最新文章

下一篇
oss云网关配置