12种模态,一个学习框架,Meta-Transformer实现骨干网络大一统

简介: 12种模态,一个学习框架,Meta-Transformer实现骨干网络大一统

由统一的多模态理解,迈向通用感知智能。


在迈向通用人工智能(AGI)的诸多可能的方向中,发展多模态大模型(MLLM)已然成为当前炙手可热的重要路径。在 GPT4 对图文理解的冲击下,更多模态的理解成为学术界关注的焦点,通感时代真要来了吗?


我们知道,人类在学习的过程中不仅仅会接触到文字、图像,还会同时接触声音、视频等各种模态的信息,并在脑中对这些信息同时进行加工处理和统一学习。


那么:人工智能可以具备人类统一学习多模态信息的能力吗?事实上,多模态之间的互补性可以增强人工智能的学习能力,比如,CLIP 将图像与文本进行统一学习的方式就取得了巨大的成功。但受限于多种模态之间巨大的差异性以及现有多模态模型对配对数据的依赖性,实现模态通用感知存在着艰巨挑战。


为了解决上述挑战,近日,香港中文大学多媒体实验室联合上海人工智能实验室的研究团队提出一个统一多模态学习框架 ——Meta-Transformer,采用全新的设计思路,通过统一学习无配对数据,可以理解 12 种模态信息




网站地址:https://kxgong.github.io/meta_transformer/

代码地址:https://github.com/invictus717/MetaTransformer


Meta-Transformer 实现骨干网络的大一统,具有一个模态共享编码器,并且无需配对数据,能够在 12 个不同的模态上完成 16 个不同的感知任务。该工作不仅为当前多模态学习提供了强大的工具,也给多模态领域带来新的设计思路。


图 1:Meta-Transformer 框架下统一的多模态感知,能够处理 12 种不同的模态


表 1:相比于现有工作,Meta-Transformer 可以利用统一的模态共享编码器来处理更多的模态,并且摆脱了多模态训练过程中对于配对数据的依赖性。

接下来,一起详细看一看 Meta-Transformer 的创新与贡献体现在哪些方面。

Meta-Transformer 通向无限模态的感知范式

1、统一的模态共享编码器

相比于先前 CLIP 使用不同的图像和文本编码器,以及 BEIT-3 的部分共享编码器框架,Meta-Transformer 的核心设计在于一个所有模态完全共享的编码器。该设计在编码器层面统一多达 12 个模态,证明了多模态数据完全共享编码器的可行性。共享编码器有助于在编码器阶段减小由不同的网络参数引入的表征差异,这离统一的多模态感知智能更近了一步,即一个通用的网络结构处理任意模态的信息。

Meta-Transformer 可以有效地处理和学习高达 12 种模态的数据,从常见的文本、图像到音频、视频,甚至在其他更复杂的数据类型上也有所突破,如点云和高光谱数据。该设计有助于拓宽未来的多模态工作的设计思路。


图 2:Meta-Transformer 的框架图:对于不同模态的数据,研究人员基于不同模态的信息特性设计了相应的特征序列构造方式,接着将得到的特征序列输入到预训练后参数冻结的编码器中,由此提取的表征能够在多个模态上解决下游多个任务。 2、无需配对数据:更加灵活的训练方式

当前许多模态工作依赖于内容配对的多模态数据来语义对齐两个模态,但收集生成多个模态两两之间配对的数据的高难度限制了当前的多模态工作推广到更广泛的数据模态上。为了缓解这一限制,该研究提出 Data2Seq 方法, 将不同模态的原数据嵌入到一个共同编码空间,转换成各自对应 token 序列,随后使用统一的模态共享编码器继续编码 token 序列,因而任一模态的数据就可以训练 Meta-Transformer 感知相应的模态的能力。实验表明,Meta-Transformer 能够在缺少配对数据训练场景下展现优异性能。

3、更多模态:通向模态通用感知

现有的多模态模态框架多侧重于视觉和语言,较少衍生到更多其他模态。相比之下,Meta-Transformer 能够对于 12 种不同的数据模态提供一套统一的学习框架,包括文本、图像、点云、音频、视频、红外、超光谱、X 射线、表格、图形、时间序列和惯性测量单元(IMU)数据。这种广泛的数据模态覆盖,极大扩展了 Meta-Transformer 的应用范围,并且 Meta-transformer 框架对于扩展到更多的模态有着易扩展、低成本、高训练效率的优势。

Meta-Transformer 的方法介绍

Meta-Transformer 统一处理来自不同模态的数据,并通过共享编码器完成对十二种模态的编码。为了实现这一目标,Meta-Transformer 由三个部分组成:Data2Seq tokenization 模块、统一的共享编码模块和下游任务学习模块。

首先,研究人员提出了一套处理多模态数据的核心方案:数据分组 — 卷积提取局部语义 — 语义聚合 —— 空间映射,将各种模态的数据转换为在同一个共享的嵌入空间内的 token 序列。

图 3:Data-to-Sequence 的设计方案能够有效地将不同模态的数据转化为同一个流行嵌入空间内的 token 序列,具有极强的模态拓展性。


紧接着,Meta-Transformer 将使用统一的共享编码器对上一步得到的的不同模态的 token 序列进行编码。研究人员使用 LAION-2B 数据集对于骨干网络进行预训练,在预训练之后冻结了模型参数,得到深度为 L 的 Transformer 编码器由多个堆叠的多头自注意力(MSA)层和 MLP 块组成。输入的 token 首先进入 MSA 层,然后进入 MLP 块。然后第 (ℓ- 1) 个 MLP 块的输出作为第ℓ个 MSA 层的输入,层归一化(LN)被添加到每一层之前。MLP 包含两个线性 FC 层和一个 GELU 非线性激活层。

最后,在获得学习表征后,研究人员将表征输入特定任务的头,它主要由 MLP 组成,因模态和任务而异。Meta-Transformer 的学习目标可以概括为



其中 h (・),g (・),与 f (・),分别表示 tokenizer,模型骨干网络,以及下游任务网络中的运算过程。

实验结果

Meta-Transformer 具有丰富且优秀的实验结果。下表 2 展示了 Meta-Transformer 在不同模态上的实验内容。可以看出,Meta-Transformer 从 12 种模态中提取表征信息,能够有效地服务 16 个不同模态的下游任务,且拥有出色的性能。


表 2:Meta-Transformer 能处理 12 个模态的 16 个感知任务.


图 3:Meta-Transforme 有着优秀的多模态感知能力,在文字、图像、点云、声音、红外、高光谱以及医疗 X 光图像理解任务方面与现有的单模态 SOTA 模型性能相接近,并且在多模态理解能力方面大幅领先 ImageBind.
对于图像理解:

如下表 3 所示,与 Swin Transformer 系列和 InternImage 相比,Meta-Transformer 在图像理解任务中表现突出。在分类任务中,Meta-Transformer 与 Meta-Transformer-B16F 和 Meta-Transformer-L14F 在零镜头分类下的表现非常好,分别达到了 69.3% 和 75.3%。与此同时,当调整预训练参数时,Meta-Transformer-B16T 和 Meta-Transformer-L14T 分别达到 85.4% 和 88. 1% 的准确率,超越了现有最先进的方法。在目标检测与语义分割方面,Meta-Transformer 也提供了出色的性能,进一步证明了其对图像理解的通用能力。

表 3:Meta-Transformer 对于图像理解方面的能力,分别在 ImageNet-1K 图像分类,MS COCO 目标检测,以及 ADE-20K 的语义分割上进行了评估。
对于点云理解:

表 4 展示了 Meta-Transformer 在点云上的实验结果。当在二维数据上进行预训练时,Meta-Transformer 在 ModelNet-40 上仅用 0.6M 可训练参数就达到了 93.6% 的总体准确率(OA),与表现最好的模型不相上下。此外,Meta-Transformer 在 ShapeNetPart 数据集中表现出色,仅训练 2.3M 参数的情况下,在实例 mIoU 和类别 mIoU 方面都获得了最好的实验结果,分别为 87.0% 和 85.2%。由此可见,Meta-Transformer 在点云理解任务中表现出了显著的优势,在可训练参数较少的情况下提供了具有竞争力的性能。

表 4:Meta-Transformer 对于点云理解方面的能力,分别在 ModelNet-40 形状分类,S3DIS 室内场景分割,以及 ShapeNet Part 物体分割任务上进行了评估。


研究结论

Meta-Transformer 是一种统一的多模态学习框架,它能处理并关联来自多种模态的信息,包括自然语言、2D 图像、3D 点云、音频、视频等。它实现了无配对训练数据的场景下进行多模态感知,是第一个能够在 12 种模态上进行统一学习的框架。Meta-Transformer 能够有助于将多模态大模型推广至更多模态,也为实现统一的多模态智能提供了参考。Meta-Transformer 具有的多模态感知理解能力也会为人工智能技术作为服务全社会的基础设施,对于教育、医疗、娱乐等领域提供更智能、更便捷、更丰富多元的服务。

相关文章
|
4天前
|
设计模式 安全 测试技术
深入理解与应用自动化测试框架 — 以Selenium为例网络防线的构筑者:洞悉网络安全与信息安全的核心要素
【5月更文挑战第29天】 在快速迭代的软件开发过程中,自动化测试已成为提高测试效率、确保软件质量的重要手段。本文将深入探讨自动化测试框架Selenium的核心概念、架构以及实际应用中的关键技巧,旨在为读者提供一篇系统性的分析与实践指南。文章首先概述了自动化测试的必要性和Selenium框架的基本特征;随后详细剖析了Selenium的组件结构,并结合实例讲解如何高效地设计和执行测试用例;最后,讨论了当前自动化测试面临的挑战及未来发展趋势。
|
1天前
|
JavaScript Java 测试技术
Java项目基于ssm+vue.js的网络类课程思政学习系统附带文章和源代码设计说明文档ppt
Java项目基于ssm+vue.js的网络类课程思政学习系统附带文章和源代码设计说明文档ppt
6 0
|
2天前
|
机器学习/深度学习 计算机视觉
【YOLOv8改进】 YOLOv8 更换骨干网络之GhostNetV2 长距离注意力机制增强廉价操作,构建更强端侧轻量型骨干 (论文笔记+引入代码)
该专栏聚焦YOLO目标检测的创新改进与实战,介绍了轻量级CNNs和注意力机制在移动设备上的应用。文章提出了一种名为GhostNetV2的新架构,结合了硬件友好的DFC注意力机制,强化了特征表达能力和全局信息捕获,同时保持低计算成本和高效推理。GhostNetV2在ImageNet上以167M FLOPs达到75.3%的top-1准确率,优于同类模型。创新点包括DFC注意力、模型结构优化和效率提升。源代码可在GitHub和MindSpore平台上找到。此外,还提到了YOLOv8的相关实现和任务配置。
|
2天前
|
机器学习/深度学习 存储 测试技术
【YOLOv8改进】 YOLOv8 更换骨干网络之 GhostNet :通过低成本操作获得更多特征 (论文笔记+引入代码).md
YOLO目标检测专栏探讨了卷积神经网络的创新改进,如Ghost模块,它通过低成本运算生成更多特征图,降低资源消耗,适用于嵌入式设备。GhostNet利用Ghost模块实现轻量级架构,性能超越MobileNetV3。此外,文章还介绍了SegNeXt,一个高效卷积注意力网络,提升语义分割性能,参数少但效果优于EfficientNet-L2。专栏提供YOLO相关基础解析、改进方法和实战案例。
|
2天前
|
JavaScript Java 测试技术
基于ssm+vue.js的数据结构课程网络学习平台附带文章和源代码设计说明文档ppt
基于ssm+vue.js的数据结构课程网络学习平台附带文章和源代码设计说明文档ppt
10 2
|
3天前
|
JavaScript Java 测试技术
基于SpringBoot+Vue+uniapp的网络类课程思政学习系统的详细设计和实现(源码+lw+部署文档+讲解等)
基于SpringBoot+Vue+uniapp的网络类课程思政学习系统的详细设计和实现(源码+lw+部署文档+讲解等)
|
3天前
|
JavaScript Java 测试技术
基于SpringBoot+Vue+uniapp的数据结构课程网络学习平台的详细设计和实现(源码+lw+部署文档+讲解等)
基于SpringBoot+Vue+uniapp的数据结构课程网络学习平台的详细设计和实现(源码+lw+部署文档+讲解等)
|
4天前
|
机器学习/深度学习 计算机视觉
【YOLOv8改进】骨干网络: SwinTransformer (基于位移窗口的层次化视觉变换器)
YOLO目标检测创新改进与实战案例专栏介绍了YOLO的有效改进,包括使用新型视觉Transformer——Swin Transformer。Swin Transformer解决了Transformer在视觉领域的尺度变化和高分辨率问题,采用分层结构和移位窗口自注意力计算,适用于多种视觉任务,如图像分类、目标检测和语义分割,性能超越先前最佳模型。此外,文章还展示了如何在YOLOv8中引入Swin Transformer,并提供了相关代码实现。
|
6天前
|
机器学习/深度学习 存储 安全
网络安全与信息安全:防护、检测与教育移动应用开发的未来:跨平台框架与原生系统的融合
【5月更文挑战第27天】在数字化时代,数据成为了新的货币。因此,确保信息的安全性和网络的完整性变得至关重要。本文将探讨网络安全漏洞的概念、加密技术的重要性以及提升安全意识的必要性。通过分析不同类型的安全威胁,我们讨论了如何利用现代加密技术和多层防御策略来保护信息系统。此外,文中还强调了教育和培训在构建坚固的安全防线中的作用。
|
6天前
|
安全 数据管理 测试技术
网络安全与信息安全:防范漏洞、加强加密与提升安全意识深入探索自动化测试框架的设计原则与实践应用化测试解决方案。文章不仅涵盖了框架选择的标准,还详细阐述了如何根据项目需求定制测试流程,以及如何利用持续集成工具实现测试的自动触发和结果反馈。最后,文中还将讨论测试数据管理、测试用例优化及团队协作等关键问题,为读者提供全面的自动化测试框架设计与实施指南。
【5月更文挑战第27天】 在数字化时代,网络安全与信息安全已成为维护国家安全、企业利益和个人隐私的重要环节。本文旨在分享关于网络安全漏洞的识别与防范、加密技术的应用以及提升安全意识的重要性。通过对这些方面的深入探讨,我们希望能为读者提供一些实用的建议和策略,以应对日益严峻的网络安全挑战。 【5月更文挑战第27天】 在软件开发周期中,自动化测试作为保障软件质量的关键步骤,其重要性日益凸显。本文旨在剖析自动化测试框架设计的核心原则,并结合具体案例探讨其在实际应用中的执行策略。通过对比分析不同测试框架的优缺点,我们提出一套高效、可扩展且易于维护的自动