ICML 2023 | 基于模块化思想,阿里达摩院提出多模态基础模型mPLUG-2

简介: ICML 2023 | 基于模块化思想,阿里达摩院提出多模态基础模型mPLUG-2

对于多模态基础模型,我们希望其不仅可以处理特定的多模态相关任务,还希望其处理单模态任务时也具有优异的性能。阿⾥达摩院团队发现现有的模型往往不能很好的平衡模态协作和模态纠缠的问题,这限制了模型在各种单模态和跨模态下游任务的性能。

基于此,达摩院的研究者提出了 mPLUG-2,其通过模块化的⽹络结构设计来平衡多模态之间的协作和纠缠问题,mPLUG-2 在 30 + 多 / 单模态任务,取得同等数据量和模型规模 SOTA 或者 Comparable 效果,在 VideoQA 和 VideoCaption 上超越 Flamingo、VideoCoca、GITv2 等超⼤模型取得绝对SOTA。此外,mPLUG-Owl 是阿⾥巴巴达摩院 mPLUG 系列的最新工作,延续了 mPLUG 系列的模块化训练思想,把 LLM 升级为⼀个多模态⼤模型。mPLUG-2 的研究论文已被 ICML 2023 接收。



研究背景

⼤规模预训练基础模型是⼈⼯智能领域的新兴范式,涉及语⾔、视觉和多模态等多个领域。随着 Transformer 体系结构的⼴泛成功,近年来已经出现了语⾔、视觉和多模态预训练的⼤融合趋势。

该趋势下的⼀条主要线路是采⽤统⼀的序列⽣成框架来统⼀任务和模态,如 T5、OFA 和 Flamingo 等。另⼀条主要线路则是将所有任务都视为实例区分 (instance discrimination),并采用纯编码器架构,如 BERT、Florence 和 BEIT-3 模型。

以上主流基础模型提出为多模态数据建模共享的单⼀网络 (single network),以此来利用模态协作的信息,如 Flamingo。然而,由于不同模态涉及到的任务的巨⼤差异,这种策略将⾯临模态纠缠的问题,多个模态可能会相互干扰,特别是当存在多种模态和任务时。单模块基础模型难以平衡模态协作的收益和模态纠缠对多个跨模态下游任务的影响。

为了缓解这个挑战,在这项⼯作中,阿⾥达摩院团队引⼊了⼀种新的多模态基础模型的统⼀范式,如下图 1 所示。它采⽤基于模块的⽹络设计来考虑到模态协作和模态纠缠之间的平衡。mPLUG-2 的研究者设计了特定的共享功能模块 (functional modules),以⿎励模态协作,同时保留特定于模态的模块 (modality-specific modules) 以解决模态纠缠的问题。


基于模块化的设计,不同的模块可以灵活地选取和组合,以适应⼤量的单模态和多模态的理解和⽣成任务。支持的下游任务的详细信息在表 1 中给出,可以看到 mPLUG-2 可以处理多种跨⽂本、图像和视频的不同类型的下游任务。下表 2 中也提供了不同的下游任务所需要的模块组合。



方法概览



模型框图如上图 2 所示:(1) mPLUG-2 设计了⼀个统⼀的双 (dual) 视觉编码器模块,其中视频与图输⼊共享的标准 Transformer 模块,⽤于建模空间信息。局部时域建模模块⽤于视频相关任务的时域关系建模。(2) mPLUG-2 设计了⼀个新颖的通⽤层模块 ( universal layers module),⽤于作不同模态之间的枢纽,其通过共享⾃注意⼒模块将视觉和语⾔模态投影到共同的以语⾔为导向的语义空间中。(3) mPLUG-2 使⽤额外的交叉注意⼒模块将通⽤视觉表示 (universal vision representation) 与原始细粒度视觉表示融合。详细的模块设计如图 2 所示。最后,mPLUG-2 的不同模块通过任务和模态指令 (task and modality instructions) 在单模态和跨模态任务上进⾏联合预训练。在推理过程中,mPLUG-2 可以使⽤模块化 Transformer 架构为各种单模态和交叉模态任务选择不同的模块。

mPLUG-2 的卓越性能
mPLUG-2 在 30 多个有挑战性的单模态和跨模态理解和⽣成基准测试中评估了 mPLUG-2 的性能,它在相似的模型大小和数据规模下取得了最先进或有竞争力的结果。

这里展示几个有代表性的实验结果:

多模态任务

研究者在多模态理解型和生成型的相关任务上评测 mPLUG-2 的性能,包括: multimodal retrieval、question answering、visual grounding 和 captioning 等,实验结果表明其可以得到 SOTA 的性能。





纯语言任务
研究者发现,相比于专⽤语⾔预训练模型和其他多模态预训练模型,mPLUG-2 在 GLUE benchmark 上可以取得可⽐的性能。实验结果证明了使⽤ universal layer 做模态协作的有效性。


纯视觉任务

研究者发现,mPLUG-2 在纯视觉任务上,如行为识别,图像分类任务,可以取得具有竞争力的性能。



消融:用于模态协作的通用层 (universal layer) 的作用有多大?

研究者在 baseline 的基础上,添加他们设计的通⽤层 universal layer。可以发现,通过鼓励模态协作,在单模态或者跨模态任务上,都会有明显的性能提升,证明了通⽤层 universal layer 的有效性。



另外,研究者还发现,⿎励模态协作的通⽤层 universal layer 可以得到更小的 modality gap。


更多技术和实验细节请参阅原论⽂。

相关文章
|
1月前
|
机器学习/深度学习 编解码 人工智能
全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA
【2月更文挑战第17天】全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA
42 2
全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA
|
1月前
|
机器学习/深度学习 人工智能 算法
AI大模型学习理论基础
本文探讨了AI大模型学习的理论基础,包括深度学习(模拟神经元工作原理,通过多层非线性变换提取特征)、神经网络结构(如前馈、循环和卷积网络)、训练方法(监督、无监督、强化学习)、优化算法(如SGD及其变种)、正则化(L1、L2和dropout防止过拟合)以及迁移学习(利用预训练模型加速新任务学习)。这些理论基础推动了AI大模型在复杂任务中的应用和人工智能的发展。
|
1月前
|
机器学习/深度学习 数据采集 人工智能
ICLR 2024:RLHF有了通用平台和基准,天大开源,专攻现实决策场景
【4月更文挑战第21天】天津大学在ICLR 2024发布RLHF新框架Uni-RLHF,以人类反馈引导强化学习,降低奖励函数设计需求,适应现实决策场景。该框架提供通用平台和基准,支持大规模众包注释,促进研究。尽管面临准确捕捉人类反馈、数据质量和多任务处理等挑战,但开源特性加速了学术进步。[链接](https://arxiv.org/abs/2402.02423)
34 0
|
1月前
|
机器学习/深度学习 自然语言处理 并行计算
【机器学习】“注目未来:自注意力机制的巧妙设计引领自然语言处理新潮流“
【机器学习】“注目未来:自注意力机制的巧妙设计引领自然语言处理新潮流“
64 0
|
11月前
|
机器学习/深度学习 存储 编解码
【OpenVI—论文解读系列】ICCV | 开源融合不确定度的自监督MVS框架
论文链接:Digging into Uncertainty inSelf-supervised Multi-view Stereo 多视图立体视觉作为计算机视觉领域的一项基本的任务,利用同一场景在不同视角下的多张图片来重构3D的信息。自监督多视角立体视觉(MVS)近年来取得了显著的进展。然而,以往的方法缺乏对自监督MVS中pretext任务提供的监督信号进行有效性的全面解释。本文首次提出在自监督MVS中估计认知不确定性(epistemic uncertainty)。
255 5
|
机器学习/深度学习 人工智能 编解码
逐步揭开模型面纱!首篇深度视觉建模中的可解释AI综述
深度视觉模型在高风险领域有着广泛的应用。因此它们的黑匣子性质目前吸引了研究界的极大兴趣。论文在《可解释的人工智能》中进行了第一次调查,重点是解释深度视觉模型的方法和指标。涵盖了最新技术的里程碑式贡献,论文不仅提供了现有技术的分类组织,还挖掘了一系列评估指标,并将其作为模型解释的不同特性的衡量标准进行整理。在深入讨论当前趋势的同时,论文还讨论了这一研究方向的挑战和未来途径。
逐步揭开模型面纱!首篇深度视觉建模中的可解释AI综述
|
机器学习/深度学习 设计模式 计算机视觉
清华大学提出ACmix | 这才是Self-Attention与CNN正确的融合范式,性能速度全面提升(二)
清华大学提出ACmix | 这才是Self-Attention与CNN正确的融合范式,性能速度全面提升(二)
382 0
|
机器学习/深度学习 计算机视觉 容器
清华大学提出ACmix | 这才是Self-Attention与CNN正确的融合范式,性能速度全面提升(一)
清华大学提出ACmix | 这才是Self-Attention与CNN正确的融合范式,性能速度全面提升(一)
534 0
|
机器学习/深度学习 算法 自动驾驶
NeurIPS 2022 Oral | 离线强化学习新范式!京东科技&清华提出解耦式学习算法
NeurIPS 2022 Oral | 离线强化学习新范式!京东科技&清华提出解耦式学习算法
138 0
|
机器学习/深度学习 存储 缓存
VLDB 2022最佳研究论文:克服通信挑战,新框架SANCUS实现GNN高效训练
VLDB 2022最佳研究论文:克服通信挑战,新框架SANCUS实现GNN高效训练