混合专家更有主见了,能感知多模态分情况行事,Meta提出模态感知型专家混合

简介: 【9月更文挑战第3天】在人工智能领域,多模态学习备受关注。Meta AI提出了一种名为模态感知型专家混合(MoMa)的新架构,通过模态特定的专家模块组合处理图像和文本,提升了多模态早期融合语言模型的预训练效率。MoMa在1万亿令牌训练下,实现了3.7倍的FLOPs节省,优于标准混合专家方案。尽管存在因果推理性能和负载平衡方面的局限性,MoMa仍为多模态预训练提供了高效新方法。论文详细内容见:https://arxiv.org/pdf/2407.21770

在人工智能领域,多模态学习一直是一个备受关注的研究方向。最近,Meta AI的研究人员提出了一种名为模态感知型专家混合(MoMa)的新型架构,旨在提高多模态早期融合语言模型的预训练效率。

MoMa是一种基于模态感知的混合专家(MoE)架构,专门设计用于预训练混合模态、早期融合的语言模型。它通过将专家模块划分为模态特定的组,以任意顺序处理图像和文本。这些组专门处理指定的令牌,同时在每个组内使用学习到的路由来保持语义上的信息适应性。

研究人员的实验结果表明,通过这种模态特定的参数分配,MoMa在预训练效率方面取得了显著的提升。在1万亿令牌的训练预算下,MoMa 1.4B模型(包含4个文本专家和4个图像专家)实现了令人印象深刻的FLOPs节省:总体上为3.7倍,文本处理为2.6倍,图像处理为5.2倍,相比于具有相同计算量的密集基线,通过预训练损失进行测量。

与标准混合专家(MoE)相比,MoMa在效率方面表现出色。标准混合专家使用8个混合模态专家,实现了总体上3倍的FLOPs节省(文本为3倍,图像为2.8倍)。而MoMa通过将混合专家与深度混合(MoD)相结合,进一步提高了预训练FLOPs的节省,总体上达到了4.2倍(文本为3.4倍,图像为5.3倍)。

然而,MoMa也存在一些局限性。首先,尽管它在预训练效率方面表现出色,但在因果推理方面,由于对路由器准确性的增加敏感性,性能可能会受到影响。其次,MoMa目前的实现依赖于数据集的令牌混合比例与模型中的专家混合比例相匹配,以保持负载平衡。这可能限制了其在实际应用中的灵活性。

尽管存在这些局限性,MoMa的提出为多模态早期融合语言模型的预训练提供了一种新的、高效的方法。未来,研究人员可以进一步探索如何改进MoMa的架构和训练方法,以克服这些局限性,并提高其在实际应用中的性能。

论文地址:https://arxiv.org/pdf/2407.21770

目录
相关文章
|
24天前
|
机器学习/深度学习
NeurIPS 2024:标签噪声下图神经网络有了首个综合基准库,还开源
NoisyGL是首个针对标签噪声下图神经网络(GLN)的综合基准库,由浙江大学和阿里巴巴集团的研究人员开发。该基准库旨在解决现有GLN研究中因数据集选择、划分及预处理技术差异导致的缺乏统一标准问题,提供了一个公平、用户友好的平台,支持多维分析,有助于深入理解GLN方法在处理标签噪声时的表现。通过17种代表性方法在8个常用数据集上的广泛实验,NoisyGL揭示了多个关键发现,推动了GLN领域的进步。尽管如此,NoisyGL目前主要适用于同质图,对异质图的支持有限。
38 7
|
2月前
|
自然语言处理 达摩院 数据挖掘
[大语言模型-论文精读] 阿里巴巴-通过多阶段对比学习实现通用文本嵌入
[大语言模型-论文精读] 阿里巴巴-通过多阶段对比学习实现通用文本嵌入
55 1
|
4月前
|
存储 人工智能 自然语言处理
算法、系统和应用,三个视角全面读懂混合专家(MoE)
【8月更文挑战第17天】在AI领域,混合专家(MoE)模型以其独特结构成为推动大型语言模型发展的关键技术。MoE通过动态选择专家网络处理输入,实现条件计算。稀疏型MoE仅激活部分专家以减少计算负担;软MoE则加权合并专家输出提升模型稳定性。系统层面,MoE优化计算、通信与存储,利用并行化策略提高效率。在NLP、CV、推荐系统等领域展现强大应用潜力,但仍面临训练稳定性、可解释性等挑战。[论文链接: https://arxiv.org/pdf/2407.06204]
217 63
|
4月前
|
数据采集 人工智能 监控
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
Label-LLM 是一款专为大模型训练设计的多模态文本对话标注工具,支持团队协作,让标注工作变得简单高效。它不仅涵盖丰富的任务类型,如回答采集、偏好收集和内容评估等,还支持多模态数据标注,包括图像、视频和音频。Label-LLM具备预标注载入功能,能大幅提升工作效率,并提供全方位的任务管理与可视化分析,确保标注质量。快来体验这款强大的标注平台吧![部署文档](https://github.com/opendatalab/LabelLLM)
823 0
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
|
6月前
|
机器学习/深度学习 计算机视觉 人工智能
用基础模型指导特征传播,首个泛化型图像匹配器OmniGlue搞定未见过域
【6月更文挑战第3天】研究人员提出OmniGlue,首个以泛化为中心的图像匹配器,利用基础模型DINOv2的广泛知识和关键点位置引导的注意力机制,提升未见过图像域的匹配性能。在7个不同图像域的实验中,OmniGlue相对其他模型表现出20.9%的相对增益,优于LightGlue 9.5%。尽管有改进空间,OmniGlue标志着图像匹配技术泛化能力的重要进步。论文链接:https://arxiv.org/pdf/2405.12979
99 2
|
7月前
|
测试技术 网络架构 C++
使用MergeKit创建自己的专家混合模型:将多个模型组合成单个MoE
MoE架构通过MergeKit实现新突破,允许整合预训练模型创建frankenMoEs,如FrankenMoE,区别于头开始训练的MoEs。MergeKit工具支持选择专家模型,定义正负提示,并生成MoE配置。
272 2
|
机器学习/深度学习 人工智能 自然语言处理
USB:首个将视觉、语言和音频分类任务进行统一的半监督分类学习基准
USB:首个将视觉、语言和音频分类任务进行统一的半监督分类学习基准
139 0
USB:首个将视觉、语言和音频分类任务进行统一的半监督分类学习基准
|
机器学习/深度学习 人工智能 算法
一文尽览!弱监督语义/实例/全景分割全面调研(2022最新综述)(上)
今天分享一篇上交投稿TPAMI的文章,论文很全面的调研了广义上的弱监督分割算法,又涵盖了语义、实例和全景三个主流的分割任务。特别是基于目标框的弱监督分割算法,未来有很大的研究价值和落地价值,相关算法如BoxInst、DiscoBox和ECCV2022的BoxLevelset已经证明了,只用目标框可以实现可靠的分割性能。论文很赞,内容很扎实,分割方向的同学一定不要错过!
一文尽览!弱监督语义/实例/全景分割全面调研(2022最新综述)(上)
|
机器学习/深度学习 人工智能 算法
一文尽览!弱监督语义/实例/全景分割全面调研(2022最新综述)(下)
今天分享一篇上交投稿TPAMI的文章,论文很全面的调研了广义上的弱监督分割算法,又涵盖了语义、实例和全景三个主流的分割任务。特别是基于目标框的弱监督分割算法,未来有很大的研究价值和落地价值,相关算法如BoxInst、DiscoBox和ECCV2022的BoxLevelset已经证明了,只用目标框可以实现可靠的分割性能。论文很赞,内容很扎实,分割方向的同学一定不要错过!
一文尽览!弱监督语义/实例/全景分割全面调研(2022最新综述)(下)
|
人工智能 计算机视觉
通用视觉GPT时刻来临?智源推出通用分割模型SegGPT
通用视觉GPT时刻来临?智源推出通用分割模型SegGPT
152 0