混合专家更有主见了,能感知多模态分情况行事,Meta提出模态感知型专家混合

简介: 【9月更文挑战第3天】在人工智能领域,多模态学习备受关注。Meta AI提出了一种名为模态感知型专家混合(MoMa)的新架构,通过模态特定的专家模块组合处理图像和文本,提升了多模态早期融合语言模型的预训练效率。MoMa在1万亿令牌训练下,实现了3.7倍的FLOPs节省,优于标准混合专家方案。尽管存在因果推理性能和负载平衡方面的局限性,MoMa仍为多模态预训练提供了高效新方法。论文详细内容见:https://arxiv.org/pdf/2407.21770

在人工智能领域,多模态学习一直是一个备受关注的研究方向。最近,Meta AI的研究人员提出了一种名为模态感知型专家混合(MoMa)的新型架构,旨在提高多模态早期融合语言模型的预训练效率。

MoMa是一种基于模态感知的混合专家(MoE)架构,专门设计用于预训练混合模态、早期融合的语言模型。它通过将专家模块划分为模态特定的组,以任意顺序处理图像和文本。这些组专门处理指定的令牌,同时在每个组内使用学习到的路由来保持语义上的信息适应性。

研究人员的实验结果表明,通过这种模态特定的参数分配,MoMa在预训练效率方面取得了显著的提升。在1万亿令牌的训练预算下,MoMa 1.4B模型(包含4个文本专家和4个图像专家)实现了令人印象深刻的FLOPs节省:总体上为3.7倍,文本处理为2.6倍,图像处理为5.2倍,相比于具有相同计算量的密集基线,通过预训练损失进行测量。

与标准混合专家(MoE)相比,MoMa在效率方面表现出色。标准混合专家使用8个混合模态专家,实现了总体上3倍的FLOPs节省(文本为3倍,图像为2.8倍)。而MoMa通过将混合专家与深度混合(MoD)相结合,进一步提高了预训练FLOPs的节省,总体上达到了4.2倍(文本为3.4倍,图像为5.3倍)。

然而,MoMa也存在一些局限性。首先,尽管它在预训练效率方面表现出色,但在因果推理方面,由于对路由器准确性的增加敏感性,性能可能会受到影响。其次,MoMa目前的实现依赖于数据集的令牌混合比例与模型中的专家混合比例相匹配,以保持负载平衡。这可能限制了其在实际应用中的灵活性。

尽管存在这些局限性,MoMa的提出为多模态早期融合语言模型的预训练提供了一种新的、高效的方法。未来,研究人员可以进一步探索如何改进MoMa的架构和训练方法,以克服这些局限性,并提高其在实际应用中的性能。

论文地址:https://arxiv.org/pdf/2407.21770

目录
打赏
0
3
3
2
389
分享
相关文章
LongDocURL:中科院联合阿里推出多模态长文档理解基准数据集,用于评估模型对复杂文档分析与推理的能力
LongDocURL 是由中科院与淘天集团联合推出的多模态长文档理解基准数据集,涵盖 2,325 个问答对,支持复杂文档的理解、推理和定位任务。
186 77
LongDocURL:中科院联合阿里推出多模态长文档理解基准数据集,用于评估模型对复杂文档分析与推理的能力
VARGPT:将视觉理解与生成统一在一个模型中,北大推出支持混合模态输入与输出的多模态统一模型
VARGPT是北京大学推出的多模态大语言模型,专注于视觉理解和生成任务,支持混合模态输入和高质量图像生成。
90 22
VideoWorld:字节开源自回归视频生成模型,支持输入视频指导AI生成视频!弥补文本生成视频的短板
VideoWorld 是由字节跳动、北京交通大学和中国科学技术大学联合推出的自回归视频生成模型,能够从未标注的视频数据中学习复杂知识,支持长期推理和规划任务。
366 8
VideoWorld:字节开源自回归视频生成模型,支持输入视频指导AI生成视频!弥补文本生成视频的短板
算法、系统和应用,三个视角全面读懂混合专家(MoE)
【8月更文挑战第17天】在AI领域,混合专家(MoE)模型以其独特结构成为推动大型语言模型发展的关键技术。MoE通过动态选择专家网络处理输入,实现条件计算。稀疏型MoE仅激活部分专家以减少计算负担;软MoE则加权合并专家输出提升模型稳定性。系统层面,MoE优化计算、通信与存储,利用并行化策略提高效率。在NLP、CV、推荐系统等领域展现强大应用潜力,但仍面临训练稳定性、可解释性等挑战。[论文链接: https://arxiv.org/pdf/2407.06204]
269 63
[大语言模型-论文精读] 阿里巴巴-通过多阶段对比学习实现通用文本嵌入
[大语言模型-论文精读] 阿里巴巴-通过多阶段对比学习实现通用文本嵌入
98 1
使用MergeKit创建自己的专家混合模型:将多个模型组合成单个MoE
MoE架构通过MergeKit实现新突破,允许整合预训练模型创建frankenMoEs,如FrankenMoE,区别于头开始训练的MoEs。MergeKit工具支持选择专家模型,定义正负提示,并生成MoE配置。
335 2
大模型架构将迎来除 Transformer 之外的突破
大模型架构将迎来除 Transformer 之外的突破
161 2
大模型架构将迎来除 Transformer 之外的突破
10亿参数、多项SOTA,智源开源视觉基础模型EVA
10亿参数、多项SOTA,智源开源视觉基础模型EVA
405 0

热门文章

最新文章