混合专家更有主见了，能感知多模态分情况行事，Meta提出模态感知型专家混合-阿里云开发者社区

混合专家更有主见了，能感知多模态分情况行事，Meta提出模态感知型专家混合

2024-09-03 83 发布于北京

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【9月更文挑战第3天】在人工智能领域，多模态学习备受关注。Meta AI提出了一种名为模态感知型专家混合（MoMa）的新架构，通过模态特定的专家模块组合处理图像和文本，提升了多模态早期融合语言模型的预训练效率。MoMa在1万亿令牌训练下，实现了3.7倍的FLOPs节省，优于标准混合专家方案。尽管存在因果推理性能和负载平衡方面的局限性，MoMa仍为多模态预训练提供了高效新方法。论文详细内容见：https://arxiv.org/pdf/2407.21770

在人工智能领域，多模态学习一直是一个备受关注的研究方向。最近，Meta AI的研究人员提出了一种名为模态感知型专家混合（MoMa）的新型架构，旨在提高多模态早期融合语言模型的预训练效率。

MoMa是一种基于模态感知的混合专家（MoE）架构，专门设计用于预训练混合模态、早期融合的语言模型。它通过将专家模块划分为模态特定的组，以任意顺序处理图像和文本。这些组专门处理指定的令牌，同时在每个组内使用学习到的路由来保持语义上的信息适应性。

研究人员的实验结果表明，通过这种模态特定的参数分配，MoMa在预训练效率方面取得了显著的提升。在1万亿令牌的训练预算下，MoMa 1.4B模型（包含4个文本专家和4个图像专家）实现了令人印象深刻的FLOPs节省：总体上为3.7倍，文本处理为2.6倍，图像处理为5.2倍，相比于具有相同计算量的密集基线，通过预训练损失进行测量。

与标准混合专家（MoE）相比，MoMa在效率方面表现出色。标准混合专家使用8个混合模态专家，实现了总体上3倍的FLOPs节省（文本为3倍，图像为2.8倍）。而MoMa通过将混合专家与深度混合（MoD）相结合，进一步提高了预训练FLOPs的节省，总体上达到了4.2倍（文本为3.4倍，图像为5.3倍）。

然而，MoMa也存在一些局限性。首先，尽管它在预训练效率方面表现出色，但在因果推理方面，由于对路由器准确性的增加敏感性，性能可能会受到影响。其次，MoMa目前的实现依赖于数据集的令牌混合比例与模型中的专家混合比例相匹配，以保持负载平衡。这可能限制了其在实际应用中的灵活性。

尽管存在这些局限性，MoMa的提出为多模态早期融合语言模型的预训练提供了一种新的、高效的方法。未来，研究人员可以进一步探索如何改进MoMa的架构和训练方法，以克服这些局限性，并提高其在实际应用中的性能。

论文地址：https://arxiv.org/pdf/2407.21770

混合专家更有主见了，能感知多模态分情况行事，Meta提出模态感知型专家混合

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

混合专家更有主见了，能感知多模态分情况行事，Meta提出模态感知型专家混合

热门文章

最新文章

相关课程

相关电子书

相关实验场景