150B token从头训练，普林斯顿Meta发布完全可微MoE架构Lory-阿里云开发者社区

150B token从头训练，普林斯顿Meta发布完全可微MoE架构Lory

2024-05-28 130 发布于北京

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【5月更文挑战第27天】普林斯顿Meta团队推出Lory，这是一种完全可微的MoE语言模型架构，用于解决大模型的效率问题。Lory采用因果分段路由和相似性批处理，提高专家合并效率并促进专业化。在150B token的预训练后，Lory在困惑度和下游任务上优于密集模型，显示了可微MoE架构的潜力。不过，Lory仍有优化空间，包括专家选择策略、计算效率和实际应用验证。[论文链接](https://arxiv.org/abs/2405.03133)

在人工智能领域，尤其是自然语言处理（NLP）中，大型语言模型的预训练一直是研究的热点。这些模型通过在海量数据上进行训练，能够学习到丰富的语言知识和模式，进而在多种下游任务中展现出卓越的性能。然而，随着模型规模的不断扩大，训练和推理的效率问题逐渐凸显。为了解决这一问题，研究者们提出了一种名为“专家混合”（Mixture-of-Experts，简称MoE）的模型架构。MoE模型通过引入多个专家网络，并在每一层中根据输入数据的特点动态选择激活的专家，从而在保持模型规模的同时，提高了训练和推理的效率。

普林斯顿大学与Meta AI的研究人员合作，提出了一种全新的MoE模型架构——Lory。这一架构在MoE的基础上进行了重大创新，首次实现了完全可微分的专家混合，这一特性对于模型的预训练尤为重要。Lory模型通过两个关键技术实现了突破：一是因果分段路由策略，二是相似性基础的数据批处理方法。这些技术的引入，使得Lory在保持自回归语言模型特性的同时，显著提高了专家合并操作的效率，并鼓励了专家在训练实例中的专业化。

Lory模型的因果分段路由策略，通过将输入序列分割成多个固定长度的段落，并以前一个段落的信息来确定路由权重和计算下一个段落的合并专家。这种策略不仅保留了语言模型的自回归特性，而且使得合并操作更加高效。在推理过程中，模型可以简单地使用提示来做出单一的路由决策，从而实现与密集模型相当的简单性和计算效率。

相似性基础的数据批处理方法，通过将语义相似的文档组合成连续的段落，鼓励专家在特定领域或主题上进行专业化。这种方法受到了先前研究的启发，旨在改善语言模型跨文档边界的推理能力，而在Lory中，这种方法被证明在专家路由训练中更为有效。

研究人员对Lory模型进行了大规模的预训练实验，使用了150B个token从头开始训练，模型规模从0.3B到1.5B的活跃参数，并设置了8、16或32个专家。实验结果表明，Lory模型在困惑度（perplexity）和多种下游任务上，显著优于参数匹配的密集模型。具体来说，在困惑度上的性能提升了13.9%，在下游任务上的性能提升在1.5%到11.1%之间。值得注意的是，尽管Lory采用的是段落级别的路由，但其性能与采用最先进的、非可微分的、基于token的MoE模型相比仍具有竞争力。

此外，研究还发现，Lory模型训练出的专家能够在没有监督的情况下捕获领域级别的专业化特征。这一点与传统的基于token的MoE模型形成鲜明对比，后者通常只在不同领域中表现出局部模式。Lory模型的这一特性，不仅展示了完全可微分MoE架构在语言模型预训练中的潜力，也为未来的研究指明了方向。

然而，Lory模型也存在一些局限性。首先，作为一种新兴的架构，Lory在实际应用中的表现还需要在更广泛的任务和数据集上进行验证。其次，尽管Lory在专家专业化方面取得了显著进展，但如何进一步优化专家的选择和合并策略，以实现更高的效率和性能，仍是未来研究需要解决的问题。此外，Lory模型的计算开销相比传统密集模型仍然较高，尤其是在模型规模进一步扩大时，如何平衡模型规模与计算资源之间的关系，也是研究者需要考虑的问题。

论文地址：https://arxiv.org/abs/2405.03133

150B token从头训练，普林斯顿Meta发布完全可微MoE架构Lory

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

150B token从头训练，普林斯顿Meta发布完全可微MoE架构Lory

热门文章

最新文章

相关课程

相关电子书

相关实验场景