在人工智能领域,尤其是自然语言处理(NLP)中,大型语言模型的预训练一直是研究的热点。这些模型通过在海量数据上进行训练,能够学习到丰富的语言知识和模式,进而在多种下游任务中展现出卓越的性能。然而,随着模型规模的不断扩大,训练和推理的效率问题逐渐凸显。为了解决这一问题,研究者们提出了一种名为“专家混合”(Mixture-of-Experts,简称MoE)的模型架构。MoE模型通过引入多个专家网络,并在每一层中根据输入数据的特点动态选择激活的专家,从而在保持模型规模的同时,提高了训练和推理的效率。
普林斯顿大学与Meta AI的研究人员合作,提出了一种全新的MoE模型架构——Lory。这一架构在MoE的基础上进行了重大创新,首次实现了完全可微分的专家混合,这一特性对于模型的预训练尤为重要。Lory模型通过两个关键技术实现了突破:一是因果分段路由策略,二是相似性基础的数据批处理方法。这些技术的引入,使得Lory在保持自回归语言模型特性的同时,显著提高了专家合并操作的效率,并鼓励了专家在训练实例中的专业化。
Lory模型的因果分段路由策略,通过将输入序列分割成多个固定长度的段落,并以前一个段落的信息来确定路由权重和计算下一个段落的合并专家。这种策略不仅保留了语言模型的自回归特性,而且使得合并操作更加高效。在推理过程中,模型可以简单地使用提示来做出单一的路由决策,从而实现与密集模型相当的简单性和计算效率。
相似性基础的数据批处理方法,通过将语义相似的文档组合成连续的段落,鼓励专家在特定领域或主题上进行专业化。这种方法受到了先前研究的启发,旨在改善语言模型跨文档边界的推理能力,而在Lory中,这种方法被证明在专家路由训练中更为有效。
研究人员对Lory模型进行了大规模的预训练实验,使用了150B个token从头开始训练,模型规模从0.3B到1.5B的活跃参数,并设置了8、16或32个专家。实验结果表明,Lory模型在困惑度(perplexity)和多种下游任务上,显著优于参数匹配的密集模型。具体来说,在困惑度上的性能提升了13.9%,在下游任务上的性能提升在1.5%到11.1%之间。值得注意的是,尽管Lory采用的是段落级别的路由,但其性能与采用最先进的、非可微分的、基于token的MoE模型相比仍具有竞争力。
此外,研究还发现,Lory模型训练出的专家能够在没有监督的情况下捕获领域级别的专业化特征。这一点与传统的基于token的MoE模型形成鲜明对比,后者通常只在不同领域中表现出局部模式。Lory模型的这一特性,不仅展示了完全可微分MoE架构在语言模型预训练中的潜力,也为未来的研究指明了方向。
然而,Lory模型也存在一些局限性。首先,作为一种新兴的架构,Lory在实际应用中的表现还需要在更广泛的任务和数据集上进行验证。其次,尽管Lory在专家专业化方面取得了显著进展,但如何进一步优化专家的选择和合并策略,以实现更高的效率和性能,仍是未来研究需要解决的问题。此外,Lory模型的计算开销相比传统密集模型仍然较高,尤其是在模型规模进一步扩大时,如何平衡模型规模与计算资源之间的关系,也是研究者需要考虑的问题。