150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory

简介: 【5月更文挑战第27天】普林斯顿Meta团队推出Lory,这是一种完全可微的MoE语言模型架构,用于解决大模型的效率问题。Lory采用因果分段路由和相似性批处理,提高专家合并效率并促进专业化。在150B token的预训练后,Lory在困惑度和下游任务上优于密集模型,显示了可微MoE架构的潜力。不过,Lory仍有优化空间,包括专家选择策略、计算效率和实际应用验证。[论文链接](https://arxiv.org/abs/2405.03133)

在人工智能领域,尤其是自然语言处理(NLP)中,大型语言模型的预训练一直是研究的热点。这些模型通过在海量数据上进行训练,能够学习到丰富的语言知识和模式,进而在多种下游任务中展现出卓越的性能。然而,随着模型规模的不断扩大,训练和推理的效率问题逐渐凸显。为了解决这一问题,研究者们提出了一种名为“专家混合”(Mixture-of-Experts,简称MoE)的模型架构。MoE模型通过引入多个专家网络,并在每一层中根据输入数据的特点动态选择激活的专家,从而在保持模型规模的同时,提高了训练和推理的效率。

普林斯顿大学与Meta AI的研究人员合作,提出了一种全新的MoE模型架构——Lory。这一架构在MoE的基础上进行了重大创新,首次实现了完全可微分的专家混合,这一特性对于模型的预训练尤为重要。Lory模型通过两个关键技术实现了突破:一是因果分段路由策略,二是相似性基础的数据批处理方法。这些技术的引入,使得Lory在保持自回归语言模型特性的同时,显著提高了专家合并操作的效率,并鼓励了专家在训练实例中的专业化。

Lory模型的因果分段路由策略,通过将输入序列分割成多个固定长度的段落,并以前一个段落的信息来确定路由权重和计算下一个段落的合并专家。这种策略不仅保留了语言模型的自回归特性,而且使得合并操作更加高效。在推理过程中,模型可以简单地使用提示来做出单一的路由决策,从而实现与密集模型相当的简单性和计算效率。

相似性基础的数据批处理方法,通过将语义相似的文档组合成连续的段落,鼓励专家在特定领域或主题上进行专业化。这种方法受到了先前研究的启发,旨在改善语言模型跨文档边界的推理能力,而在Lory中,这种方法被证明在专家路由训练中更为有效。

研究人员对Lory模型进行了大规模的预训练实验,使用了150B个token从头开始训练,模型规模从0.3B到1.5B的活跃参数,并设置了8、16或32个专家。实验结果表明,Lory模型在困惑度(perplexity)和多种下游任务上,显著优于参数匹配的密集模型。具体来说,在困惑度上的性能提升了13.9%,在下游任务上的性能提升在1.5%到11.1%之间。值得注意的是,尽管Lory采用的是段落级别的路由,但其性能与采用最先进的、非可微分的、基于token的MoE模型相比仍具有竞争力。

此外,研究还发现,Lory模型训练出的专家能够在没有监督的情况下捕获领域级别的专业化特征。这一点与传统的基于token的MoE模型形成鲜明对比,后者通常只在不同领域中表现出局部模式。Lory模型的这一特性,不仅展示了完全可微分MoE架构在语言模型预训练中的潜力,也为未来的研究指明了方向。

然而,Lory模型也存在一些局限性。首先,作为一种新兴的架构,Lory在实际应用中的表现还需要在更广泛的任务和数据集上进行验证。其次,尽管Lory在专家专业化方面取得了显著进展,但如何进一步优化专家的选择和合并策略,以实现更高的效率和性能,仍是未来研究需要解决的问题。此外,Lory模型的计算开销相比传统密集模型仍然较高,尤其是在模型规模进一步扩大时,如何平衡模型规模与计算资源之间的关系,也是研究者需要考虑的问题。

论文地址:https://arxiv.org/abs/2405.03133

目录
打赏
0
1
1
0
396
分享
相关文章
行为检测代码(一):超详细介绍C3D架构训练+测试步骤
这篇文章详细介绍了C3D架构在行为检测领域的应用,包括训练和测试步骤,使用UCF101数据集进行演示。
201 1
行为检测代码(一):超详细介绍C3D架构训练+测试步骤
超越 DeepSeek-R1!Seed-Thinking-v1.5:字节跳动开源MoE架构推理模型,200B总参数仅激活20B,推理效率提升5倍
字节跳动推出的200B参数混合专家模型,在AIME/Codeforces/GPQA等基准测试中实现多项突破,采用强化学习框架与流式推理系统,支持7大领域复杂推理任务。
114 13
超越 DeepSeek-R1!Seed-Thinking-v1.5:字节跳动开源MoE架构推理模型,200B总参数仅激活20B,推理效率提升5倍
Kimi开源MoE架构多模态推理模型,小激活参数,大能量!
最近Moonshot AI推出了 Kimi-VL,这是一个高效的开源混合专家(MoE)视觉-语言模型(VLM),它提供了先进的多模态推理、长上下文理解以及强大的代理能力——所有这些功能都只需激活其语言解码器中的2.8B参数(Kimi-VL-A3B)。
55 1
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
本文探讨了如何通过技术手段混合使用AMD与NVIDIA GPU集群以支持PyTorch分布式训练。面对CUDA与ROCm框架互操作性不足的问题,文章提出利用UCC和UCX等统一通信框架实现高效数据传输,并在异构Kubernetes集群中部署任务。通过解决轻度与强度异构环境下的挑战,如计算能力不平衡、内存容量差异及通信性能优化,文章展示了如何无需重构代码即可充分利用异构硬件资源。尽管存在RDMA验证不足、通信性能次优等局限性,但该方案为最大化GPU资源利用率、降低供应商锁定提供了可行路径。源代码已公开,供读者参考实践。
74 3
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
Meta开源多模态AI新王炸!Llama 4:MoE架构仅用17B参数碾压Gemma 3,支持1000万token上下文
Meta最新开源的Llama 4系列多模态AI模型,采用混合专家架构,支持200种语言处理,最高达2万亿参数规模,在语言理解、图像分析和代码生成等任务中展现突破性性能。
79 0
Meta开源多模态AI新王炸!Llama 4:MoE架构仅用17B参数碾压Gemma 3,支持1000万token上下文
揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化
【8月更文挑战第23天】苹果公司发布了一份47页的研究文档,深入解析了其在智能基础语言模型领域的探索与突破。文档揭示了苹果在此领域的雄厚实力,并分享了其独特的混合架构设计,该设计融合了Transformer与RNN的优势,显著提高了模型处理序列数据的效能与表现力。然而,这种架构也带来了诸如权重平衡与资源消耗等挑战。苹果利用海量、多样的高质量数据集训练模型,但确保数据质量及处理噪声仍需克服。此外,苹果采取了自监督与无监督学习相结合的高效训练策略,以增强模型的泛化与稳健性,但仍需解决预训练任务选择及超参数调优等问题。
214 66
MeteoRA:多任务AI框架革新!动态切换+MoE架构,推理效率提升200%
MeteoRA 是南京大学推出的多任务嵌入框架,基于 LoRA 和 MoE 架构,支持动态任务切换与高效推理。
108 3
记忆层增强的 Transformer 架构:通过可训练键值存储提升 LLM 性能的创新方法
Meta研究团队开发的记忆层技术通过替换Transformer中的前馈网络(FFN),显著提升了大语言模型的性能。记忆层使用可训练的固定键值对,规模达百万级别,仅计算最相似的前k个键值,优化了计算效率。实验显示,记忆层使模型在事实准确性上提升超100%,且在代码生成和通用知识领域表现优异,媲美4倍计算资源训练的传统模型。这一创新对下一代AI架构的发展具有重要意义。
151 11
记忆层增强的 Transformer 架构:通过可训练键值存储提升 LLM 性能的创新方法
清华研究登Nature,首创全前向智能光计算训练架构,戴琼海、方璐领衔
【8月更文挑战第30天】清华大学研究人员在《自然》杂志上发表了一项开创性成果,提出了一种全前向智能光计算训练架构,解决了传统光学AI方法依赖电子计算机模拟和优化的问题,实现了光学系统的自学习和自设计。该架构通过将光学系统映射到参数化神经网络中,消除了反向传播需求,展示了在多个领域的广泛应用前景,如深度光学神经网络和高分辨率散射成像等。这一成果为光学AI的发展开辟了新道路,但实际应用中仍需克服一些挑战。论文详情见:https://www.nature.com/articles/s41586-024-07687-4
111 2
云原生架构下的高性能计算解决方案:利用分布式计算资源加速机器学习训练
【8月更文第19天】随着大数据和人工智能技术的发展,机器学习模型的训练数据量和复杂度都在迅速增长。传统的单机训练方式已经无法满足日益增长的计算需求。云原生架构为高性能计算提供了新的可能性,通过利用分布式计算资源,可以在短时间内完成大规模数据集的训练任务。本文将探讨如何在云原生环境下搭建高性能计算平台,并展示如何使用 PyTorch 和 TensorFlow 这样的流行框架进行分布式训练。
178 2

热门文章

最新文章