150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory

简介: 【5月更文挑战第27天】普林斯顿Meta团队推出Lory,这是一种完全可微的MoE语言模型架构,用于解决大模型的效率问题。Lory采用因果分段路由和相似性批处理,提高专家合并效率并促进专业化。在150B token的预训练后,Lory在困惑度和下游任务上优于密集模型,显示了可微MoE架构的潜力。不过,Lory仍有优化空间,包括专家选择策略、计算效率和实际应用验证。[论文链接](https://arxiv.org/abs/2405.03133)

在人工智能领域,尤其是自然语言处理(NLP)中,大型语言模型的预训练一直是研究的热点。这些模型通过在海量数据上进行训练,能够学习到丰富的语言知识和模式,进而在多种下游任务中展现出卓越的性能。然而,随着模型规模的不断扩大,训练和推理的效率问题逐渐凸显。为了解决这一问题,研究者们提出了一种名为“专家混合”(Mixture-of-Experts,简称MoE)的模型架构。MoE模型通过引入多个专家网络,并在每一层中根据输入数据的特点动态选择激活的专家,从而在保持模型规模的同时,提高了训练和推理的效率。

普林斯顿大学与Meta AI的研究人员合作,提出了一种全新的MoE模型架构——Lory。这一架构在MoE的基础上进行了重大创新,首次实现了完全可微分的专家混合,这一特性对于模型的预训练尤为重要。Lory模型通过两个关键技术实现了突破:一是因果分段路由策略,二是相似性基础的数据批处理方法。这些技术的引入,使得Lory在保持自回归语言模型特性的同时,显著提高了专家合并操作的效率,并鼓励了专家在训练实例中的专业化。

Lory模型的因果分段路由策略,通过将输入序列分割成多个固定长度的段落,并以前一个段落的信息来确定路由权重和计算下一个段落的合并专家。这种策略不仅保留了语言模型的自回归特性,而且使得合并操作更加高效。在推理过程中,模型可以简单地使用提示来做出单一的路由决策,从而实现与密集模型相当的简单性和计算效率。

相似性基础的数据批处理方法,通过将语义相似的文档组合成连续的段落,鼓励专家在特定领域或主题上进行专业化。这种方法受到了先前研究的启发,旨在改善语言模型跨文档边界的推理能力,而在Lory中,这种方法被证明在专家路由训练中更为有效。

研究人员对Lory模型进行了大规模的预训练实验,使用了150B个token从头开始训练,模型规模从0.3B到1.5B的活跃参数,并设置了8、16或32个专家。实验结果表明,Lory模型在困惑度(perplexity)和多种下游任务上,显著优于参数匹配的密集模型。具体来说,在困惑度上的性能提升了13.9%,在下游任务上的性能提升在1.5%到11.1%之间。值得注意的是,尽管Lory采用的是段落级别的路由,但其性能与采用最先进的、非可微分的、基于token的MoE模型相比仍具有竞争力。

此外,研究还发现,Lory模型训练出的专家能够在没有监督的情况下捕获领域级别的专业化特征。这一点与传统的基于token的MoE模型形成鲜明对比,后者通常只在不同领域中表现出局部模式。Lory模型的这一特性,不仅展示了完全可微分MoE架构在语言模型预训练中的潜力,也为未来的研究指明了方向。

然而,Lory模型也存在一些局限性。首先,作为一种新兴的架构,Lory在实际应用中的表现还需要在更广泛的任务和数据集上进行验证。其次,尽管Lory在专家专业化方面取得了显著进展,但如何进一步优化专家的选择和合并策略,以实现更高的效率和性能,仍是未来研究需要解决的问题。此外,Lory模型的计算开销相比传统密集模型仍然较高,尤其是在模型规模进一步扩大时,如何平衡模型规模与计算资源之间的关系,也是研究者需要考虑的问题。

论文地址:https://arxiv.org/abs/2405.03133

目录
相关文章
|
数据采集 机器学习/深度学习 大数据
行为检测代码(一):超详细介绍C3D架构训练+测试步骤
这篇文章详细介绍了C3D架构在行为检测领域的应用,包括训练和测试步骤,使用UCF101数据集进行演示。
690 1
行为检测代码(一):超详细介绍C3D架构训练+测试步骤
|
5月前
|
机器学习/深度学习 数据可视化 网络架构
PINN训练新思路:把初始条件和边界约束嵌入网络架构,解决多目标优化难题
PINNs训练难因多目标优化易失衡。通过设计硬约束网络架构,将初始与边界条件内嵌于模型输出,可自动满足约束,仅需优化方程残差,简化训练过程,提升稳定性与精度,适用于气候、生物医学等高要求仿真场景。
643 4
PINN训练新思路:把初始条件和边界约束嵌入网络架构,解决多目标优化难题
|
6月前
|
Cloud Native API 开发者
Gemini 2.5 Flash 技术拆解:从 MoE 架构到阿里云生态落地指南
2025年9月,谷歌Gemini 2.5 Flash发布,性能提升5%、成本降24%,引发行业关注。其MoE架构、百万上下文与“思考”范式,助力阿里云开发者高效构建云原生应用。本文解析技术内核,结合汽车、物流等案例,提供落地指南与避坑建议,展望大模型与流计算融合前景。
772 6
|
5月前
|
机器学习/深度学习 缓存 人工智能
45_混合专家模型:MoE架构详解
在大语言模型的发展历程中,参数规模的扩张一直被视为提升性能的主要途径。然而,随着模型参数达到数百亿甚至数千亿级别,传统的密集型模型架构面临着计算资源、训练效率和推理速度等诸多挑战。2025年,混合专家模型(Mixture of Experts,MoE)已成为突破这些限制的关键技术路径。
|
机器学习/深度学习 数据采集 人工智能
揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化
【8月更文挑战第23天】苹果公司发布了一份47页的研究文档,深入解析了其在智能基础语言模型领域的探索与突破。文档揭示了苹果在此领域的雄厚实力,并分享了其独特的混合架构设计,该设计融合了Transformer与RNN的优势,显著提高了模型处理序列数据的效能与表现力。然而,这种架构也带来了诸如权重平衡与资源消耗等挑战。苹果利用海量、多样的高质量数据集训练模型,但确保数据质量及处理噪声仍需克服。此外,苹果采取了自监督与无监督学习相结合的高效训练策略,以增强模型的泛化与稳健性,但仍需解决预训练任务选择及超参数调优等问题。
368 66
|
8月前
|
机器学习/深度学习 负载均衡 C++
MoR vs MoE架构对比:更少参数、更快推理的大模型新选择
本文将深入分析递归混合(MoR)与专家混合(MoE)两种架构在大语言模型中的技术特性差异,探讨各自的适用场景和实现机制,并从架构设计、参数效率、推理性能等多个维度进行全面对比。
553 0
MoR vs MoE架构对比:更少参数、更快推理的大模型新选择
|
11月前
|
机器学习/深度学习 人工智能 算法
超越 DeepSeek-R1!Seed-Thinking-v1.5:字节跳动开源MoE架构推理模型,200B总参数仅激活20B,推理效率提升5倍
字节跳动推出的200B参数混合专家模型,在AIME/Codeforces/GPQA等基准测试中实现多项突破,采用强化学习框架与流式推理系统,支持7大领域复杂推理任务。
763 13
超越 DeepSeek-R1!Seed-Thinking-v1.5:字节跳动开源MoE架构推理模型,200B总参数仅激活20B,推理效率提升5倍
|
并行计算 PyTorch 算法框架/工具
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
本文探讨了如何通过技术手段混合使用AMD与NVIDIA GPU集群以支持PyTorch分布式训练。面对CUDA与ROCm框架互操作性不足的问题,文章提出利用UCC和UCX等统一通信框架实现高效数据传输,并在异构Kubernetes集群中部署任务。通过解决轻度与强度异构环境下的挑战,如计算能力不平衡、内存容量差异及通信性能优化,文章展示了如何无需重构代码即可充分利用异构硬件资源。尽管存在RDMA验证不足、通信性能次优等局限性,但该方案为最大化GPU资源利用率、降低供应商锁定提供了可行路径。源代码已公开,供读者参考实践。
1094 3
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
|
11月前
|
机器学习/深度学习 编解码 人工智能
Kimi开源MoE架构多模态推理模型,小激活参数,大能量!
最近Moonshot AI推出了 Kimi-VL,这是一个高效的开源混合专家(MoE)视觉-语言模型(VLM),它提供了先进的多模态推理、长上下文理解以及强大的代理能力——所有这些功能都只需激活其语言解码器中的2.8B参数(Kimi-VL-A3B)。
806 1