150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory

简介: 【5月更文挑战第27天】普林斯顿Meta团队推出Lory,这是一种完全可微的MoE语言模型架构,用于解决大模型的效率问题。Lory采用因果分段路由和相似性批处理,提高专家合并效率并促进专业化。在150B token的预训练后,Lory在困惑度和下游任务上优于密集模型,显示了可微MoE架构的潜力。不过,Lory仍有优化空间,包括专家选择策略、计算效率和实际应用验证。[论文链接](https://arxiv.org/abs/2405.03133)

在人工智能领域,尤其是自然语言处理(NLP)中,大型语言模型的预训练一直是研究的热点。这些模型通过在海量数据上进行训练,能够学习到丰富的语言知识和模式,进而在多种下游任务中展现出卓越的性能。然而,随着模型规模的不断扩大,训练和推理的效率问题逐渐凸显。为了解决这一问题,研究者们提出了一种名为“专家混合”(Mixture-of-Experts,简称MoE)的模型架构。MoE模型通过引入多个专家网络,并在每一层中根据输入数据的特点动态选择激活的专家,从而在保持模型规模的同时,提高了训练和推理的效率。

普林斯顿大学与Meta AI的研究人员合作,提出了一种全新的MoE模型架构——Lory。这一架构在MoE的基础上进行了重大创新,首次实现了完全可微分的专家混合,这一特性对于模型的预训练尤为重要。Lory模型通过两个关键技术实现了突破:一是因果分段路由策略,二是相似性基础的数据批处理方法。这些技术的引入,使得Lory在保持自回归语言模型特性的同时,显著提高了专家合并操作的效率,并鼓励了专家在训练实例中的专业化。

Lory模型的因果分段路由策略,通过将输入序列分割成多个固定长度的段落,并以前一个段落的信息来确定路由权重和计算下一个段落的合并专家。这种策略不仅保留了语言模型的自回归特性,而且使得合并操作更加高效。在推理过程中,模型可以简单地使用提示来做出单一的路由决策,从而实现与密集模型相当的简单性和计算效率。

相似性基础的数据批处理方法,通过将语义相似的文档组合成连续的段落,鼓励专家在特定领域或主题上进行专业化。这种方法受到了先前研究的启发,旨在改善语言模型跨文档边界的推理能力,而在Lory中,这种方法被证明在专家路由训练中更为有效。

研究人员对Lory模型进行了大规模的预训练实验,使用了150B个token从头开始训练,模型规模从0.3B到1.5B的活跃参数,并设置了8、16或32个专家。实验结果表明,Lory模型在困惑度(perplexity)和多种下游任务上,显著优于参数匹配的密集模型。具体来说,在困惑度上的性能提升了13.9%,在下游任务上的性能提升在1.5%到11.1%之间。值得注意的是,尽管Lory采用的是段落级别的路由,但其性能与采用最先进的、非可微分的、基于token的MoE模型相比仍具有竞争力。

此外,研究还发现,Lory模型训练出的专家能够在没有监督的情况下捕获领域级别的专业化特征。这一点与传统的基于token的MoE模型形成鲜明对比,后者通常只在不同领域中表现出局部模式。Lory模型的这一特性,不仅展示了完全可微分MoE架构在语言模型预训练中的潜力,也为未来的研究指明了方向。

然而,Lory模型也存在一些局限性。首先,作为一种新兴的架构,Lory在实际应用中的表现还需要在更广泛的任务和数据集上进行验证。其次,尽管Lory在专家专业化方面取得了显著进展,但如何进一步优化专家的选择和合并策略,以实现更高的效率和性能,仍是未来研究需要解决的问题。此外,Lory模型的计算开销相比传统密集模型仍然较高,尤其是在模型规模进一步扩大时,如何平衡模型规模与计算资源之间的关系,也是研究者需要考虑的问题。

论文地址:https://arxiv.org/abs/2405.03133

目录
相关文章
|
14天前
|
机器学习/深度学习 人工智能 算法
【人工智能】第二部分:ChatGPT的架构设计和训练过程
【人工智能】第二部分:ChatGPT的架构设计和训练过程
50 4
|
19天前
|
机器学习/深度学习 语音技术
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再压缩
【6月更文挑战第12天】谷歌DeepMind的Zipper架构解决了多模态大模型灵活性问题,通过分解为单模态模型并用“压缩”过程组合,实现多模态生成。该方法允许独立训练每个模态,提升灵活性和可扩展性,适用于数据有限或领域特定的模态。Zipper利用交叉注意力机制融合模态输出,适用于图像描述、语音识别等任务。尽管需要更多计算资源且性能受限于单模态模型质量,但已在ASR和TTS领域展现潜力。论文链接:https://arxiv.org/pdf/2405.18669
28 3
|
12天前
|
机器学习/深度学习 数据采集 人工智能
【机器学习】CLIP模型在有限计算资源下的性能探究:从数据、架构到训练策略
【机器学习】CLIP模型在有限计算资源下的性能探究:从数据、架构到训练策略
154 0
|
27天前
|
机器学习/深度学习 自然语言处理 物联网
ICML 2024:脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了
【6月更文挑战第4天】在ICML 2024上,研究团队提出了傅立叶变换微调(FourierFT),一种减少训练参数的新方法,替代了依赖LoRA的微调。FourierFT通过学习权重变化矩阵的稀疏频谱系数,实现了LFMs的高效微调。在多项任务上,FourierFT展示出与LoRA相当或更优的性能,参数量却大幅减少,如在LLaMA2-7B模型上,仅需0.064M参数,对比LoRA的33.5M。广泛实验验证了其在NLP和CV任务上的效果,但未来还需探索其适用性和泛化能力。论文链接:[arxiv.org/abs/2405.03003](https://arxiv.org/abs/2405.03003)
36 0
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
革命新架构掀翻Transformer!无限上下文处理,2万亿token碾压Llama 2
【4月更文挑战第28天】清华大学研究团队提出了Megalodon,一种针对长序列数据优化的Transformer模型。为解决Transformer的计算复杂度和上下文限制,Megalodon采用了CEMA改进注意力机制,降低计算量和内存需求;引入时间步长归一化层增强稳定性;使用归一化注意力机制提升注意力分配;并借助预归一化与双跳残差配置加速模型收敛。在与Llama 2的对比实验中,Megalodon在70亿参数和2万亿训练token规模下展现出更优性能。论文链接:https://arxiv.org/abs/2404.08801
37 2
|
11月前
|
人工智能 缓存 并行计算
终极「揭秘」:GPT-4模型架构、训练成本、数据集信息都被扒出来了
终极「揭秘」:GPT-4模型架构、训练成本、数据集信息都被扒出来了
639 0
|
数据采集 机器学习/深度学习 人工智能
PyTorch 之 基于经典网络架构训练图像分类模型
本文参加新星计划人工智能(Pytorch)赛道:https://bbs.csdn.net/topics/613989052
|
人工智能 达摩院 自然语言处理
NLP之PLUG:阿里达摩院发布最大中文预训练语言模型PLUG的简介、架构组成、模型训练、使用方法之详细攻略
NLP之PLUG:阿里达摩院发布最大中文预训练语言模型PLUG的简介、架构组成、模型训练、使用方法之详细攻略
NLP之PLUG:阿里达摩院发布最大中文预训练语言模型PLUG的简介、架构组成、模型训练、使用方法之详细攻略
|
机器学习/深度学习 数据挖掘 算法框架/工具
CV:基于Keras利用CNN主流架构之mini_XCEPTION训练性别分类模型hdf5并保存到指定文件夹下
CV:基于Keras利用CNN主流架构之mini_XCEPTION训练性别分类模型hdf5并保存到指定文件夹下
CV:基于Keras利用CNN主流架构之mini_XCEPTION训练性别分类模型hdf5并保存到指定文件夹下