Jurgen、曼宁等大佬新作:MoE重塑6年前的Universal Transformer,高效升级

简介: 本文介绍了一种新型Transformer架构,旨在解决Universal Transformer (UT) 在参数-计算效率上的问题。MoEUT结合了Mixture-of-Experts (MoE) 方法和UT的优点,通过MoE Feedforward Blocks、MoE Self-Attention Layers、Layer Grouping及Peri-LayerNorm等技术创新,实现了更高效的计算和内存使用。实验结果显示,MoEUT在多个语言建模和代码生成任务上显著优于标准Transformer,且计算资源需求更低。

Transformer模型在现代机器学习中无处不在,它们被广泛应用于语言模型、图像处理、强化学习等多个领域。然而,尽管Transformer模型取得了巨大的成功,但我们仍然需要思考是否存在更优的架构。

在这篇论文中,作者提出了一种名为Mixture-of-Experts Universal Transformer(MoEUT)的新型架构,该架构结合了Mixture-of-Experts(MoE)方法和Universal Transformer(UT)的优点。MoEUT旨在解决UT在参数-计算效率方面的根本问题,并提供更高效的计算和内存使用。

UT是一种具有共享层参数的Transformer架构,它通过在深度上引入循环来学习组合泛化。UT在处理组合问题方面具有优势,如逻辑推理任务,并在小规模语言建模和翻译任务中表现出色。然而,UT的共享层参数设计在参数-计算效率方面存在根本问题。

具体来说,UT的共享层参数设计会导致参数数量的显著减少,但同时也会增加计算和内存要求。为了补偿参数损失,简单地扩大层大小会使其计算资源要求变得不可行。因此,尽管UT具有潜在的优势,但在实际应用中,特别是在参数主导的任务(如现代语言建模)中,它们并不受欢迎。

为了解决UT的参数-计算效率问题,作者提出了MoEUT架构。MoEUT结合了MoE方法和UT的优点,并引入了两个新的创新:层分组和新颖的层归一化方案。

  1. MoE Feedforward Blocks和MoE Self-Attention Layers: MoEUT使用MoE方法来参数化共享层Transformer的Feedforward块和自注意力层。具体来说,它使用σ-MoE方法来参数化Feedforward块,并使用SwitchHead方法来参数化自注意力层。这些MoE方法允许MoEUT在保持参数效率的同时,提供更高效的计算和内存使用。

  2. Layer Grouping: MoEUT通过将多个具有非共享权重的层堆叠在一起来形成层组,从而解决参数-计算效率问题。这些层组在共享相同参数的意义上被递归地堆叠在一起,从而重新定义了组作为UT中的共享“层”。这种层分组方法可以减少每个σ-MoE中的专家数量,并增加总的注意力头数,从而提供更高效的计算和内存使用。

  3. Peri-LayerNorm Scheme: MoEUT引入了一种新颖的层归一化方案,称为Peri-LayerNorm,以改善信号传播并解决UT中的参数-计算效率问题。Peri-LayerNorm方案不使用主数据路径中的层归一化,而是仅在线性层之前使用层归一化,这些线性层立即跟随sigmoid或softmax激活函数。这种设计可以解决残差增长问题,并提供高效的梯度流动路径。

作者在多个语言建模数据集上进行了实验,包括C4、SlimPajama和peS2o,以及代码生成任务“The Stack”。实验结果表明,MoEUT在所有测试规模上都显著优于标准Transformer,同时使用更少的计算和内存。

具体来说,MoEUT在C4数据集上的性能优于标准Transformer,并且差距随着规模的增加而增大。此外,MoEUT在代码生成任务“The Stack”上也表现出色,并且其零样本性能在多个下游任务(如BLiMP、Children’s Book Test、Lambada、HellaSwag、PIQA和ARC-E)上也得到了验证。

作者将MoEUT与另一个基于MoE的UT模型Sparse Universal Transformer(SUT)进行了比较。SUT也使用MoE层,但与MoEUT存在一些技术差异,如使用不同的专家选择方法和更大的专家大小。实验结果表明,MoEUT在性能和效率方面都显著优于SUT。

此外,作者还对MoEUT的层分组和层归一化方案进行了评估。实验结果表明,MoEUT的层分组方法可以提供更好的性能和效率,而Peri-LayerNorm方案在改善信号传播方面也表现出色。

尽管MoEUT在性能和效率方面都表现出色,但它仍然存在一些局限性。首先,MoEUT的当前实现使用Triton内核,该内核在训练速度方面存在问题。其次,MoEUT在处理大规模数据时可能需要更多的计算资源。

为了解决这些局限性,作者建议在未来工作中使用更优化的CUDA内核来实现MoEUT,并探索在更大规模数据上的训练。此外,作者还建议将MoEUT应用于其他组合设置,以进一步探索其在实际应用中的潜力。

论文地址:https://arxiv.org/pdf/2405.16039

目录
相关文章
|
6月前
|
人工智能 文字识别 测试技术
AI创企深度求索推出DeepSeek-VL系列大模型
【2月更文挑战第24天】AI创企深度求索推出DeepSeek-VL系列大模型
260 1
AI创企深度求索推出DeepSeek-VL系列大模型
|
6月前
|
机器学习/深度学习 人工智能 自动驾驶
ICLR 2024:国内高校打造类Sora模型VDT,通用视频扩散Transformer
【2月更文挑战第18天】ICLR 2024:国内高校打造类Sora模型VDT,通用视频扩散Transformer
138 1
ICLR 2024:国内高校打造类Sora模型VDT,通用视频扩散Transformer
|
17天前
|
机器学习/深度学习 人工智能 机器人
何恺明新作出炉!异构预训练Transformer颠覆本体视觉学习范式,AI性能暴涨超20%
【10月更文挑战第29天】在机器人学习领域,训练通用模型面临数据异构性的挑战。近期研究“Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers”提出异构预训练Transformer(HPT),通过大规模预训练学习跨不同本体和任务的共享表示,显著提升了性能。实验结果显示,HPT在未见过的任务上表现优异,性能提升超过20%。
40 6
|
1月前
|
存储 测试技术
ECCV 2024:比基准高30%,媲美Gemini 1.5 Pro,基于记忆的视频理解智能体来了
【10月更文挑战第2天】该论文提出了一种基于记忆的多模态智能体VideoAgent,通过结合大语言模型和视觉语言模型,引入统一记忆机制,在视频理解任务中实现了显著性能提升。VideoAgent构建了结构化的记忆系统,存储视频中的时间事件描述和对象状态,支持零样本工具使用,提升了长视频理解能力。实验结果显示,VideoAgent在NExT-QA和EgoSchema等数据集上分别提升了6.6%和26.0%的性能。然而,其在处理长视频时仍面临内存和计算资源限制,多模态融合能力也有待进一步提高。
38 4
|
4月前
|
编解码 文字识别 计算机视觉
寒武纪1号诞生:谢赛宁Yann LeCun团队发布最强开源多模态LLM
【7月更文挑战第10天】【寒武纪1号】- 谢赛宁、Yann LeCun团队发布开源多模态LLM,含8B至34B规模模型,创新空间视觉聚合器(SVA)提升视觉-语言集成,建立新基准CV-Bench及大规模训练数据集Cambrian-7M。在多模态任务中表现出色,尤其在高分辨率图像处理上,但面临高分辨率信息处理和部分视觉任务评估的局限。[链接](https://arxiv.org/pdf/2406.16860)
103 1
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
谷歌推出基于Transformer的创新技术——无限注意力
【7月更文挑战第3天】谷歌推出Infini-Attention,革新Transformer模型,允许处理无限长度序列,降低内存与计算需求。此技术结合局部与长期注意力,提升长上下文任务性能,如语言建模和书籍摘要,同时面临内存约束和优化挑战。虽有批评,但被视为LLMs处理长序列的里程碑。[链接](https://arxiv.org/abs/2404.07143)
59 1
|
机器学习/深度学习 存储 缓存
LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理
LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理
288 0
|
算法 Shell 计算机视觉
BeiT v2 来袭 | BeiT升级,全面超越 MAE,实现 Vision Transformer 微调自由!
BeiT v2 来袭 | BeiT升级,全面超越 MAE,实现 Vision Transformer 微调自由!
433 0
|
机器学习/深度学习 人工智能 自然语言处理
Sea AI Lab和北大Adan项目原作解读:加速训练深度模型的高效优化器
Sea AI Lab和北大Adan项目原作解读:加速训练深度模型的高效优化器
280 0
|
计算机视觉
10亿参数、多项SOTA,智源开源视觉基础模型EVA
10亿参数、多项SOTA,智源开源视觉基础模型EVA
343 0
下一篇
无影云桌面