DeLighT :深度和轻量化的Transformer

简介: DeLighT :深度和轻量化的Transformer

基于注意力的Transformer网络被广泛用于序列建模任务,包括语言建模和机器翻译。为了提高性能,模型通常通过增加隐藏层的维度来扩展,或者通过堆叠更多的Transformer块来扩展。例如,T5使用65K的隐藏层参数,GPT-3使用96个Transformer块。然而,这样的缩放显著增加了网络参数的数量(例如,T5和GPT-3分别有110亿个和1750亿个参数),并使学习复杂化,也就是说,这些模型要么需要非常大的训练库或特定的的正则化。

在本篇文章中介绍一篇论文,该论文引入了一种新的基于参数的高效注意力架构,可以很容易地扩展到广泛和深入。DeLighT 提出了一个更深、更轻的Transformer,更高效地在每个Transformer块中分配参数:

使用DeLighT 深度和轻量级转换;

对跨块使用块的缩放,允许较浅和较窄的DeLighT 靠近输入,更宽和较深的DeLighT 靠近输出。

一般来说,DeLighT 深度是标准Transformer的2.5 ~ 4倍,但参数和操作更少。

模型缩放

模型缩放是提高顺序模型性能的标准方法。模型的大小在宽度比例上增加,而在深度比例上堆叠更多的块。在这两种情况(及其组合)中,网络每个块中的参数都相同,这可能出现次优解决方案。为了进一步改善序列模型的性能,[1]引入了块比例缩放,允许设计可变大小的块并在网络中有效分配参数。

论文的研究结果表明:

  1. 靠近输入的较浅和较窄的DeLighT块,靠近输出的较深和较宽的DeLighT块可提供最佳性能。
  2. 与仅使用模型缩放相比,基于块缩放的模型可以实现更好的性能。

卷积神经网络(CNN)还可以学习靠近输入的浅层和窄层表示,以及靠近输出的深层和宽泛表示。与在每个卷积层中执行固定数量的操作的CNN不同,建议的块缩放在每个层和块中使用可变数量的操作。

改善序列模型

最近,在改善序列模型的其他相关方法上也进行了重要工作,包括

(1)使用更好的标记级别表示(例如使用BPE),自适应输入和输出以及定义以提高准确性,以及

(2)使用压缩 ,修剪和蒸馏以提高效率。

与[1]的工作最接近的是定义转换,它也使用了“展开-缩小”策略来学习表示形式。DeFINE变换(图1c)和DeLighT变换(图1d)之间的主要区别在于,DeLighT变换在扩展层和简化层之间分配参数时更有效。

640.jpg

(c,d)比较了DeFINE变换和DeLighT变换。与DeFINE变换相比,DeLighT变换使用具有更多组的组线性变换(GLT)来学习具有较少参数的更广泛的表示形式。不同的颜色用于显示GLT中的组。为简单起见,特征改组未在(d)中显示。

与DeFINE不同,DeFINE使用较少的组来学习组线性变换中的更多鲁棒表示,而DeLighT变换使用更多的组来学习范围更广的表示,并且参数较少。DeLighT转换可实现与DeFINE转换相同的性能,但参数要少得多。

DeLight Transformer

标准的Transformer块如图1a所示:

640.jpg

包括使用查询,键,值对序列令牌之间的关系进行建模,以及使用前馈网络(FFN)来学习更广泛的表示形式。

通过将3个投影应用于输入以获得Query,Key和Value,可以获得多头注意。每个投影均由h个线性层(或头部)组成,并且尺寸输入映射到一维空间,即头部尺寸。

FFN由以下两个线性层操作完成:

第1步:尺寸扩展;

第2步:尺寸缩减。

DeLight

DeLighT变换首先将维输入向量映射到高维空间,然后使用N层组变换将其简化为维输出向量(降阶),如图1d所示。

640.jpg

在展开缩减阶段,DeLighT变换使用组线性变换(GLT),因为它们通过从输入的特定部分导出输出来学习局部表示,这比线性变换更有效。为了学习全局表示,DeLighT变换使用特征变换在组线性变换的不同组之间共享信息,类似于卷积网络中的通道变换。

增加Transformer的表达能力和容量的标准方法是增加输入尺寸。但是,线性增加也会增加标准Transformer块(序列长度在其中)的多头注意力的复杂性。相比之下,为了增加DeLighT块的表达能力和容量,论文使用扩展和收缩阶段来增加中间DeLighT过渡的深度和宽度。这使DeLighT可以使用较小的尺寸和较少的操作来计算注意力。

DeLighT变换由5个配置参数控制:

  • GLT层数N,
  • 宽度乘数,
  • 输入维数,
  • 输出维度,
  • GLT中最大的组数

在两个常见的序列建模任务(i)机器翻译和(ii)语言建模上,DeLighT模型在参数和操作上明显少于Transformer模型,但其性能与Transformer模型相似或更好,在资源低的WMT'16 En-Ro机器翻译数据集上, DeLighT使用的参数减少了2.8倍,并实现了Transformer相同性能。在高资源WMT’14 En-Fr数据集上,DeLighT以比基线Transformer少1.8倍的参数提供了更好的性能(+0.4 BLEU分数)。同样,在语言建模方面,DeLighT在WikiText-103数据集上将Transformer-XL的性能(Dai等人,2019)与参数减少了1.5倍相匹配。

目录
相关文章
|
1月前
|
人工智能 测试技术 数据处理
首个Mamba+Transformer混合架构多模态大模型来了,实现单卡千图推理
【10月更文挑战第18天】《LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture》提出了一种新型多模态大模型LongLLaVA,结合了Mamba和Transformer架构,通过系统优化实现在单张A100 80GB GPU上处理近千张图像的突破。该模型在视频理解、高分辨率图像分析和多模态智能体任务中表现出色,显著提升了计算效率。
147 64
|
4月前
|
机器学习/深度学习 算法 网络架构
【YOLOv8改进 - Backbone主干】EfficientRep:一种旨在提高硬件效率的RepVGG风格卷积神经网络架构
【YOLOv8改进 - Backbone主干】EfficientRep:一种旨在提高硬件效率的RepVGG风格卷积神经网络架构
|
30天前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2融合YOLO-MS的MSBlock : 分层特征融合策略,轻量化网络结构
【YOLO11改进 - C3k2融合】C3k2融合YOLO-MS的MSBlock : 分层特征融合策略,轻量化网络结构
|
1月前
|
机器学习/深度学习 人工智能
【AI大模型】深入Transformer架构:编码器部分的实现与解析(下)
【AI大模型】深入Transformer架构:编码器部分的实现与解析(下)
|
1月前
|
机器学习/深度学习 人工智能 数据可视化
【AI大模型】深入Transformer架构:编码器部分的实现与解析(上)
【AI大模型】深入Transformer架构:编码器部分的实现与解析(上)
|
4月前
|
机器学习/深度学习 大数据 计算机视觉
【YOLOv8改进 - 特征融合】 GELAN:YOLOV9 通用高效层聚合网络,高效且涨点
YOLOv8专栏探讨了深度学习中信息瓶颈问题,提出可编程梯度信息(PGI)和广义高效层聚合网络(GELAN),改善轻量级模型的信息利用率。GELAN在MS COCO数据集上表现优越,且PGI适用于不同规模的模型,甚至能超越预训练SOTA。[论文](https://arxiv.org/pdf/2402.13616)和[代码](https://github.com/WongKinYiu/yolov9)已开源。核心组件RepNCSPELAN4整合了RepNCSP块和卷积。更多详情及配置参见相关链接。
|
4月前
|
测试技术 计算机视觉 网络架构
【YOLOv8改进 - 特征融合】CARAFE:轻量级新型上采样算子,助力细节提升
【YOLOv8改进 - 特征融合】CARAFE:轻量级新型上采样算子,助力细节提升
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
深度揭秘:深度学习框架下的神经网络架构进化
从感知机到深度学习的革命,神经网络经历了从简单到复杂的演变。反向传播使多层网络实用化,深度信念网络(DBN)和卷积神经网络(CNN)的兴起,尤其是AlexNet在ImageNet竞赛中的胜利,开启了深度学习黄金时代。ResNet的残差学习解决了深度梯度消失问题。循环神经网络(RNN)、LSTM和GRU改进了序列处理,Transformer模型(如BERT和GPT)引领了自然语言处理的变革。超大规模模型如GPT-3和通义千问展示惊人能力,影响医疗、自动驾驶等多个领域。未来,平衡模型复杂度、计算成本与应用需求将是关键。
260 2
|
5月前
|
机器学习/深度学习 网络架构 计算机视觉
VGG深度卷积神经网络架构
VGG深度卷积神经网络架构
|
6月前
|
机器学习/深度学习
YOLOv8改进 | 主干篇 | EfficientViT高效的特征提取网络完爆MobileNet系列(轻量化网络结构)
YOLOv8改进 | 主干篇 | EfficientViT高效的特征提取网络完爆MobileNet系列(轻量化网络结构)
504 0
下一篇
无影云桌面