Transformer | 没有Attention的Transformer依然是顶流!!!(一)

简介: Transformer | 没有Attention的Transformer依然是顶流!!!(一)

1简介


本文主要介绍了Attention Free Transformer(AFT),在AFT层中,首先将key和value与一组学习到的位置偏差结合起来,然后以元素方式将其结果与query相乘。这个新的操作在context size和特征维度上都具有线性的内存复杂度,使得它能够兼容大的输入和模型大小。

作者还引入了AFT-local和AFT-Conv,这两个模型变种在保持全局连通性的同时还利用了局域性和空间权重共享的思想。作者对2个自回归建模任务(CIFAR10和Enwik8)以及一个图像识别任务(ImageNet-1K分类)进行了广泛的实验。验证了AFT在所有benchmarks上不仅具有不错的性能,同时还具有出色的效率。


2本文方法


2.1 Attention Free Transformer

首先,定义了Attention Free Transformer(AFT),它是MHA的plugin replacement,不需要改变Transformer的其他架构。给定输入X, AFT先将它们线性变换为,,,然后执行以下操作:

其中,是元素的乘积;是应用于query的非线性映射,默认为sigmoid;是学习到成对的位置偏差。

image.png

换句话说,对于每个目标位置, AFT把加权平均的结果与具有元素级乘法的query相结合。而加权操作则是由key和一组学习成对的位置偏差组成。这提供了一个直接的优势,即不需要计算和存储消耗大的注意力矩阵,同时能够像MHA那样维护query和value之间的全局交互。

为了进一步了解AFT与MHA的关系可以将方程改写为:

image.png

image.png

这里使用上标来索引矩阵的特征维数。在这种重新排列的形式中,能够再次用注意力来表达AFT。具体来说,对于每个位置有一个关注向量,每个维度由、、组成。换句话说,AFT可以解释为与特征尺寸一样多的Head中进行implicit attention,其中注意力矩阵采用因数分解的形式进行求解。

2.2 AFT variants: locality, weight sharing and parameterization

1 AFT-full

将下面方程中定义的AFT的基本版本表示为AFT-full:

image.png

2 AFT-local

作者发现了训练的标准Transformers倾向于表现出广泛的局部注意力模式。具体地说,把ImagenetNet预训练Vision Transformer(ViT),由12层组成,每层6个Head。为了实现可视化忽略分类标记,将每一层的注意力张量reshape为6×196×196(因为ViT特征图的空间大小为14×14)。然后从ImageNet验证集中采样256张图像。对于每一层和每一个Head,计算平均的average relative 2d attentions、averaged across position和images。这就产生了一组尺寸为12×6×27×27的注意力map(如下图)。

image.png

通过上图可以看到,相对注意力Map显示出强烈的局部模式,特别是在lower layers。这激发了AFT的一种变体,称为AFT-local,即只在局部应用一组学习到的相对位置偏差:

image.png

这里s≤T是一个局部window size。AFT-local提供了进一步的计算量的节省,包括参数的数量和时间/空间复杂度。

3 AFT-simple

AFT-local的一个极端形式是当s=0时,即没有学习到位置偏差。这就产生了一个极其简单的AFT版本,AFT-simple,有:

在这个版本中,context reduction进一步简化为元素操作和全局池化。其实AFT-simple类似于线性化注意,公式为:

然而,AFT-simple完全摆脱了点积操作,这促使复杂度从降低为。

4 AFT-conv

作者还可以进一步扩展局部化locality的思想,加入空间权值共享,即卷积。这种变体与视觉任务特别相关,因为它通常希望将一个预训练模型扩展到可变大小的输入。具体来说,让的值只依赖于和, 而为在给定的空间网格(1d或2d)中的相对位置。与CNN类似也可以学习多组位置偏差(重用head的概念作为参考)。为了考虑到#parameters随着 #heads的增加而增长,作者还采用了一个设计,将K的维度与#heads联系起来。这使得AFT-conv可修改为依赖于深度可分离卷积、全局池化和元素操作来实现。

类似的尺寸的AFT-conv学习到的相对位置偏差。

举一个例子,这里将模型构型表示为AFT-conv-h-s,其中h为head的个数,s×s为2d local window size。,于是对于每一个head 来说,有:

image.png

注意,上式可以很容易地解释为一个特殊的卷积层,具有:

  1. 全局连通性
  2. 非负卷积权值
  3. 复杂的除法/乘法门机制

实验表明,这3个方面对AFT-conv的性能都有显著的影响。

5 Parameterization

根据经验,作者发现适当地参数化位置偏差是很重要的。

对于AFT-full和AFT-local,采用w的因数分解形式:

其中是一个小的嵌入维数(例如128)。这种简单的因式分解不仅大大减少了参数量,而且在训练和测试中都有效地提高了模型的性能。

对于AFT-conv,因式分解的技巧并不适用。相反,作者采用一个简单的重新参数化,对于每个head i,让:

其中是可学习增益和偏置参数,均初始化为0。


相关文章
|
机器学习/深度学习 自然语言处理 搜索推荐
Transformer之十万个为什么?
这篇博文主要结合个人理解和思考,通过整理和自己的解释列出关于Transformer的部分重要问题(持续更新),看完后会对Transformer有个更好的理解。
Transformer之十万个为什么?
|
5月前
|
机器学习/深度学习 PyTorch 算法框架/工具
Transformer
【8月更文挑战第7天】
71 3
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
Transformer介绍
Transformer模型于2017年由Google提出,其在BERT中大放异彩,革新了NLP领域。Transformer的优势在于并行计算能力和处理长距离依赖,通过自注意力机制避免了RNN/LSTM的梯度问题。它由编码器和解码器组成,使用位置编码处理序列信息。Transformer在机器翻译、文本生成、问答系统等多个任务中提升效率和准确性,并扩展至计算机视觉和语音识别。随着AI发展,Transformer成为大模型核心技术,推动整个产业进步。
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
一文介绍CNN/RNN/GAN/Transformer等架构 !!
一文介绍CNN/RNN/GAN/Transformer等架构 !!
283 5
|
8月前
|
机器学习/深度学习 并行计算 数据可视化
[transformer]论文实现:Attention Is All You Need(下)
[transformer]论文实现:Attention Is All You Need(下)
88 2
|
8月前
|
机器学习/深度学习 数据可视化 TensorFlow
[transformer]论文实现:Attention Is All You Need(上)
[transformer]论文实现:Attention Is All You Need(上)
63 2
|
8月前
|
机器学习/深度学习 自然语言处理
Transformer奠基之作《Attention Is All You Need》
Transformer模型,由Google Brain和Google Research在2017年的论文中提出,颠覆了传统NLP依赖RNN和CNN的局面。该模型基于完全的注意力机制,解决了RNN的并行化难题,通过编码器和解码器中的多头自注意力机制捕捉全局依赖。训练策略结合Adam优化器、标签平滑和dropout,使其在机器翻译任务中表现卓越。尽管面临长序列处理的挑战和可能的上下文忽略问题,Transformer仍展示了注意力机制的巨大潜力,对NLP领域产生了深远影响。
140 3
Transformer奠基之作《Attention Is All You Need》
|
机器学习/深度学习 自然语言处理 并行计算
【Transformer系列(3)】 《Attention Is All You Need》论文超详细解读(翻译+精读)
【Transformer系列(3)】 《Attention Is All You Need》论文超详细解读(翻译+精读)
1518 0
【Transformer系列(3)】 《Attention Is All You Need》论文超详细解读(翻译+精读)
|
8月前
|
机器学习/深度学习 存储 自然语言处理
Transformer中的FFN介绍
Transformer中的FFN介绍
477 0
Transformer中的FFN介绍
|
计算机视觉
论文阅读笔记 | Transformer系列——Transformer in Transformer
论文阅读笔记 | Transformer系列——Transformer in Transformer
317 0
论文阅读笔记 | Transformer系列——Transformer in Transformer

热门文章

最新文章

相关实验场景

更多