Transformer：Attention Is All You Need

2022-06-07 136

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Transformer：Attention Is All You Need

论文标题：Attention Is All You Need

论文链接：https://arxiv.org/abs/1706.03762

一、概述

Transformer是一种新的架构，用来学习输入和输出之间的全局依赖关系。比起以往使用RNN（recurrent neural network）来处理NLP领域中的诸多任务，Transformer是一种全新的架构，其中规避开了recurrence架构，并且相比于RNN，其并行计算的能力更强（more parallelizable）。

二、模型架构

模型中的encoder和decoder

整体架构

$]477QD{IH70OJ~VG(3CX_)O.png$

Transformer也使用了encoder-decoder架构，其具体架构图如下：

GCV5[{QYX}ZLC2(F9)DTMHH.png

模型架构

Encoder

Transformer的encoder由6个相同的层堆叠而成，每一层有两个子层，其中第一个子层是multi-head attention层，第二个子层就是一个简单的前馈网络，在每个子层后面都有一个residual connection和layer normalization，也就是说每个子层的输出可以表示为：

D]D(LY)O}XT3UJ)W6(@FV2Q.png

WX1S2GP$FR51FZATXE2~WSX.png 代表每个子层实现的函数。为了促使这些residual connection发挥作用，模型中的所有子层以及下面的embedding层，都会产生维度 Q7XBYU8J7H0BIT_~23Z%4RB.png 的输出。

Decoder

Transformer的decoder也是由6个相同的层堆叠而成，除了encoder中的两种子层，decoder还添加了第三种子层，也就是在encoder的输出上执行multy-head attention的一层。同样的每一层后面都有residual connection和layer normalization。图中decoder最下面的子层会被修改来防止每个位置attend到这个位置后面的元素。

Attention

Scaled Dot-Product Attention

4H)7V[SJ@X~E1MON(D{8GSW.png

该过程用图表示如下：

4[`IJJFL[4S92YSQ%8G2DDG.png

Scaled Dot-Product Attention

additive attention和dot-product attention

最常用的两种attention的机制是additive attention和dot-product attention

（multiplicative attention）。其中在上式中如果没有scaling factor FBHIJV993(T]SS~CZ{POEVR.png ，就是dot-product attention。Additive attention使用具有单个隐藏层的前馈网络来计算兼容性函数，其输入层是两个向量的横向拼接，输出层的激活函数是sigmoid表示二者的相关度，对每一对向量都需要进行一次计算，得到的结果再计算softmax得到attention相关度权重。两种attention在理论上的复杂度相同，但在实践中dot-product attention能使用优化的矩阵乘法运算，所以计算更快，同时由于它没有使用前馈网络，所以占用空间更小，所以transformer选用了dot-product attention。

为什么dot-product attention要被scaled

)PO9[]{JFPB`7U~HKQ@%LK4.png

Multi-Head Attention

D(~A{W9]2I4O28]Y72CMN)4.png

下图展示了multi-head attention的过程：

F6ETR~R62KF}`$LE7OU9S7E.png

multi-head attention

Transformer中attention的应用

Transformer中主要有三处地方用到了attention机制：

①在架构图decoder的中间部分，query来自于先前的decoder层，而key和value来自于encoder的输出，这样设计允许了decoder中的每一个位置都能attend到输入的序列的任何一个位置。这样的设计模仿了传统的seq-to-seq模型的encoder-decoder attention机制。

②Transformer的encoder使用了attention机制，每一个self-attention层的query、key、value都来自于前一层的输出，每个位置都能attend到前一层的所有位置。

③在架构图decoder的下面的部分，每个位置被允许attend到该位置之前包括该位置的地方，为了保证自回归属性，我们必须避免出现左向信息流。可以通过将不合法连接（当前位置右侧）的 scaled dot-product attention中 V6_N3DA[S[VT8U@91FW6AVQ.png 函数的输入设置为 $1U515T{EL`{J_4DBI0V(U@O.png$ 来实现这一操作，这一部分被称为masked multi-head attention。

Position-wise Feed-Forward Networks

除了attention子层以外，每一层都还包含一个前馈网络层，这个前馈网络层包含两个线性变换，中间有一个ReLU激活，其公式如下：

K2@Q@GCQ%X$FP%{D{4T0VB8.png

_H0MDRQM3OT9M_[Z0ZFU[S2.png

Embeddings and Softmax

3E}V6_FZV8EY8%WCJBUL7E0.png

Positional Encoding

Transformer中没有循环和卷积结构，我们需要将输入序列的位置信息考虑进来。我们通过给输入embedding加上一个positional encodings来实现这一目的。Positional encodings的维度也是 5B~K}2N)1FNG8F259U1}K78.png ，这样它才可以和input embedding加起来。Positional encodings有很多选择，包括会在训练过程中被学习的和固定的。