学习笔记——Transformer结构的完整介绍

简介: 学习笔记——Transformer结构的完整介绍

Introduction


Bert是无监督学习的transformer,transformer是一个seq2seq的model,而transformer的重点就是其里面大量的用到了self-attention这种特殊的layer。


其实Transformer在17年的时候就已经出现,paper链接:Attention is all you need。在此之前,一般想要处理一个sequence的问题,首先想到的是单向RNN结构,或者是双向RNN结构。RNN非常适合处理input是有序列的一个状况,但是其有一个问题,那就是无法并行化计算。


以下面一个双向RNN结构为例:

image.png

在单向RNN结构中,需要先看a1,a2,a3,a4后,才可以输出b4;而双向RNN结构还需从后往前递推计算,这显然是不可以平行化计算的,因为在计算a4之前,要先得到输入a3后的结果;而在计算a3前,要先得到输入a2后的结果,在这个计算的过程中,存在了一个等待的时间。


而这个等待的时间,可以由CNN来解决。可以知道CNN也可以做到输入是一个sequence,输出也是一个sequence。而如果想要CNN可以观测到更多的信息甚至是全局的信息,可以将输出的结果再丢去一个filter中。而CNN的卷积操作,是可以平行华处理的,也就是不需要等待的时间。不需要像RNN一样,等待前一个才能处理后一个,对于CNN结构来说,所以的filter都是可以同时的计算的。但是其有一个缺点,就是一定要叠很多层才能观测到比较长期的咨询,而对于一些全局的咨询,他是无法满足的,其只能看到比较局部的咨询。

image.png

所以,如何既可以实现运算的并行化处理,同时可以不局限于局部的咨询,可以查看全局的咨询呢?Transformer中用到的self-attention就可以做到这一点。self-attention也是输入是一个sequence,而且输出是一个sequence,而且这个计算的过程还是同时计算的。


所以,self-attention layer其实可以完全取代RNN结构,RNN能够做到的,self-attention layer也可以做到,甚至做得更好更快。


下面正式开始介绍self-attention layer


一、self-attention


1.直观展示

image.png


所以,现在每一个时间戳都有q , k , v 三个不同的vector。

image.png

然后,需要对每一个q ,去对每一个k 做attention,这一步类似于之前提到的attention model中做weight sum提取information的操作。

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

所以,self-attention做的事情其实是和RNN类似的,只是b 1 到b 4 可以平行的计算出来。

image.png


2.矩阵展示

在上面的直观展示中,已经知道了为什么self-attention可以考虑全局的咨询。而以下进一步用矩阵运算来表示以上的操作流程,以说明为什么self-attention是如何实现平行化操作的。(其实就是基于矩阵运算)

image.png

image.png

image.png

image.png

总结:

self-attention的整个流程可以如图所示

image.png


所以,可以看出,self-attention的整个流程其实就是一堆的矩阵乘法。所以是可以用GPU加速,实现平行化处理的。


二、Multi-head self-attention


image.png

image.png

image.png

image.png

Multi-head self-attention的好处是不同的head关注的点可能是不一样的,有些head关注局部咨询,而有些head关注全局咨询。


三、Positional Encoding


根据以上的介绍,现在基本上对self-attention或者是Multi-head self-attention有一个基本的了解。


但是,其实可以发现,这样做对于输入的序列信息是不重要的,其做的事情就是跟每一个输入的vector作一个attention。所以对每一个时间戳来说,资讯的远近其实是一样,所以其没有位置的概念。这不是我们想要的,所以需要将输入sequence的顺序考虑进去。

image.png


其中可能会有一个问题,为什么是两个vector相加而不是作concat操作?

image.png

image.png


四、Transformer


接下来了解一下Transformer的整体结构,其有Encoder与Decoder两部分组成,整体结构如图所示,左边的部分是Encoder,右边的部分是Decoder。

image.png


1.Encoder

现在的Encoder里面会分成很多的block,如左图所示的Nx,也就是会重复N遍这个block结构。每一个block都是输入一排vector,然后输出一排vector;而输出的这一排vector再输入到下一个block,再输出一排vector;最后一个block会输出最终的vector sequence。


这里的一个block其实不算是一个layer,而且有好几个layer做事情。其做的事情大致如下:


首先输入的vector b会进行一个self-attention,在考虑整个sequence的资讯,然后输出另外的一排vector a,同时得到的这个输出的vector a与原来输入的vector b做一个相加,也就是结合了ResNet的思想,然后得到新的输出a+b.这个操作称为residual connection。(可以避免梯度弥散,也就是深度网络中梯度信息可能会太小而得不到更新)


得到了residual的输出之后,会进行layer normalization(也就是对layer作归一化而不是对batch)。经过layer normalization之后,再接入一个全连接层,同时这个fc层也有residual connection的操作,得到一个新的输出,然后再进行layer normalization。至此,得到的结果才是Encoder中一个block的输出。

image.png

这时候,来看一下Encoder的结构,手写将输入经过embedding操作之后,需要加上一个位置的资讯,也就是与一个Positional Encoding相加。然后就不断的堆叠block,经过一个Multi-head self-attention,注意需要作residual connection,然后作一个layer normalization。然后再进行全连接层处理,同样需要作residual connection,然后作一个layer normalization,输出再进行下一个block的堆叠。(图中的Add & Norm就是residual connection + layer normalization操作)

image.png

paper中的Encoder就是这样设计的,但是其实不这样设计也是可以的,所以后来又出现了一些改进结构的Transformer。原始paper的结构不一定是最好的。


2.Decoder

Decoder的结构如下:

image.png


对于Decoder的结构,其实如果盖住中间的部分,Decoder与Encoder是结构是差不多的,但是需要主要,Decoder结构中block的第一个操作是Masked Multi-Head Attention,这是与Multi-Head Attention不一样的。


1)Masked Multi-Head Attention

image.png

image.png

image.png


Decoder有两种运作的方式,一种是Autoregressive,另外一种是Non-autoregressive,以下内容只介绍前者。


2)Autoregressive


一般来说,对于seq2seq模型的输出应该是没有固定大小的,有时候长有时候段,也就是我们是不知道Decoder的输出大小的,而如何解决这个不知道输出长度的问题?


其实比较简单,对于原本的一个输出,可能产生N的结果,而现在需要对这些结果作一个softmax操作,看看最应该输出那个结果。以机器翻译为例,将英语翻译成中文,而常用的中文汉字大概有4k中,所以输出是一个4k长的vector,做softmax之后得到其中概率最大的那一个来做结果。

image.png


而其实,只需要在4k长的vector中append一个END结束符,让Decoder输出END的时候,就表示输出seuence已经结束,此时便可以实现不固定输出长度,但是可以输出有长有短的序列信息了。

image.png

这个就是Decoder的Autoregressive的运作方式,就是Adding Stop Token的操作。


3.Cross attention

Cross attention是刚刚盖住Decoder的那一部分,其是Encoder与Decoder之间沟通的桥梁。

image.png


在Cross attention这一部分中,有两个输入是来自于Encoder的,只有一个输入是来自于Decoder,所以由于这两个箭头,Decoder可以得到Encoder的输出。


具体的操作过程:


image.png

然后的操作就是用Decoder产生的q,去对Encoder产生的k,v做attention操作,然后做一个weight sum得到最后的输出结构。然后将这个结果通过全连接层,再做一个残差连接与layer normalization。

image.png

Cross attention部分产生的输出之后,会继续经过下一个Feed forward模块,再进行Add&Norm操作,然后最后Decoder这一轮输出的结果可能是输出一个 ‘机’ 字。随后,再丢到Decoder的block中先进行Multi-head self-attention,然后再进行刚刚介绍的Cross attention,重复这个过程,其中这个block会堆叠N次,执行完后才会再得到下一个输出。

image.png

以上是原paper的Cross attention结构。其实可以理解到,Encoder与Decoder都有很多层,而在原始paper的操作中,在Decoder的block结构的Cross attention结构,它的输入都是来自与Encoder的最后一层,也就是如图所示的结构。

image.png

但是,这个结构是可以改变,其实有很多种不同的Cross attention的方式。所以以上就是Transformer的全部结构,如何输入一个sequence,输出一个sequence的全部流程。


五、Tips for Generation


其中这一部分是从我另外一篇blog中截取的一小节,完整内容可以查看:学习笔记——seq2seq模型介绍


以下是介绍训练阶段与测试阶段不匹配的两种处理方法。


当我们训练RNN的时候,后一个component的输入是前一个component的reference

image.png

而当我们测试RNN的时候,这时候由于已经没有了reference,所以后一个后一个component的输入是前一个component的输出

image.png

由上可知,由于训练过程与测试过程的输入点不一样,这样就会导致了不相匹配。有可能会出现一步错,步步错的情况。


所以,现在纠结的问题就是下一个时间点的input应该是从model的output中来还是从reference中来


1.Schedualed Sampling

随机挑选model的output中或者reference这两者之一。也就是随机的选择from model或者是from reference

image.png

而结果显示,这种随机的选择去train,比任意挑选其中的一种去train确实要好。


一些解决方法的paper链接:



2.Beam Search

思想就是想要找到一组置信度最高得分的一组output来当作输入,如何去寻找这一组output就是Beam Search,其会keep分数最高的某几条path,保存这个分数最高的数量就是Beam Size。

image.png

目录
相关文章
|
3月前
|
机器学习/深度学习 算法
神经网络的结构与功能
神经网络是一种广泛应用于机器学习和深度学习的模型,旨在模拟人类大脑的信息处理方式。它们由多层不同类型的节点或“神经元”组成,每层都有特定的功能和责任。
99 0
|
4月前
|
编解码 人工智能 文件存储
卷积神经网络架构:EfficientNet结构的特点
EfficientNet是一种高效的卷积神经网络架构,它通过系统化的方法来提升模型的性能和效率。
81 1
|
8月前
|
机器学习/深度学习 自然语言处理 监控
卷积神经网络的原理、结构和应用
【4月更文挑战第7天】
139 0
卷积神经网络的原理、结构和应用
|
8月前
|
机器学习/深度学习 算法 PyTorch
卷积神经网络的结构组成与解释(详细介绍)
卷积神经网络的结构组成与解释(详细介绍)
347 0
|
8月前
|
机器学习/深度学习 自然语言处理 PyTorch
Vision Transformers的注意力层概念解释和代码实现
2017年推出《Attention is All You Need》以来,transformers 已经成为自然语言处理(NLP)的最新技术。2021年,《An Image is Worth 16x16 Words》,成功地将transformers 用于计算机视觉任务。从那时起,许多基于transformers的计算机视觉体系结构被提出。
68 0
|
机器学习/深度学习 人工智能 关系型数据库
简化版Transformer :Simplifying Transformer Block论文详解
在这篇文章中我将深入探讨来自苏黎世联邦理工学院计算机科学系的Bobby He和Thomas Hofmann在他们的论文“Simplifying Transformer Blocks”中介绍的Transformer技术的进化步骤。这是自Transformer 开始以来,我看到的最好的改进。
108 0
|
机器学习/深度学习 自然语言处理 索引
【Transformer系列(4)】Transformer模型结构超详细解读
【Transformer系列(4)】Transformer模型结构超详细解读
607 0
【Transformer系列(4)】Transformer模型结构超详细解读
|
算法
卷积码编码器的结构与表示
卷积码编码器的结构与表示
11243 1
卷积码编码器的结构与表示
|
机器学习/深度学习 人工智能 自然语言处理
【Pytorch神经网络理论篇】 18 循环神经网络结构:LSTM结构+双向RNN结构
双向RNN会比单向RNN多一个隐藏层,6个独特的权值在每一个时步被重复利用,6个权值分别对应:输入到向前和向后隐含层,隐含层到隐含层自身,向前和向后隐含层到输出层。
958 0
【Pytorch神经网络理论篇】 18 循环神经网络结构:LSTM结构+双向RNN结构
|
机器学习/深度学习 并行计算
transformer原理总结
transformer原理总结
526 0