文档备案控制台

开发者社区人工智能文章正文

初步了解RNN, Seq2Seq, Attention注意力机制

2023-10-11 391

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 初步了解RNN, Seq2Seq, Attention注意力机制

循环神经网络RNN结构被广泛应用于自然语言处理、机器翻译、语音识别、文字识别等方向。本文主要介绍经典的RNN结构，以及RNN的变种（包括Seq2Seq结构和Attention机制）。希望这篇文章能够帮助初学者更好地入门。

1.经典的RNN结构

这就是最经典的RNN结构，它的输入是：

输出为：

也就是说，输入和输出序列必有相同的时间长度！

2.Sequence to Sequence模型

在Seq2Seq结构中，编码器Encoder把所有的输入序列都编码成一个统一的语义向量Context，然后再由解码器Decoder解码。在解码器Decoder解码的过程中，不断地将前一个时刻 t-1 的输出作为后一个时刻 **t **的输入，循环解码，直到输出停止符为止。

3.Embedding

还有一点细节，就是如何将前一时刻输出类别index（数值）送入下一时刻输入（向量）进行解码。假设每个标签对应的类别index如下：

4.Seq2Seq训练问题

5.Attention注意力机制

在Seq2Seq结构中，encoder把所有的输入序列都编码成一个统一的语义向量Context，然后再由Decoder解码。由于context包含原始序列中的所有信息，它的长度就成了限制模型性能的瓶颈。如机器翻译问题，当要翻译的句子较长时，一个Context可能存不下那么多信息，就会造成精度的下降。除此之外，如果按照上述方式实现，只用到了编码器的最后一个隐藏层状态，信息利用率低下。

所以如果要改进Seq2Seq结构，最好的切入角度就是：利用Encoder所有隐藏层状态 h(t)解决Context长度限制问题。

上下文context表示成如下的方式（h的加权平均）：

那么权重alpha（attention weight）可表示成Q和K的乘积，小h即V（下图中很清楚的看出，Q是大H，K和V是小h）：

6.乘法VS加法attention

加法注意力：

还是以传统的RNN的seq2seq问题为例子，加性注意力是最经典的注意力机制，它使用了有一个隐藏层的前馈网络（全连接）来计算注意力分配：

乘法注意力：

就是常见的用乘法来计算attention score：

乘法注意力不用使用一个全连接层，所以空间复杂度占优；另外由于乘法可以使用优化的矩阵乘法运算，所以计算上也一般占优。

论文中的乘法注意力除了一个scale factor:

论文中指出当dk比较小的时候，乘法注意力和加法注意力效果差不多；但当d_k比较大的时候，如果不使用scale factor，则加法注意力要好一些，因为乘法结果会比较大，容易进入softmax函数的“饱和区”，梯度较小。

7.Luong Attention(简单了解)

注：这里就是把Decoder中的每一次的输入：上一层的输出y换成了Attention。

8.Self-Attention

9.《Attention is all you need》

9.1 encoder

注：词向量加上了positional embedding，即给位置1，2，3，4…n等编码（也用一个embedding表示）。然后在编码的时候可以使用正弦和余弦函数，使得位置编码具有周期性，并且有很好的表示相对位置的关系的特性（对于任意的偏移量k，PE[pos+k]可以由PE[pos]表示）：

输入的序列长度是n，embedding维度是d，所以输入是n*d的矩阵，
N=6，6个重复一样的结构，由两个子层组成：

子层1:

Multi-head self-attention
残余连接和LN： Output = LN (x+sublayer(x))

子层2:

Position-wise fc层(跟卷积很像)：对n*d的矩阵的每一行进行操作（相当于把矩阵每一行铺平，接一个FC），同一层的不同行FC层用一样的参数，不同层用不同的参数(对于全连接的节点数目，先从512变大为2048，再缩小为512)，这里的max表示使用relu激活函数
残差连接（待）

输出：

整个encoder的输出也是n*d的矩阵

9.2 Decoder

输入:假设已经翻译出k个词，向量维度还是d，同样使用N=6个重复的层，依然使用残余连接和LN

3个子层，比encoder多一个attention层，是Decoder端去attend encoder端的信息的层（待）

Sub-L1:

self-attention，同encoder，但要Mask掉未来的信息，得到k*d的矩阵 （这个暂且不懂代码实现）

Sub-L2:

和encoder做attention的层，输出k*d的矩阵，这里就不是self-Attention了。

Sub-L3:

全连接层，输出k*d的矩阵，用第k行去预测输出y

10.mutli-head attention

获取每个子任务的Q、K、V：

通过全连接进行线性变换映射成多个Q、K、V，线性映射得到的结果维度可以不变、也可以减少(类似降维)
或者通过Split对Q、K、V进行划分(分段)

如果采用线性映射的方式，使得维度降低；或者通过split的方式使得维度降低，那么多个head做attention合并起来的复杂度和原来一个head做attention的复杂度不会差多少，而且多个head之间做attention可以并行。

11.代码理解，待补充************

参考链接：

https://zhuanlan.zhihu.com/p/51383402

https://zhuanlan.zhihu.com/p/34781297

文章标签：

机器学习/深度学习

自然语言处理

C++

语音技术

文字识别

关键词：

RNN注意力

RNN seq2seq attention机制

RNN seq2seq attention注意力机制

RNN seq2seq

RNN attention

宋wz

目录

相关文章

楠竹11

|

机器学习/深度学习算法存储

Bengio等人新作：注意力可被视为RNN，新模型媲美Transformer，但超级省内存

【6月更文挑战第3天】Bengio等人提出的新模型Aaren视注意力为特殊RNN，以解决Transformer在资源受限环境中的计算成本高和内存使用问题。Aaren模型通过并行前缀和算法实现高效计算和常数级内存使用，性能接近Transformer，同时在时间序列任务中表现优秀，尤其适合移动设备和嵌入式系统。尽管可能在某些复杂任务上不如Transformer，但其高效性为实时数据处理提供了潜力。论文链接：[https://arxiv.org/pdf/2405.13956](https://arxiv.org/pdf/2405.13956)

楠竹11

387 2 2

张继群mxp-47448

|

机器学习/深度学习存储自然语言处理

NLP中的RNN、Seq2Seq与attention注意力机制（下）

NLP中的RNN、Seq2Seq与attention注意力机制（下）

张继群mxp-47448

244 1 1

张继群mxp-47448

|

机器学习/深度学习存储自然语言处理

NLP中的RNN、Seq2Seq与attention注意力机制（上）

NLP中的RNN、Seq2Seq与attention注意力机制

张继群mxp-47448

254 1 1

aliyun3944920541

|

机器学习/深度学习存储自然语言处理

深入解析序列模型：全面阐释 RNN、LSTM 与 Seq2Seq 的秘密

深入解析序列模型：全面阐释 RNN、LSTM 与 Seq2Seq 的秘密

aliyun3944920541

508 0 0

技术小能手

|

存储机器学习/深度学习大数据

RNN和LSTM弱！爆！了！注意力模型才是王道

技术小能手

10132 0 1

技术小能手

|

机器学习/深度学习自然语言处理 TensorFlow

TensorFlow系列专题（十一）：RNN的应用及注意力模型

技术小能手

4265 0 0

阿旭算法与机器学习

|

机器学习/深度学习

【从零开始学习深度学习】33.语言模型的计算方式及循环神经网络RNN简介

【从零开始学习深度学习】33.语言模型的计算方式及循环神经网络RNN简介

阿旭算法与机器学习

209 0 0

【从零开始学习深度学习】33.语言模型的计算方式及循环神经网络RNN简介

郑小健

|

机器学习/深度学习数据采集存储

时间序列预测新突破：深入解析循环神经网络（RNN）在金融数据分析中的应用

【10月更文挑战第7天】时间序列预测是数据科学领域的一个重要课题，特别是在金融行业中。准确的时间序列预测能够帮助投资者做出更明智的决策，比如股票价格预测、汇率变动预测等。近年来，随着深度学习技术的发展，尤其是循环神经网络（Recurrent Neural Networks, RNNs）及其变体如长短期记忆网络（LSTM）和门控循环单元（GRU），在处理时间序列数据方面展现出了巨大的潜力。本文将探讨RNN的基本概念，并通过具体的代码示例展示如何使用这些模型来进行金融数据分析。

郑小健

1478 2 2

小森ai小小贾

|

机器学习/深度学习自然语言处理算法

RNN-循环神经网络

自然语言处理（Nature language Processing, NLP）研究的主要是通过计算机算法来理解自然语言。对于自然语言来说，处理的数据主要就是人类的语言，我们在进行文本数据处理时，需要将文本进行数据值化，然后进行后续的训练工作。

小森ai小小贾

289 3 4

阿旭算法与机器学习

|

机器学习/深度学习自然语言处理算法

【从零开始学习深度学习】49.Pytorch_NLP项目实战：文本情感分类---使用循环神经网络RNN

【从零开始学习深度学习】49.Pytorch_NLP项目实战：文本情感分类---使用循环神经网络RNN

阿旭算法与机器学习

394 1 1

热门文章

最新文章

CNN-RNN中文文本分类，基于TensorFlow 实现

TensorFlow系列专题（十一）：RNN的应用及注意力模型

图解NLP模型发展：从RNN到Transformer

一文读懂 CNN、DNN、RNN 内部网络结构区别

用深度学习（CNN RNN Attention）解决大规模文本分类问题 - 综述和实践

Python深度学习面试：CNN、RNN与Transformer详解

RNN、CNN、RNN、LSTM、CTC算法原理，pytorch实现LSTM算法

PyTorch搭建RNN联合嵌入模型（LSTM GRU）实现视觉问答（VQA）实战（超详细附数据集和源码）

人工智能创新挑战赛：海洋气象预测Baseline[4]完整版（TensorFlow、torch版本）含数据转化、模型构建、MLP、TCNN+RNN、LSTM模型训练以及预测

DL框架之MXNet ：神经网络算法简介之MXNet 常见使用方法总结(神经网络DNN、CNN、RNN算法)之详细攻略(个人使用)

SUPRA：无须额外训练，将Transformer变为高效RNN，推理速度倍增

一文搞懂 FFN / RNN / CNN 的参数量计算公式！！

一文介绍CNN/RNN/GAN/Transformer等架构！！

深度学习500问——Chapter06：循环神经网络（RNN）（4）

深度学习500问——Chapter06：循环神经网络（RNN）（3）

深度学习500问——Chapter06：循环神经网络（RNN）（2）

深度学习500问——Chapter06：循环神经网络（RNN）（1）

TensorFlow 2keras开发深度学习模型实例：多层感知器（MLP），卷积神经网络（CNN）和递归神经网络（RNN）

Matlab用深度学习循环神经网络RNN长短期记忆LSTM进行波形时间序列数据预测

Python深度学习面试：CNN、RNN与Transformer详解

相关电子书

更多

机器能理解上下文吗-RNN和LSTM神经网络的原理及应用

低代码开发师（初级）实战教程

阿里巴巴DevOps 最佳实践手册

下一篇

PolarDB MySQL 版 Serverless-测评