循环神经网络|深度学习（李宏毅）（五）

2022-05-31 170

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 循环神经网络|深度学习（李宏毅）（五）

一、RNN的引出（槽位填充问题）

槽位填充问题
槽位填充问题：如下图所示，在售票系统中需要将客户的一句话中的信息提取出来填充到对应的槽位下：

QQ图片20220531185713.png

词的表示方法

1-of-N Encoding(独热编码)

在知道总共有几个词的情况下使用。

QQ图片20220531185745.png

Beyond 1-of-N encoding

2.1 为独热编码增加“other”维度

QQ图片20220531185812.png

2.2 Word hashing

词向量的每一个维度表示一个序列，如果词中出现该序列则标记为1。

QQ图片20220531185839.png

使用前馈神经网络解决槽位填充问题

按照解决多分类问题的思路使用前馈神经网络来解决槽位填充问题，但是使用前馈神经网络有一定的局限性。

输入：词向量

输出：该词属于某一槽位的概率

QQ图片20220531185907.png

使用前馈网络解决槽位填充问题

使用前馈神经网络存在的问题

QQ图片20220531185936.png

由上图可知，Taipei一词属于哪一个槽位还与其上下文有关，因此解决该问题的神经网络需要具有记忆，由此引入了具有记忆的神经网络——循环神经网络（RNN）。

二、循环神经网络（本小节指的是简单RNN）

RNN直观的架构

循环神经网络相当于在全连接网络的隐藏层加入多个“memory”节点，隐藏层的输出值被保存在memory中，由此完成了“记忆”的过程，隐藏层的输入除了输入层的输入以外还包括memory中保存的数据，隐藏层的输出除了要传播到输出层以外还会用于更新memory中的值。其简单的架构图如下：

QQ图片20220531190011.png

RNN详细的架构

QQ图片20220531190033.png

QQ图片20220531190111.png

使用循环神经网络解决槽位填充问题

将每个词向量输入到RNN中，得到的每一个输出向量表示对应的词属于某一个槽位的概率。

QQ图片20220531190145.png

回到上文中提到的“arrive”和“leave”问题，由于这两个词的词向量是不同的，因此在获得“Taipei”一词的输出时就不会像前馈神经网络一样得到相同的结果，说明网络的记忆为解决需要考虑上下文的槽位填充问题提供了可能。

QQ图片20220531190212.png

深层RNN

RNN也可以“deep”，将RNN叠加到一起可以形成深层的RNN。

QQ图片20220531190248.png

RNN变种

Elman Network

上述RNN为Elman Network架构，其主要特点是将隐藏层的输出保存在memory中传给下一个时间点。

QQ图片20220531190316.png

Jordan Network

与Elman Network不同的是Jordan Network是将网络的输出层的输出保存在memory中传给下一个时间点。这样同Elman Network比起来我们更清楚memory中保存了什么。

QQ图片20220531190339.png

Bidirectional RNN（RNN）

在Elman Network和Jordan Network中网络的某一个输出值只取决于这个输出对应的输入以及这个输入之前的输入的影响，而双向RNN的每一个输出值都会受到所有的输入的影响，真正地考虑了“上下文”。

QQ图片20220531190406.png

三、Long Short-term Memory (LSTM 长短期记忆网络)

在简单RNN中某一个时间点的memory会直接全部清洗掉上一个时间点的memory，而在LSTM中由于加入了遗忘门使得网络的上一个时间点的memory有机会根据遗忘门的值来保留下一部分。

LSTM直观的架构

LSTM的一个cell有4个输入和一个输出，输入包括3个门结构（输入门、输出门、遗忘门）以及cell的输入，其简单架构图如下：

QQ图片20220531190439.png

门结构的值通常使用sigmoid函数作为激活函数，因此其值均会在0-1之间。cell的输入会与输入门的值进行相乘来决定输入有多少可以进入cell，遗忘门的值决定原来的memory cell中的“记忆”有多少可以被保留，输入门的值决定cell中的值有多少可以输出。其具体的传播过程如下图，其中 QQ图片20220531190544.png 、、为门结构的输出值：

QQ图片20220531190541.png

QQ图片20220531190624.png

LSTM详细的架构

下图展示了一个LSTM cell的细节，在这个图中将上一个时间点的输出向量与当前时间点的输入向量拼接到一起作为当前时间点的输入：

QQ图片20220531190657.png

LSTM cell不同时间点之间的关系

LSTM会以下图的连接方式连接不同的时间点：

QQ图片20220531190722.png

然而上图并非LSTM的最终状态，LSTM还会把上一个时间点的输出以及存在于memory cell中的值与当前时间点的输入拼接到一起，通过这种方式使得操控LSTM四个输入的时候同时考虑了当前时间点的输入、上一个时间点的输出以及保存在memory cell中的值：

QQ图片20220531190748.png

深层LSTM

LSTM也可以“deep”，将LSTM叠加到一起可以形成深层的LSTM。

QQ图片20220531190819.png

四、RNN的训练

反向传播

RNN的反向传播使用一种特殊的方式，叫做Backpropagation through time (BPTT 随时间反向传播)。

梯度消失与梯度爆炸

QQ图片20220531190850.png

在训练RNN时我们希望训练过程中的loss像蓝色的线那样变化，但是不幸的是有时候loss的变化会像绿色的线那样。

RNN的loss在有些地方非常陡峭，有些地方又非常平坦，有时梯度更新到“悬崖”的地方再进行更新就会飞出很远，即梯度爆炸。使用clipping可以缓解这个问题，即设置一个梯度的极限值，当梯度大于这个值时就让梯度等于这个值。更新梯度的变化图如下所示：

QQ图片20220531190928.png

QQ图片20220531191021.png

使用LSTM可以解决梯度消失问题，这是因为与简单RNN不同的是LSTM更新memory的方式是将上一个时间点的memory保留一部分再与输入相加，因此前面时间点的memory会一直对输出结果有影响，这样就不会产生梯度消失问题，而简单RNN会在当前时间点更新memory时完全洗掉上一个时间点的memory。简单RNN和LSTM更新memory的方式如下：

QQ图片20220531191056.png

另外需要注意在简单RNN中随机初始化参数时使用sigmoid激活函数会比使用ReLU效果更好一些，但是使用单位矩阵初始化参数时ReLU激活函数会比sigmoid激活函数效果要好。

参考资料

ref:吴茂贵《Python深度学习：基于TensorFlow》

循环神经网络|深度学习（李宏毅）（五）

一、RNN的引出（槽位填充问题）

二、循环神经网络（本小节指的是简单RNN）

三、Long Short-term Memory (LSTM 长短期记忆网络)

四、RNN的训练

参考资料

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

循环神经网络|深度学习（李宏毅）（五）

一、RNN的引出（槽位填充问题）

二、循环神经网络（本小节指的是简单RNN）

三、Long Short-term Memory (LSTM 长短期记忆网络)

四、RNN的训练

参考资料

热门文章

最新文章

相关课程

相关电子书

相关实验场景