理解LSTM网络（整合）

2022-05-17 252

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： LSTM 已经在科技领域有了多种应用。基于 LSTM 的系统可以学习翻译语言、控制机器人、图像分析、文档摘要、语音识别图像识别、手写识别、控制聊天机器人、预测疾病、点击率和股票、合成音乐等等任务。下面是自己学习过程中收集的LSTM资料

Recurrent Neural Networks

RNN 是包含循环的网络，允许信息的持久化。

在上面的示例图中，神经网络的模块A,正在读取某个输入 X_t，并输出一个值 h_t。循环可以使得信息可以从当前步传递到下一步。

RNN 可以被看做是同一神经网络的多次复制，每个神经网络模块会把消息传递给下一个。所以，如果我们将这个循环展开：

展开的RNN

链式的特征揭示了 RNN 本质上是与序列和列表相关的。他们是对于这类数据的最自然的神经网络架构。

LSTM 是一种特别的 RNN，比标准的 RNN 在很多的任务上都表现得更好。几乎所有的令人振奋的关于 RNN 的结果都是通过 LSTM 达到的。

长期依赖（Long-Term Dependencies）问题

RNN 的关键点之一就是他们可以用来连接先前的信息到当前的任务上，例如使用过去的视频段来推测对当前段的理解。如果 RNN 可以做到这个，他们就变得非常有用。但是真的可以么？答案是，还有很多依赖因素。

有时候，我们仅仅需要知道先前的信息来执行当前的任务。例如，我们有一个语言模型用来基于先前的词来预测下一个词。如果我们试着预测 “the clouds are in the sky” 最后的词，我们并不需要任何其他的上下文 —— 因此下一个词很显然就应该是 sky。在这样的场景中，相关的信息和预测的词位置之间的间隔是非常小的，RNN 可以学会使用先前的信息。

不太长的相关信息和位置间隔

但是同样会有一些更加复杂的场景。假设我们试着去预测“I grew up in France... I speak fluent French”最后的词。当前的信息建议下一个词可能是一种语言的名字，但是如果我们需要弄清楚是什么语言，我们是需要先前提到的离当前位置很远的 France 的上下文的。这说明相关信息和当前预测位置之间的间隔就肯定变得相当的大。

不幸的是，在这个间隔不断增大时，RNN 会丧失学习到连接如此远的信息的能力

相当长的相关信息和位置间隔

在理论上，RNN 绝对可以处理这样的长期依赖问题。人们可以仔细挑选参数来解决这类问题中的最初级形式，但在实践中，RNN 肯定不能够成功学习到这些知识。Bengio, et al. (1994)等人对该问题进行了深入的研究，他们发现一些使训练 RNN 变得非常困难的相当根本的原因。

然而，幸运的是，LSTM 并没有这个问题！

LSTM 网络

LSTM结构
各种元素的图标
遗忘门：决定让那些信息继续通过这个 cell
这是通过一个叫做“forget gate layer ”的sigmoid 神经层来实现的。它的输入是ht−1和xt，输出是一个数值都在 0，1 之间的向量（向量长度和 cell 的状态 C_t−1 一样），表示让 C_t−1 的各部分信息通过的比重。 0 表示“不让任何信息通过”， 1 表示“让所有信息通过”。

遗忘门 (forget gates)
输入门：决定让多少新的信息加入到 cell 状态中来
步骤1：一个叫做“input gate layer ”的 sigmoid 层决定哪些信息需要更新；一个 tanh 层生成一个向量，也就是备选的用来更新的内容，C_t^~

输入门 (input gates)

有了上述的结构，我们就能够更新 cell 状态了，即把C_t−1更新为 C_t。从结构图中应该能一目了然，首先我们把旧的状态 C_t−1和f_t相乘，把一些不想保留的信息忘掉。然后加上i_t∗C_t^~ 。这部分信息就是我们要添加的新内容。

更新 cell 状态

输出门:决定输出什么值
这个输出主要是依赖于 cell 的状态C_t，但是又不仅仅依赖于 C_t，而是需要经过一个过滤的处理。首先，我们还是使用一个 sigmoid 层来（计算出）决定C_t中的哪部分信息会被输出。接着，我们把Ct通过一个 tanh 层（把数值都归到 -1 和 1 之间），然后把 tanh 层的输出和 sigmoid 层计算出来的权重相乘，这样就得到了最后输出的结果。

输出门 (output gates)

综合感受下：

总览

内容来自：

GRU - Gated Recurrent Unit - 中文直译：门控循环单元

GRU作为LSTM的一种变体，将忘记门和输入门合成了一个单一的更新门。同样还混合了细胞状态和隐藏状态，加诸其他一些改动。最终的模型比标准的 LSTM 模型要简单，也是非常流行的变体。

GRU结构

内容来自:

BiLSTM(Bi-directional LSTM)- 双向LSTM

Bi-LSTM大致的思路是这样的，看图中最下方的输入层，假设一个样本（句子）有10个 timestep （字）的输入 x₁,x₂,...,x₁₀。现在有两个相互分离的 LSTMCell：

对于前向 fw_cell ，样本按照 x₁,x₂,...,x₁₀ 的顺序输入 cell 中，得到第一组状态输出 {h₁,h₂,...,h₁₀} ;
对于反向 bw_cell ，样本按照 x₁₀,x₉,...,x₁ 的反序输入 cell 中，得到第二组状态输出 {h₁₀,h₉,...,[h₁ };
得到的两组状态输出的每个元素是一个长度为 hidden_size 的向量（一般情况下，h1和h1长度相等）。现在按照下面的形式把两组状态变量拼起来{[h₁,h₁], [h₂,h₂], … , [h₁₀,h₁₀]}。
最后对于每个 timestep 的输入 xt, 都得到一个长度为 2*hidden_size 的状态输出 Ht= [ht,ht]。然后呢，后面处理方式和单向 LSTM 一样。
内容来自：

理解LSTM网络（整合）

Recurrent Neural Networks

长期依赖（Long-Term Dependencies）问题

LSTM 网络

GRU - Gated Recurrent Unit - 中文直译：门控循环单元

BiLSTM(Bi-directional LSTM)- 双向LSTM

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

理解LSTM网络（整合）

Recurrent Neural Networks

长期依赖（Long-Term Dependencies）问题

LSTM 网络

GRU - Gated Recurrent Unit - 中文直译：门控循环单元

BiLSTM(Bi-directional LSTM)- 双向LSTM

热门文章

最新文章

相关课程

相关电子书

相关实验场景