循环神经网络|深度学习(李宏毅)(五)

简介: 循环神经网络|深度学习(李宏毅)(五)

一、RNN的引出(槽位填充问题)

  • 槽位填充问题
      槽位填充问题:如下图所示,在售票系统中需要将客户的一句话中的信息提取出来填充到对应的槽位下:


QQ图片20220531185713.png


  • 词的表示方法


  1. 1-of-N Encoding(独热编码)


  在知道总共有几个词的情况下使用。


QQ图片20220531185745.png



  1. Beyond 1-of-N encoding


2.1 为独热编码增加“other”维度


QQ图片20220531185812.png


2.2 Word hashing


  词向量的每一个维度表示一个序列,如果词中出现该序列则标记为1。


QQ图片20220531185839.png



  • 使用前馈神经网络解决槽位填充问题


  按照解决多分类问题的思路使用前馈神经网络来解决槽位填充问题,但是使用前馈神经网络有一定的局限性。


  输入:词向量


  输出:该词属于某一槽位的概率


QQ图片20220531185907.png


使用前馈网络解决槽位填充问题


  • 使用前馈神经网络存在的问题


QQ图片20220531185936.png


  由上图可知,Taipei一词属于哪一个槽位还与其上下文有关,因此解决该问题的神经网络需要具有记忆,由此引入了具有记忆的神经网络——循环神经网络(RNN)。


二、循环神经网络(本小节指的是简单RNN)


  • RNN直观的架构



  循环神经网络相当于在全连接网络的隐藏层加入多个“memory”节点,隐藏层的输出值被保存在memory中,由此完成了“记忆”的过程,隐藏层的输入除了输入层的输入以外还包括memory中保存的数据,隐藏层的输出除了要传播到输出层以外还会用于更新memory中的值。其简单的架构图如下:


QQ图片20220531190011.png


  • RNN详细的架构


QQ图片20220531190033.png

QQ图片20220531190111.png


  • 使用循环神经网络解决槽位填充问题


  将每个词向量输入到RNN中,得到的每一个输出向量表示对应的词属于某一个槽位的概率。


QQ图片20220531190145.png


  回到上文中提到的“arrive”和“leave”问题,由于这两个词的词向量是不同的,因此在获得“Taipei”一词的输出时就不会像前馈神经网络一样得到相同的结果,说明网络的记忆为解决需要考虑上下文的槽位填充问题提供了可能。


QQ图片20220531190212.png


  • 深层RNN


  RNN也可以“deep”,将RNN叠加到一起可以形成深层的RNN。


QQ图片20220531190248.png


  • RNN变种


  1. Elman Network


  上述RNN为Elman Network架构,其主要特点是将隐藏层的输出保存在memory中传给下一个时间点。


QQ图片20220531190316.png


  1. Jordan Network


  与Elman Network不同的是Jordan Network是将网络的输出层的输出保存在memory中传给下一个时间点。这样同Elman Network比起来我们更清楚memory中保存了什么。


QQ图片20220531190339.png


  1. Bidirectional RNN(RNN)


  在Elman Network和Jordan Network中网络的某一个输出值只取决于这个输出对应的输入以及这个输入之前的输入的影响,而双向RNN的每一个输出值都会受到所有的输入的影响,真正地考虑了“上下文”。


QQ图片20220531190406.png


三、Long Short-term Memory (LSTM 长短期记忆网络)


  在简单RNN中某一个时间点的memory会直接全部清洗掉上一个时间点的memory,而在LSTM中由于加入了遗忘门使得网络的上一个时间点的memory有机会根据遗忘门的值来保留下一部分。


  • LSTM直观的架构


  LSTM的一个cell有4个输入和一个输出,输入包括3个门结构(输入门、输出门、遗忘门)以及cell的输入,其简单架构图如下:


QQ图片20220531190439.png



  门结构的值通常使用sigmoid函数作为激活函数,因此其值均会在0-1之间。cell的输入会与输入门的值进行相乘来决定输入有多少可以进入cell,遗忘门的值决定原来的memory cell中的“记忆”有多少可以被保留,输入门的值决定cell中的值有多少可以输出。其具体的传播过程如下图,其中QQ图片20220531190544.png、、为门结构的输出值:

QQ图片20220531190541.png

QQ图片20220531190624.png


  • LSTM详细的架构


  下图展示了一个LSTM cell的细节,在这个图中将上一个时间点的输出向量与当前时间点的输入向量拼接到一起作为当前时间点的输入:


QQ图片20220531190657.png


  • LSTM cell不同时间点之间的关系


  LSTM会以下图的连接方式连接不同的时间点:


QQ图片20220531190722.png



  然而上图并非LSTM的最终状态,LSTM还会把上一个时间点的输出以及存在于memory cell中的值与当前时间点的输入拼接到一起,通过这种方式使得操控LSTM四个输入的时候同时考虑了当前时间点的输入、上一个时间点的输出以及保存在memory cell中的值:


QQ图片20220531190748.png

深层LSTM


  LSTM也可以“deep”,将LSTM叠加到一起可以形成深层的LSTM。


QQ图片20220531190819.png



四、RNN的训练


  • 反向传播


  RNN的反向传播使用一种特殊的方式,叫做Backpropagation through time (BPTT 随时间反向传播)。


  • 梯度消失与梯度爆炸


QQ图片20220531190850.png


  在训练RNN时我们希望训练过程中的loss像蓝色的线那样变化,但是不幸的是有时候loss的变化会像绿色的线那样。


  RNN的loss在有些地方非常陡峭,有些地方又非常平坦,有时梯度更新到“悬崖”的地方再进行更新就会飞出很远,即梯度爆炸。使用clipping可以缓解这个问题,即设置一个梯度的极限值,当梯度大于这个值时就让梯度等于这个值。更新梯度的变化图如下所示:


QQ图片20220531190928.png

QQ图片20220531191021.png


  使用LSTM可以解决梯度消失问题,这是因为与简单RNN不同的是LSTM更新memory的方式是将上一个时间点的memory保留一部分再与输入相加,因此前面时间点的memory会一直对输出结果有影响,这样就不会产生梯度消失问题,而简单RNN会在当前时间点更新memory时完全洗掉上一个时间点的memory。简单RNN和LSTM更新memory的方式如下:


QQ图片20220531191056.png


  另外需要注意在简单RNN中随机初始化参数时使用sigmoid激活函数会比使用ReLU效果更好一些,但是使用单位矩阵初始化参数时ReLU激活函数会比sigmoid激活函数效果要好。


参考资料


ref:吴茂贵《Python深度学习:基于TensorFlow》

相关文章
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
本文旨在通过深入浅出的方式,为读者揭示卷积神经网络(CNN)的神秘面纱,并展示其在图像识别领域的实际应用。我们将从CNN的基本概念出发,逐步深入到网络结构、工作原理以及训练过程,最后通过一个实际的代码示例,带领读者体验CNN的强大功能。无论你是深度学习的初学者,还是希望进一步了解CNN的专业人士,这篇文章都将为你提供有价值的信息和启发。
|
4天前
|
机器学习/深度学习 人工智能 网络架构
深入理解深度学习中的卷积神经网络(CNN)
深入理解深度学习中的卷积神经网络(CNN)
20 1
|
6天前
|
机器学习/深度学习 人工智能 算法框架/工具
深度学习中的卷积神经网络(CNN)入门
【10月更文挑战第41天】在人工智能的璀璨星空下,卷积神经网络(CNN)如一颗耀眼的新星,照亮了图像处理和视觉识别的路径。本文将深入浅出地介绍CNN的基本概念、核心结构和工作原理,同时提供代码示例,带领初学者轻松步入这一神秘而又充满无限可能的领域。
|
12天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的卷积神经网络:从理论到实践
【10月更文挑战第35天】在人工智能的浪潮中,深度学习技术以其强大的数据处理能力成为科技界的宠儿。其中,卷积神经网络(CNN)作为深度学习的一个重要分支,在图像识别和视频分析等领域展现出了惊人的潜力。本文将深入浅出地介绍CNN的工作原理,并结合实际代码示例,带领读者从零开始构建一个简单的CNN模型,探索其在图像分类任务中的应用。通过本文,读者不仅能够理解CNN背后的数学原理,还能学会如何利用现代深度学习框架实现自己的CNN模型。
|
11天前
|
机器学习/深度学习 人工智能 算法框架/工具
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【10月更文挑战第36天】探索卷积神经网络(CNN)的神秘面纱,揭示其在图像识别领域的威力。本文将带你了解CNN的核心概念,并通过实际代码示例,展示如何构建和训练一个简单的CNN模型。无论你是深度学习的初学者还是希望深化理解,这篇文章都将为你提供有价值的见解。
|
12天前
|
机器学习/深度学习 人工智能 自动驾驶
深入解析深度学习中的卷积神经网络(CNN)
深入解析深度学习中的卷积神经网络(CNN)
29 0
|
14天前
|
机器学习/深度学习 人工智能 自动驾驶
深度学习的奇迹:如何用神经网络识别图像
【10月更文挑战第33天】在这篇文章中,我们将探索深度学习的奇妙世界,特别是卷积神经网络(CNN)在图像识别中的应用。我们将通过一个简单的代码示例,展示如何使用Python和Keras库构建一个能够识别手写数字的神经网络。这不仅是对深度学习概念的直观介绍,也是对技术实践的一次尝试。让我们一起踏上这段探索之旅,看看数据、模型和代码是如何交织在一起,创造出令人惊叹的结果。
25 0
|
15天前
|
机器学习/深度学习 人工智能 TensorFlow
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【10月更文挑战第32天】本文将介绍深度学习中的一个重要分支——卷积神经网络(CNN),以及其在图像识别领域的应用。我们将通过一个简单的代码示例,展示如何使用Python和TensorFlow库构建一个基本的CNN模型,并对其进行训练和测试。
|
21天前
|
机器学习/深度学习 自然语言处理 TensorFlow
深度学习中的卷积神经网络(CNN)及其应用
【10月更文挑战第26天】在这篇文章中,我们将深入探讨卷积神经网络(CNN)的基本原理、结构和应用。CNN是深度学习领域的一个重要分支,广泛应用于图像识别、语音处理等领域。我们将通过代码示例和实际应用案例,帮助读者更好地理解CNN的概念和应用。
|
5月前
|
机器学习/深度学习 PyTorch 算法框架/工具
【从零开始学习深度学习】28.卷积神经网络之NiN模型介绍及其Pytorch实现【含完整代码】
【从零开始学习深度学习】28.卷积神经网络之NiN模型介绍及其Pytorch实现【含完整代码】

热门文章

最新文章

下一篇
无影云桌面