深度学习500问——Chapter06: 循环神经网络(RNN)(1)

简介: 深度学习500问——Chapter06: 循环神经网络(RNN)(1)

6.1 为什么需要RNN

时间序列数据是指在不同时间点上收集到的数据,这类数据反映了某一事物、现象等随时间的变化状态或程度。一般的神经网络,在训练数据足够、算法模型优越的情况下,给定特定的x,就能得到期望y。其一般处理单个的输入,前一个输入和后一个输入完全无关,但实际应用中,某些任务需要能够更好的处理序列的信息,即前面的输入和后面的输入是有关系的。比如:

当我们在理解一句话意思时,孤立的理解这句话的每个词不足以理解整体意思,我们通常需要处理这些词连接起来的整个序列;当我们处理视频的时候,我们也不能只单独的去分析每一帧,而要分析这些帧连接起来的整个序列。为了解决一些这样类似的问题,能够更好的处理序列的信息,RNN就由此诞生了。

6.2 图解RNN基本结构

6.2.1 基本的单层网络结构

在进一步了解RNN之前,先给出最基本的单层网络结构,输入是x,经过变换Wx+b和激活函数f得到输出y

6.2.2 图解经典RNN结构

在实际应用中,我们还会遇到很多序列形的数据。如:

  • 自然语言处理问题。x1 可以看作是第一个单词, 可以看作是第二个单词,依次类推。
  • 语音处理。此时,x1,x2,x3..... 是每帧的声音。
  • 时间序列问题。例如每天的股票价格等等。

其单个序列如下图所示:

前面介绍了诸如此类的序列数据用原始的神经网络难以建模,基于此,RNN引入了隐状态(hidden state),可对序列数据提取特征,接着再转换为输出。

为了便于理解,先计算h1

注:图中的圆圈表示向量,箭头表示对向量做变换。


RNN中,每个步骤使用的参数U,W,b相同,ℎ2的计算方式和ℎ1类似,其计算结果如下:

计算 也相似,可得:

接下来,计算RNN的输出y1,采用Softmax作为激活函数,根据yn=f(Wx+b) ,得y1


使用和y1相同的参数V,c,得到y1,y2,y3,y4的输出结构:

以上即为最经典的RNN结构,其输入为x1,x2,x3,x4,输出为y1,y2,y3,y4,当然实际中最大值为yn,这里为了便于理解和展示,只计算4个输入和输出。从以上结构可看出,RNN结构的输入和输出等长。

6.2.3 vector-to-sequence结构

有时我们要处理的问题输入是一个单独的值,输出是一个序列。此时,有两种主要建模方式:

方式一:可只在其中的某一个序列进行计算,比如序列第一个进行输入计算,其建模方式如下:

方式二:把输入信息 X 作为每个阶段的输入,其建模方式如下:

6.2.4 sequence-to-vector结构

有时我们要处理的问题输入是一个序列,输出是一个单独的值,此时通常在最后的一个序列上进行输出变换。其建模如下所示:

6.2.5 Encoder-Decoder结构

原始的sequence-to-sequence结构的RNN要求序列等长,然而我们遇到的大部分问题序列都是不等长的,如机器翻译中,源语言和目标语言的句子往往没有相同的长度。

其建模步骤如下:

步骤1:将输入数据编码成一个上下文向量 ,这部分称为Encoder,得到的 有多种方式,最简单的方法就是把Encoder的最后一个隐状态赋值给 ,还可以对最后的隐状态做一个变换得到 ,也可以对所有的隐状态做变换。其示意如下所示:

步骤2:用另一个RNN网络(我们将其称为Decoder)对其进行编码。

方法一是将步骤1中的 作为初始状态输入到Decoder,示意图如下所示:

方法二是将 作为Decoder的每一步输入,示意图如下所示:

6.2.6 以上三种结构各有怎样的应用场景

网络结构 结构图示 应用场景举例
1 vs N

1、从图像生成文字,输入为图像的特征,输出为一段句子

2、根据图像生成语音或音乐,输入为图像特征,输出为一段语音或音乐

N vs 1

1、输出一段文字,判断其所属类别

2、输入一个句子,判断其情感倾向

3、输入一段视频,判断其所属类别

N vs M

1、机器翻译,输入一种语言文本序列,输出另一种语言文本序列

2、文本摘要,输入文本序列,输出这段文本序列摘要

3、阅读理解,输入文章,输出问题答案

4、语音识别,输入语音序列信息,输出文字序列

6.2.7 图解RNN中的Attention机制

在上述通用的Encoder-Decoder结构中,Encoder把所有的输入序列都编码成一个统一的语义特征再解码,因此,中必须包含原始序列中的所有信息,它的长度就成了限制模型性能的瓶颈。如机器翻译问题,当要翻译的句子较长时,一个可能存不下那么多信息,就会造成翻译精度的下降。Attention机制通过在每个时间输入不同的来解决此问题。

引入了Attention机制的Decoder后,有不同的,每个会自动选择与当前输出最匹配的上下文信息,其示意图如下所示:


举例:比如输入序列是“我爱中国”,要将此输入翻译成英文:

假如用aij衡量Encoder中第 阶段的hj和解码时第 阶段的相关性,aij从模型中学习得到,和Decoder的第i1阶段的隐状态、Encoder第 个阶段的隐状态有关,比如a3j的计算示意如下所示:


最终Decoder中第 阶段的输入的上下文信息ci来自所有hjaij的加权和。

其示意图如下图所示:


在Encoder中,h1,h2,h3,h4分别代表“我”,“爱”,“中”,“国”所代表信息。翻译的过程中,c1会选择和“我”最相关的上下午信息,如上图所示,会优先选择a11,以此类推,c2会优先选择相关性较大的a22会优先选择相关性较大的a33,a34,这就是Aattention机制。

6.3 RNNs典型特点

1、RNN主要用于处理序列数据。对于传统的神经网络模型,从输入层到隐含层再到输出层,层与层之间一般为全连接,每层之间神经元是无连接的。但是传统神经网络无法处理数据间的前后关联问题。例如,为了预测句子的下一个单词,一般需要该词之前的语义信息。这是因为一个句子中前后单词是存在语义联系的。

2、RNNs中当前单元的输出与之前步骤输出也有关,因此称之为循环神经网络。具体的表现形式为当前单元会对之前步骤信息进行存储并应用与当前输出的计算中。隐藏层之间的节点连接起来,隐藏层当前输出由当前时刻输入向量和之前时刻隐藏层状态共同决定。

3、标准的RNNs结构图中,图中每个箭头代表做一次变换,也就是说箭头连接带有权值。

4、在标准的RNN结构中。隐藏层的神经元之间也是带有权值的,且权值共享。

5、理论上,RNNs能够对任何长度序列数据进行处理。但是在实践中,为了降低复杂度往往假设当前状态只与之前某几个时刻状态相关,下图便是一个典型的RNNs:

  • 输入单元(Input units):输入集
  • 输出单元(Output units):输出集{y0,y1,,yt,yt+1,}
  • 隐藏单元(Hidden units):输出集s{s0,s1,,st,st+1,}

图中信息传递特点:

  1. 一条单向流动的信息流是从输入单元到隐藏单元。
  2. 一条单向流动的信息流从隐藏单元到输出单元。
  3. 在某些情况下,RNNs会打破后者的限制,引导信息从输出单元返回隐藏单元,这些被称为“Back Projections”。
  4. 当前单元(cell)输出是由当前时刻输入和上一时刻隐藏层状态共同决定。

目录
相关文章
|
9天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习的奥秘:探索神经网络的核心原理
本文将深入浅出地介绍深度学习的基本概念,包括神经网络的结构、工作原理以及训练过程。我们将从最初的感知机模型出发,逐步深入到现代复杂的深度网络架构,并探讨如何通过反向传播算法优化网络权重。文章旨在为初学者提供一个清晰的深度学习入门指南,同时为有经验的研究者回顾和巩固基础知识。
33 11
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习的魔法:如何用神经网络解锁数据的奥秘
在人工智能的璀璨星空中,深度学习犹如一颗最亮的星,它以其强大的数据处理能力,改变了我们对世界的认知方式。本文将深入浅出地介绍深度学习的核心概念、工作原理及其在不同领域的应用实例,让读者能够理解并欣赏到深度学习技术背后的奇妙和强大之处。
23 3
|
3天前
|
机器学习/深度学习 人工智能 TensorFlow
深度学习入门:理解卷积神经网络(CNN)
【9月更文挑战第14天】本文旨在为初学者提供一个关于卷积神经网络(CNN)的直观理解,通过简单的语言和比喻来揭示这一深度学习模型如何识别图像。我们将一起探索CNN的基本组成,包括卷积层、激活函数、池化层和全连接层,并了解它们如何协同工作以实现图像分类任务。文章末尾将给出一个简单的代码示例,帮助读者更好地理解CNN的工作原理。
16 7
|
1天前
|
机器学习/深度学习 算法 算法框架/工具
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【9月更文挑战第16天】本文将深入浅出地介绍卷积神经网络(CNN)的基本概念、结构和工作原理,同时通过一个实际的代码示例来展示如何在Python中使用Keras库构建一个简单的CNN模型进行图像识别。我们将看到,即使是初学者也能够通过简单的步骤实现深度学习的强大功能,进而探索其在复杂数据集上的应用潜力。
|
2天前
|
机器学习/深度学习 自动驾驶 搜索推荐
深度学习之探索神经网络、感知器与损失函数
在当今的数字化时代,深度学习作为一种强大的机器学习技术,正在迅速改变着我们的生活方式。无论是智能推荐系统、自动驾驶车辆还是语音识别应用,深度学习都在背后默默地发挥作用。
9 1
|
6天前
|
机器学习/深度学习 监控 并行计算
深度学习之生物网络推理
基于深度学习的生物网络推理利用深度学习技术来解析和理解生物网络(如基因调控网络、代谢网络、蛋白质-蛋白质相互作用网络等)的复杂关系和动态行为。
19 5
|
5天前
|
机器学习/深度学习 编解码 自然语言处理
深度学习中的对抗生成网络
本文深入探讨了深度学习中的一种重要模型——对抗生成网络(GAN)。通过详细介绍其基本原理、结构组成以及训练过程,揭示了GAN在数据生成方面的独特优势。同时,文章还讨论了GAN在图像处理、自然语言处理等领域的广泛应用,并指出了其面临的挑战及未来发展方向。
11 2
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI的奥秘:深度学习与神经网络
【9月更文挑战第11天】本文将深入探讨人工智能的核心领域——深度学习,以及其背后的神经网络技术。我们将从基础理论出发,逐步深入到实践应用,揭示这一领域的神秘面纱。无论你是AI领域的初学者,还是有一定基础的开发者,都能在这篇文章中获得新的启示和理解。让我们一起踏上这场探索之旅,揭开AI的神秘面纱,体验深度学习的魅力。
|
9天前
|
机器学习/深度学习 数据采集 数据可视化
深度学习实践:构建并训练卷积神经网络(CNN)对CIFAR-10数据集进行分类
本文详细介绍如何使用PyTorch构建并训练卷积神经网络(CNN)对CIFAR-10数据集进行图像分类。从数据预处理、模型定义到训练过程及结果可视化,文章全面展示了深度学习项目的全流程。通过实际操作,读者可以深入了解CNN在图像分类任务中的应用,并掌握PyTorch的基本使用方法。希望本文为您的深度学习项目提供有价值的参考与启示。
|
4天前
|
机器学习/深度学习 人工智能 TensorFlow
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【9月更文挑战第13天】本文将深入浅出地介绍卷积神经网络(CNN)的基本原理,并探讨其在图像识别领域的应用。通过实例演示如何利用Python和TensorFlow框架实现一个简单的CNN模型,我们将一步步从理论到实践,揭示CNN如何改变现代图像处理技术的面貌。无论你是深度学习新手还是希望深化理解,这篇文章都将为你提供价值。