循环神经网络(RNN)模型与前向反向传播算法

简介:

在前面我们讲到了DNN,以及DNN的特例CNN的模型和前向反向传播算法,这些算法都是前向反馈的,模型的输出和模型本身没有关联关系。今天我们就讨论另一类输出和模型间有反馈的神经网络:循环神经网络(Recurrent Neural Networks ,以下简称RNN),它广泛的用于自然语言处理中的语音识别,手写书别以及机器翻译等领域。

1. RNN概述

    在前面讲到的DNN和CNN中,训练样本的输入和输出是比较的确定的。但是有一类问题DNN和CNN不好解决,就是训练样本输入是连续的序列,且序列的长短不一,比如基于时间的序列:一段段连续的语音,一段段连续的手写文字。这些序列比较长,且长度不一,比较难直接的拆分成一个个独立的样本来通过DNN/CNN进行训练。

    而对于这类问题,RNN则比较的擅长。那么RNN是怎么做到的呢?RNN假设我们的样本是基于序列的。比如是从序列索引1到序列索引 τ 的。对于这其中的任意序列索引号 t ,它对应的输入是对应的样本序列中的 x ( t ) 。而模型在序列索引号 t 位置的隐藏状态 h ( t ) ,则由 x ( t ) 和在 t 1 位置的隐藏状态 h ( t 1 ) 共同决定。在任意序列索引号 t ,我们也有对应的模型预测输出 o ( t ) 。通过预测输出 o ( t ) 和训练序列真实输出 y ( t ) ,以及损失函数 L ( t ) ,我们就可以用DNN类似的方法来训练模型,接着用来预测测试序列中的一些位置的输出。

    下面我们来看看RNN的模型。

2. RNN模型

    RNN模型有比较多的变种,这里介绍最主流的RNN模型结构如下:

    上图中左边是RNN模型没有按时间展开的图,如果按时间序列展开,则是上图中的右边部分。我们重点观察右边部分的图。

    这幅图描述了在序列索引号 t 附近RNN的模型。其中:

    1) x ( t ) 代表在序列索引号 t 时训练样本的输入。同样的, x ( t 1 ) x ( t + 1 ) 代表在序列索引号 t 1 t + 1 时训练样本的输入。

    2) h ( t ) 代表在序列索引号 t 时模型的隐藏状态。 h ( t ) x ( t ) h ( t 1 ) 共同决定。

    3) o ( t ) 代表在序列索引号 t 时模型的输出。 o ( t ) 只由模型当前的隐藏状态 h ( t ) 决定。

    4) L ( t ) 代表在序列索引号 t 时模型的损失函数。

    5) y ( t ) 代表在序列索引号 t 时训练样本序列的真实输出。

    6) U , W , V 这三个矩阵是我们的模型的线性关系参数,它在整个RNN网络中是共享的,这点和DNN很不相同。 也正因为是共享了,它体现了RNN的模型的“循环反馈”的思想。  

3. RNN前向传播算法

    有了上面的模型,RNN的前向传播算法就很容易得到了。

    对于任意一个序列索引号 t ,我们隐藏状态 h ( t ) x ( t ) h ( t 1 ) 得到:

h ( t ) = σ ( z ( t ) ) = σ ( U x ( t ) + W h ( t 1 ) + b )

    其中 σ 为RNN的激活函数,一般为 t a n h b 为线性关系的偏倚。

    序列索引号 t 时模型的输出 o ( t ) 的表达式比较简单:

o ( t ) = V h ( t ) + c

    在最终在序列索引号 t 时我们的预测输出为:

y ^ ( t ) = σ ( o ( t ) )

    通常由于RNN是识别类的分类模型,所以上面这个激活函数一般是softmax。

    通过损失函数 L ( t ) ,比如对数似然损失函数,我们可以量化模型在当前位置的损失,即 y ^ ( t ) y ( t ) 的差距。

4. RNN反向传播算法推导

    有了RNN前向传播算法的基础,就容易推导出RNN反向传播算法的流程了。RNN反向传播算法的思路和DNN是一样的,即通过梯度下降法一轮轮的迭代,得到合适的RNN模型参数 U , W , V , b , c 。由于我们是基于时间反向传播,所以RNN的反向传播有时也叫做BPTT(back-propagation through time)。当然这里的BPTT和DNN也有很大的不同点,即这里所有的 U , W , V , b , c 在序列的各个位置是共享的,反向传播时我们更新的是相同的参数。

    为了简化描述,这里的损失函数我们为对数损失函数,输出的激活函数为softmax函数,隐藏层的激活函数为tanh函数。

    对于RNN,由于我们在序列的每个位置都有损失函数,因此最终的损失 L 为:

L = t = 1 τ L ( t )

    其中 V , c , 的梯度计算是比较简单的:

L c = t = 1 τ L ( t ) c = t = 1 τ L ( t ) o ( t ) o ( t ) c = t = 1 τ y ^ ( t ) y ( t )
L V = t = 1 τ L ( t ) V = t = 1 τ L ( t ) o ( t ) o ( t ) V = t = 1 τ ( y ^ ( t ) y ( t ) ) ( h ( t ) ) T

    但是 W , U , b 的梯度计算就比较的复杂了。从RNN的模型可以看出,在反向传播时,在在某一序列位置t的梯度损失由当前位置的输出对应的梯度损失和序列索引位置 t + 1 时的梯度损失两部分共同决定。对于 W 在某一序列位置t的梯度损失需要反向传播一步步的计算。我们定义序列索引 t 位置的隐藏状态的梯度为:

δ ( t ) = L h ( t )

    这样我们可以像DNN一样从 δ ( t + 1 ) 递推 δ ( t )  。

δ ( t ) = L o ( t ) o ( t ) h ( t ) + L h ( t + 1 ) h ( t + 1 ) h ( t ) = V T ( y ^ ( t ) y ( t ) ) + W T δ ( t + 1 ) d i a g ( 1 ( h ( t + 1 ) ) 2 )

    对于 δ ( τ ) ,由于它的后面没有其他的序列索引了,因此有:

δ ( τ ) = L o ( τ ) o ( τ ) h ( τ ) = V T ( y ^ ( τ ) y ( τ ) )

    有了 δ ( t ) ,计算 W , U , b 就容易了,这里给出 W , U , b 的梯度计算表达式:

L W = t = 1 τ L h ( t ) h ( t ) W = t = 1 τ d i a g ( 1 ( h ( t ) ) 2 ) δ ( t ) ( h ( t 1 ) ) T
L b = t = 1 τ L h ( t ) h ( t ) b = t = 1 τ d i a g ( 1 ( h ( t ) ) 2 ) δ ( t )
L U = t = 1 τ L h ( t ) h ( t ) U = t = 1 τ d i a g ( 1 ( h ( t ) ) 2 ) δ ( t ) ( x ( t ) ) T

    除了梯度表达式不同,RNN的反向传播算法和DNN区别不大,因此这里就不再重复总结了。

5. RNN小结

    上面总结了通用的RNN模型和前向反向传播算法。当然,有些RNN模型会有些不同,自然前向反向传播的公式会有些不一样,但是原理基本类似。

    RNN虽然理论上可以很漂亮的解决序列数据的训练,但是它也像DNN一样有梯度消失时的问题,当序列很长的时候问题尤其严重。因此,上面的RNN模型一般不能直接用于应用领域。在语音识别,手写书别以及机器翻译等NLP领域实际应用比较广泛的是基于RNN模型的一个特例LSTM,下一篇我们就来讨论LSTM模型。


本文转自刘建平Pinard博客园博客,原文链接:http://www.cnblogs.com/pinard/p/6509630.html,如需转载请自行联系原作者


相关文章
|
3月前
|
机器学习/深度学习 算法
基于遗传优化的双BP神经网络金融序列预测算法matlab仿真
本项目基于遗传优化的双BP神经网络实现金融序列预测,使用MATLAB2022A进行仿真。算法通过两个初始学习率不同的BP神经网络(e1, e2)协同工作,结合遗传算法优化,提高预测精度。实验展示了三个算法的误差对比结果,验证了该方法的有效性。
|
3月前
|
机器学习/深度学习 算法
基于改进遗传优化的BP神经网络金融序列预测算法matlab仿真
本项目基于改进遗传优化的BP神经网络进行金融序列预测,使用MATLAB2022A实现。通过对比BP神经网络、遗传优化BP神经网络及改进遗传优化BP神经网络,展示了三者的误差和预测曲线差异。核心程序结合遗传算法(GA)与BP神经网络,利用GA优化BP网络的初始权重和阈值,提高预测精度。GA通过选择、交叉、变异操作迭代优化,防止局部收敛,增强模型对金融市场复杂性和不确定性的适应能力。
231 80
|
3月前
|
机器学习/深度学习 人工智能 算法
深入解析图神经网络:Graph Transformer的算法基础与工程实践
Graph Transformer是一种结合了Transformer自注意力机制与图神经网络(GNNs)特点的神经网络模型,专为处理图结构数据而设计。它通过改进的数据表示方法、自注意力机制、拉普拉斯位置编码、消息传递与聚合机制等核心技术,实现了对图中节点间关系信息的高效处理及长程依赖关系的捕捉,显著提升了图相关任务的性能。本文详细解析了Graph Transformer的技术原理、实现细节及应用场景,并通过图书推荐系统的实例,展示了其在实际问题解决中的强大能力。
338 30
|
3月前
|
机器学习/深度学习 人工智能 算法
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
宠物识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了37种常见的猫狗宠物种类数据集【'阿比西尼亚猫(Abyssinian)', '孟加拉猫(Bengal)', '暹罗猫(Birman)', '孟买猫(Bombay)', '英国短毛猫(British Shorthair)', '埃及猫(Egyptian Mau)', '缅因猫(Maine Coon)', '波斯猫(Persian)', '布偶猫(Ragdoll)', '俄罗斯蓝猫(Russian Blue)', '暹罗猫(Siamese)', '斯芬克斯猫(Sphynx)', '美国斗牛犬
238 29
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
|
4月前
|
机器学习/深度学习 算法 Serverless
基于WOA-SVM的乳腺癌数据分类识别算法matlab仿真,对比BP神经网络和SVM
本项目利用鲸鱼优化算法(WOA)优化支持向量机(SVM)参数,针对乳腺癌早期诊断问题,通过MATLAB 2022a实现。核心代码包括参数初始化、目标函数计算、位置更新等步骤,并附有详细中文注释及操作视频。实验结果显示,WOA-SVM在提高分类精度和泛化能力方面表现出色,为乳腺癌的早期诊断提供了有效的技术支持。
|
4月前
|
机器学习/深度学习 算法 关系型数据库
基于PSO-SVM的乳腺癌数据分类识别算法matlab仿真,对比BP神经网络和SVM
本项目展示了利用粒子群优化(PSO)算法优化支持向量机(SVM)参数的过程,提高了分类准确性和泛化能力。包括无水印的算法运行效果预览、Matlab2022a环境下的实现、核心代码及详细注释、操作视频,以及对PSO和SVM理论的概述。PSO-SVM结合了PSO的全局搜索能力和SVM的分类优势,特别适用于复杂数据集的分类任务,如乳腺癌诊断等。
|
4月前
|
机器学习/深度学习 自然语言处理 算法
深入理解机器学习算法:从线性回归到神经网络
深入理解机器学习算法:从线性回归到神经网络
|
4月前
|
机器学习/深度学习 自然语言处理 前端开发
前端神经网络入门:Brain.js - 详细介绍和对比不同的实现 - CNN、RNN、DNN、FFNN -无需准备环境打开浏览器即可测试运行-支持WebGPU加速
本文介绍了如何使用 JavaScript 神经网络库 **Brain.js** 实现不同类型的神经网络,包括前馈神经网络(FFNN)、深度神经网络(DNN)和循环神经网络(RNN)。通过简单的示例和代码,帮助前端开发者快速入门并理解神经网络的基本概念。文章还对比了各类神经网络的特点和适用场景,并简要介绍了卷积神经网络(CNN)的替代方案。
729 1
|
4月前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
176 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
|
5月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于贝叶斯优化卷积神经网络(Bayes-CNN)的多因子数据分类识别算法matlab仿真
本项目展示了贝叶斯优化在CNN中的应用,包括优化过程、训练与识别效果对比,以及标准CNN的识别结果。使用Matlab2022a开发,提供完整代码及视频教程。贝叶斯优化通过构建代理模型指导超参数优化,显著提升模型性能,适用于复杂数据分类任务。

热门文章

最新文章