文档备案控制台

开发者社区人工智能文章正文

深度学习500问——Chapter06：循环神经网络（RNN）（2）

2024-05-14 551

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 深度学习500问——Chapter06：循环神经网络（RNN）（2）

6.4 CNN和RNN的区别

类别

特点描述

相同点

1、传统神经网络的扩展

2、前向计算产生结果，反向计算模型更新

3、每层神经网络横向可以多个神经元共存，纵向可以有多层神经网络连接

不同点	1、CNN空间扩展，神经元与特征卷积；RNN时间扩展，神经元与多个时间输出计算 2、RNN可以用于描述时间上连续状态的输出，有记忆功能，CNN用于静态输出

6.5 RNNs与FNNs有什么区别

1. 不同于传统的前馈神经网络（FNNs），RNNs引入了定向循环，能够处理输入之间前后关联问题。

2. RNNs可以记忆之前步骤的训练信息。

定向循环结构如下图所示：

6.6 RNNs训练和传统ANN训练异同点

相同点：

RNNs与传统ANN都使用BP（Back Propagation）误差反向传播算法。

不同点：

RNNs网络参数W，U，V是共享的（具体在本章6.2节中已介绍），而传统神经网络各层参数间没有直接联系。
对于RNNs，在使用梯度下降算法中，每一步的输出不仅依赖当前步的网络，还依赖于之前若干步的网络状态。

6.7 为什么RNN训练的时候Loss波动很大

由于RNN特有的memory会影响后期其他的RNN的特点，梯度时大时小，learning rate没法个性化的调整，导致RNN在train的过程中，Loss会震荡起伏，为理论解决RNN的这个问题，在训练的时候，可以设置临界值，当梯度大于某个临界值，直接截断，用这个临界值作为梯度的大小，防止大幅震荡。

6.8 标准RNN前向输出流程

以表示输入，是隐层单元，是输出，为损失函数，为训练集标签。表示时刻的状态，是权值，同一类型的连接权值相同。以下图为例进行说明标准RNN的前向传播算法：

对于时刻，，其中为激活函数，一般会选择tanh函数，为偏置。

时刻的输出为：

模型的预测输出为：

其中，为激活函数，通常RNN用于分类，故这里一般用softmax函数。

6.9 BPTT算法推导

BPTT（back-propagation through time）算法是常用的训练RNN的方法，其本质还是BP算法，只不过RNN处理时间序列数据，所以要基于时间反向传播，故叫随时间反向传播。BPTT的中心思想进而BP算法相同，沿着需要优化的参数的负梯度方向不断寻找更优的点直至收敛。

需要寻优的参数有三个，分别是U、V、W。与BP算法不同的是，其中W和U两个参数的寻优过程需要追溯之前的历史数据，参数V相对简单只需关注目前，那么我们就先来求解参数V的偏导数。

RNN的损失也是会随着时间累加的，所以不能只求时刻的偏导。

W和U的偏导的求解由于需要涉及历史数据，其偏导求起来相当复杂。为了简化推导过程，我们假设只有三个时刻，那么在第三个时刻对，对的偏导数分别为：

可以观察到，在某个时刻的对或是的偏导数，需要追溯这个时刻之前所有时刻的信息。根据上面两个式子得出在时刻对和偏导数的通式：

整体的偏导公式就是将其按时刻再一一加起来。

6.9 RNN中为什么会出现梯度消失

首先来看tanh函数的函数及导数图如下所示：

sigmoid函数的函数及导数图如下所示：

从上图观察可知，sigmoid函数的导数范围是(0,0.25]，tanh函数的导数范围是(0,1]，它们的导数最大都不大于1。

基于6.8章节中公式的推导，RNN的激活函数是嵌套在里面的，如果选择激活函数为tanh或sigmoid，把激活函数放进去，拿出中间累乘的那部分可得：

梯度消失现象：

基于上式，会发现累乘会导致激活函数导数的累乘，如果取tanh或sigmoid函数作为激活函数的话，那么必然是一堆小数在做乘法，结果就是越乘越小。随着时间序列的不断深入，小数的累乘就会导致梯度越来越小直到接近于0，这就是“梯度消失”现象。

实际使用中，会优先选择tanh函数，原因是tanh函数相对于sigmoid函数来说梯度较大，收敛速度更快且引起梯度消失更慢。

6.10 如何解决RNN中的梯度消失问题

上节描述的梯度消失是在无限的利用历史数据而造成，但是RNN的特点本来就是能利用历史数据获取更多的可利用信息，解决RNN中的梯度消失方法主要有：

选取更好的激活函数，如ReLU激活函数。ReLU函数的左侧导数为0，右侧导数恒为1，这就避免了“梯度消失”的发生。但恒为1的导数容易导致“梯度爆炸”，但设定合适的阈值可以解决这个问题。
加入BN层，其优点包括可加速收敛、控制过拟合，可以少用或不用Dropout和正则、降低网络对初始化权重不敏感，且能允许使用较大的学习率等。
改变传播结构，LSTM结构可以有效解决这个问题。

文章标签：

机器学习/深度学习

算法

搜索推荐

关键词：

深度学习网络

深度学习神经网络

神经网络rnn

循环神经网络RNN

深度学习循环神经网络rnn

JOYCE_Leo16

目录

相关文章

Echo_Wish

|

12月前

|

机器学习/深度学习人工智能运维

网管不再抓头发：深度学习教你提前发现网络事故

网管不再抓头发：深度学习教你提前发现网络事故

Echo_Wish

286 2 2

子午s

|

机器学习/深度学习人工智能算法

猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法

宠物识别系统使用Python和TensorFlow搭建卷积神经网络，基于37种常见猫狗数据集训练高精度模型，并保存为h5格式。通过Django框架搭建Web平台，用户上传宠物图片即可识别其名称，提供便捷的宠物识别服务。

子午s

1416 55 55

子午s

|

机器学习/深度学习人工智能算法

基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法

眼疾识别系统，本系统使用Python作为主要开发语言，基于TensorFlow搭建卷积神经网络算法，并收集了4种常见的眼疾图像数据集（白内障、糖尿病性视网膜病变、青光眼和正常眼睛）再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型，然后保存为为本地h5格式文件。最后使用Django框架搭建了一个Web网页平台可视化操作界面，实现用户上传一张眼疾图片识别其名称。

子午s

714 5 6

基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法

Echo_Wish

|

11月前

|

机器学习/深度学习人工智能算法

Wi-Fi老是卡？不如试试让“深度学习”来当网络管家！

Wi-Fi老是卡？不如试试让“深度学习”来当网络管家！

Echo_Wish

441 68 68

蒋星熠Jaxonic

|

8月前

|

机器学习/深度学习数据采集人工智能

深度学习实战指南：从神经网络基础到模型优化的完整攻略

🌟 蒋星熠Jaxonic，AI探索者。深耕深度学习，从神经网络到Transformer，用代码践行智能革命。分享实战经验，助你构建CV、NLP模型，共赴二进制星辰大海。

蒋星熠Jaxonic

543 2 3

Deephub

|

机器学习/深度学习数据可视化算法

PyTorch生态系统中的连续深度学习：使用Torchdyn实现连续时间神经网络

神经常微分方程（Neural ODEs）是深度学习领域的创新模型，将神经网络的离散变换扩展为连续时间动力系统。本文基于Torchdyn库介绍Neural ODE的实现与训练方法，涵盖数据集构建、模型构建、基于PyTorch Lightning的训练及实验结果可视化等内容。Torchdyn支持多种数值求解算法和高级特性，适用于生成模型、时间序列分析等领域。

Deephub

747 77 77

PyTorch生态系统中的连续深度学习：使用Torchdyn实现连续时间神经网络

简简单单做算法

|

10月前

|

机器学习/深度学习算法数据库

基于GoogleNet深度学习网络和GEI步态能量提取的步态识别算法matlab仿真,数据库采用CASIA库

本项目基于GoogleNet深度学习网络与GEI步态能量图提取技术，实现高精度步态识别。采用CASI库训练模型，结合Inception模块多尺度特征提取与GEI图像能量整合，提升识别稳定性与准确率，适用于智能安防、身份验证等领域。

简简单单做算法

276 0 0

Echo_Wish

|

机器学习/深度学习人工智能运维

AI“捕风捉影”：深度学习如何让网络事件检测更智能？

AI“捕风捉影”：深度学习如何让网络事件检测更智能？

Echo_Wish

540 8 8

简简单单做算法

|

机器学习/深度学习数据采集算法

基于MobileNet深度学习网络的MQAM调制类型识别matlab仿真

本项目基于Matlab2022a实现MQAM调制类型识别，使用MobileNet深度学习网络。完整程序运行效果无水印，核心代码含详细中文注释和操作视频。MQAM调制在无线通信中至关重要，MobileNet以其轻量化、高效性适合资源受限环境。通过数据预处理、网络训练与优化，确保高识别准确率并降低计算复杂度，为频谱监测、信号解调等提供支持。

简简单单做算法

397 25 25

子午s

|

机器学习/深度学习人工智能算法

基于Python深度学习的【害虫识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能

害虫识别系统，本系统使用Python作为主要开发语言，基于TensorFlow搭建卷积神经网络算法，并收集了12种常见的害虫种类数据集【"蚂蚁（ants）", "蜜蜂（bees）", "甲虫（beetle）", "毛虫（catterpillar）", "蚯蚓（earthworms）", "蜚蠊（earwig）", "蚱蜢（grasshopper）", "飞蛾（moth）", "鼻涕虫（slug）", "蜗牛（snail）", "黄蜂（wasp）", "象鼻虫（weevil）"】再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型，然后保存为为本地h5格式文件。最后使用Djan

子午s

801 1 1

基于Python深度学习的【害虫识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能

热门文章

最新文章

环境异常解决方案-CentOS 7 网络异常【Failed to start LSB: Bring up/down networking】

AliOS Things SIG BLE Mesh网络的介绍和搭建

flutter网络dio框架get请求使用总结

神经网络的基本概念、架构和训练方法

Android Studio App开发之网络通信中使用GET方式调用HTTP接口的讲解及实战（附源码超详细必看）

集群服务(MSCS)与网络负载均衡 (NLB)

带你读《智慧光网络：关键技术、应用实践和未来演进》——2.3.1　光模块的分类和发展历程

【Linux系列】vmware虚拟机网络配置详解（上）

软考网络规划师复习第五章：认识虚拟化

复杂网络-常用绘图软件和库

【YOLOv8改进】MCA：用于图像识别的深度卷积神经网络中的多维协作注意力 (论文笔记+引入代码)

中草药识别系统Python+深度学习人工智能+TensorFlow+卷积神经网络算法模型

基于BP神经网络的32QAM解调算法matlab性能仿真

探索深度学习在语音识别中的实践：基于循环神经网络的模型构建

深入解析深度学习中的卷积神经网络：从理论到实践

使用Keras构建一个简单的神经网络模型

基于BP神经网络的16QAM解调算法matlab性能仿真

【传知代码】从零开始搭建图像去雾神经网络-论文复现

【传知代码】图神经网络长对话理解-论文复现

基于BP神经网络的QPSK解调算法matlab性能仿真

相关课程

更多

云网络白皮书-阿里云网络系列课

企业上云攻略-阿里云网络产品应用系列教程

Linux网络进阶 - TCP/IP协议及OSI七层模型

深度学习与自动驾驶

网络管理者必知-2分钟了解新出台的《网络安全法》

神经网络概览及算法详解

相关电子书

更多

深度学习的最新进展

搜狗深度学习技术在广告推荐领域的应用

深度学习在电商搜索和聊天机器人中的应用

下一篇

阿里云新品发布AI DeepSign，为AI生成作品赋予可信身份证