【博士每天一篇文献-算法】A Simple Way to Initialize Recurrent Networks of Rectified Linear Units

简介: 本文介绍了一种新的递归神经网络(RNN)初始化方法,通过使用单位矩阵或其缩放版本来初始化修正线性单元(ReLU)组成的RNN,称为IRNN,该方法在处理长期依赖任务时表现优异,与长短期记忆(LSTM)RNN性能相当。

阅读时间:2023-10-28

1 介绍

年份:2015
作者:Quoc V. Le、Navdeep Jaitly、Geoffrey E. Hinton,谷歌团队
期刊:Computer Science
引用量:812
这篇论文的主题是关于使用修正线性单元(ReLU)组成的递归神经网络(RNN)的初始化及其与长短期记忆(LSTM)RNN的性能进行比较。论文开头提到了训练RNN的困难之处,如梯度消失和梯度爆炸,以及已有的优化技术和网络架构用于克服这些挑战。作者提出了一种更简单的方法,使用单位矩阵或其缩放版本对RNN进行初始化,成为IRNN。他们发现,这种初始化方法在各种基准测试中表现与标准的LSTM实现相当,包括具有长期时间结构的玩具问题、语言建模和语音识别。实验表明,使用单位矩阵初始化的具有ReLU的RNN在涉及长期依赖的任务上表现良好,并且可以达到与LSTM相近的结果。论文还探讨了在RNN中使用修正线性单元的方法,并将其与其他激活函数进行了比较。这项研究揭示了LSTM的成功因素,以及在RNN中使用ReLU的潜力。

通过一个小的标量对单位矩阵进行缩放是一种有效的机制来忘记长程影响。
创新点来源:【26】
本文的网络使用修正线性单元,而单位矩阵仅用于初始化。

2 创新点

  1. 文章提出了一种使用矩阵初始化的方法来初始化由修正线性单元 (ReLU) 组成的循环神经网络 (RNN)。这种方法简单且易于实现,能够解决RNN训练中的梯度消失和梯度爆炸问题。
  2. 通过在多个基准测试中进行实验证明,使用矩阵初始化的ReLU RNN在处理包含长期依赖关系的任务时表现良好,并且能够达到与标准实现的长短期记忆 (LSTM) RNN相当的结果。
  3. 讨论了在RNN中使用ReLU和其他激活函数的比较,并讨论了LSTM的成功因素和ReLU在RNN中的潜力。

3 算法

(1)使用正确定义的权重初始化,包括将递归权重矩阵初始化为恒等矩阵,偏置初始化为零。
(2)通过时间反向传播(backpropagation through time)来计算权重的误差导数。
(3)对于每个小的mini-batch序列,更新权重。
(4)使用Rectified Linear Units (ReLU)作为激活函数来构建RNN,初始化时将隐藏状态向量复制为上一个隐藏向量,然后加上当前输入的影响,并将所有负状态替换为零。
(5)当没有输入数据时,经过初始化为恒等矩阵的ReLU RNN(称为IRNN)的隐藏单元状态保持不变。
(6)利用反向传播通过时间将隐藏单元的误差导数传播回来时,只要没有额外的误差导数添加,它们保持不变。这与LSTM的行为相同,当它们的遗忘门设置为没有衰减时,可以很容易地学习非常长期的时间依赖性。
(7)对于表现出较少长期依赖的任务,通过将恒等矩阵进行小的标量缩放可以有效地忘记长期作用。这与LSTM的行为相同,当它们的遗忘门设置为记忆快速衰减时。

4 实验分析

基准模型:RNN和LSTM
基准数据集:加法、图像、语言模型、语音
(1)加法
随着序列长度T的增加,问题变得更加困难,因为输出与相关输入之间的依赖关系变得更加遥远。
随着变化T的值,我们注意到当T约为150时,LSTMs和RNNs都开始遇到困难。,IRNNs的收敛性和LSTMs一样好。这是由于每个LSTM步骤比一个IRNN步骤更昂贵(至少4倍)。
在这里插入图片描述

(2)图像
使用标准的扫描线像素顺序,实验结果表明,RNN效果不佳,而IRNN实现了3%的测试错误率,比大多数现成的线性分类器要好。LSTM的表现一如既往的好。
(3)语言模型
这些结果表明IRNNs在这个大规模任务上的性能更接近LSTMs的性能,而不是RNNs的性能。
(4)语音
使用iRNN的性能远远优于使用tanh单元的RNN,并且与LSTM的性能相当。

5 思考

缺少代码,没有明白如何去实现,模型没有写清楚,都没有建立数学模型。
第一步的工作“权重初始化,包括将递归权重矩阵初始化为恒等矩阵,偏置初始化为零。”没明白怎么实现。

目录
相关文章
|
4月前
|
人工智能 算法 安全
【博士论文】基于局部中心量度的聚类算法研究(Matlab代码实现)
【博士论文】基于局部中心量度的聚类算法研究(Matlab代码实现)
142 0
|
机器学习/深度学习 人工智能 资源调度
【博士每天一篇文献-算法】连续学习算法之HAT: Overcoming catastrophic forgetting with hard attention to the task
本文介绍了一种名为Hard Attention to the Task (HAT)的连续学习算法,通过学习几乎二值的注意力向量来克服灾难性遗忘问题,同时不影响当前任务的学习,并通过实验验证了其在减少遗忘方面的有效性。
366 12
|
机器学习/深度学习 算法 计算机视觉
【博士每天一篇文献-算法】持续学习经典算法之LwF: Learning without forgetting
LwF(Learning without Forgetting)是一种机器学习方法,通过知识蒸馏损失来在训练新任务时保留旧任务的知识,无需旧任务数据,有效解决了神经网络学习新任务时可能发生的灾难性遗忘问题。
1155 9
|
机器学习/深度学习 算法 机器人
【博士每天一篇文献-算法】改进的PNN架构Lifelong learning with dynamically expandable networks
本文介绍了一种名为Dynamically Expandable Network(DEN)的深度神经网络架构,它能够在学习新任务的同时保持对旧任务的记忆,并通过动态扩展网络容量和选择性重训练机制,有效防止语义漂移,实现终身学习。
325 9
|
存储 机器学习/深度学习 算法
【博士每天一篇文献-算法】连续学习算法之HNet:Continual learning with hypernetworks
本文提出了一种基于任务条件超网络(Hypernetworks)的持续学习模型,通过超网络生成目标网络权重并结合正则化技术减少灾难性遗忘,实现有效的任务顺序学习与长期记忆保持。
289 4
|
存储 机器学习/深度学习 算法
【博士每天一篇文献-算法】连续学习算法之RWalk:Riemannian Walk for Incremental Learning Understanding
RWalk算法是一种增量学习框架,通过结合EWC++和修改版的Path Integral算法,并采用不同的采样策略存储先前任务的代表性子集,以量化和平衡遗忘和固执,实现在学习新任务的同时保留旧任务的知识。
383 3
|
2月前
|
机器学习/深度学习 算法 机器人
【水下图像增强融合算法】基于融合的水下图像与视频增强研究(Matlab代码实现)
【水下图像增强融合算法】基于融合的水下图像与视频增强研究(Matlab代码实现)
216 0
|
2月前
|
数据采集 分布式计算 并行计算
mRMR算法实现特征选择-MATLAB
mRMR算法实现特征选择-MATLAB
169 2
|
3月前
|
传感器 机器学习/深度学习 编解码
MATLAB|主动噪声和振动控制算法——对较大的次级路径变化具有鲁棒性
MATLAB|主动噪声和振动控制算法——对较大的次级路径变化具有鲁棒性
208 3
|
2月前
|
机器学习/深度学习 算法 机器人
使用哈里斯角Harris和SIFT算法来实现局部特征匹配(Matlab代码实现)
使用哈里斯角Harris和SIFT算法来实现局部特征匹配(Matlab代码实现)
151 8

热门文章

最新文章