【博士每天一篇文献-算法】A Simple Way to Initialize Recurrent Networks of Rectified Linear Units

简介: 本文介绍了一种新的递归神经网络(RNN)初始化方法,通过使用单位矩阵或其缩放版本来初始化修正线性单元(ReLU)组成的RNN,称为IRNN,该方法在处理长期依赖任务时表现优异,与长短期记忆(LSTM)RNN性能相当。

阅读时间:2023-10-28

1 介绍

年份:2015
作者:Quoc V. Le、Navdeep Jaitly、Geoffrey E. Hinton,谷歌团队
期刊:Computer Science
引用量:812
这篇论文的主题是关于使用修正线性单元(ReLU)组成的递归神经网络(RNN)的初始化及其与长短期记忆(LSTM)RNN的性能进行比较。论文开头提到了训练RNN的困难之处,如梯度消失和梯度爆炸,以及已有的优化技术和网络架构用于克服这些挑战。作者提出了一种更简单的方法,使用单位矩阵或其缩放版本对RNN进行初始化,成为IRNN。他们发现,这种初始化方法在各种基准测试中表现与标准的LSTM实现相当,包括具有长期时间结构的玩具问题、语言建模和语音识别。实验表明,使用单位矩阵初始化的具有ReLU的RNN在涉及长期依赖的任务上表现良好,并且可以达到与LSTM相近的结果。论文还探讨了在RNN中使用修正线性单元的方法,并将其与其他激活函数进行了比较。这项研究揭示了LSTM的成功因素,以及在RNN中使用ReLU的潜力。

通过一个小的标量对单位矩阵进行缩放是一种有效的机制来忘记长程影响。
创新点来源:【26】
本文的网络使用修正线性单元,而单位矩阵仅用于初始化。

2 创新点

  1. 文章提出了一种使用矩阵初始化的方法来初始化由修正线性单元 (ReLU) 组成的循环神经网络 (RNN)。这种方法简单且易于实现,能够解决RNN训练中的梯度消失和梯度爆炸问题。
  2. 通过在多个基准测试中进行实验证明,使用矩阵初始化的ReLU RNN在处理包含长期依赖关系的任务时表现良好,并且能够达到与标准实现的长短期记忆 (LSTM) RNN相当的结果。
  3. 讨论了在RNN中使用ReLU和其他激活函数的比较,并讨论了LSTM的成功因素和ReLU在RNN中的潜力。

3 算法

(1)使用正确定义的权重初始化,包括将递归权重矩阵初始化为恒等矩阵,偏置初始化为零。
(2)通过时间反向传播(backpropagation through time)来计算权重的误差导数。
(3)对于每个小的mini-batch序列,更新权重。
(4)使用Rectified Linear Units (ReLU)作为激活函数来构建RNN,初始化时将隐藏状态向量复制为上一个隐藏向量,然后加上当前输入的影响,并将所有负状态替换为零。
(5)当没有输入数据时,经过初始化为恒等矩阵的ReLU RNN(称为IRNN)的隐藏单元状态保持不变。
(6)利用反向传播通过时间将隐藏单元的误差导数传播回来时,只要没有额外的误差导数添加,它们保持不变。这与LSTM的行为相同,当它们的遗忘门设置为没有衰减时,可以很容易地学习非常长期的时间依赖性。
(7)对于表现出较少长期依赖的任务,通过将恒等矩阵进行小的标量缩放可以有效地忘记长期作用。这与LSTM的行为相同,当它们的遗忘门设置为记忆快速衰减时。

4 实验分析

基准模型:RNN和LSTM
基准数据集:加法、图像、语言模型、语音
(1)加法
随着序列长度T的增加,问题变得更加困难,因为输出与相关输入之间的依赖关系变得更加遥远。
随着变化T的值,我们注意到当T约为150时,LSTMs和RNNs都开始遇到困难。,IRNNs的收敛性和LSTMs一样好。这是由于每个LSTM步骤比一个IRNN步骤更昂贵(至少4倍)。
在这里插入图片描述

(2)图像
使用标准的扫描线像素顺序,实验结果表明,RNN效果不佳,而IRNN实现了3%的测试错误率,比大多数现成的线性分类器要好。LSTM的表现一如既往的好。
(3)语言模型
这些结果表明IRNNs在这个大规模任务上的性能更接近LSTMs的性能,而不是RNNs的性能。
(4)语音
使用iRNN的性能远远优于使用tanh单元的RNN,并且与LSTM的性能相当。

5 思考

缺少代码,没有明白如何去实现,模型没有写清楚,都没有建立数学模型。
第一步的工作“权重初始化,包括将递归权重矩阵初始化为恒等矩阵,偏置初始化为零。”没明白怎么实现。

目录
相关文章
|
4月前
|
机器学习/深度学习 人工智能 资源调度
【博士每天一篇文献-算法】连续学习算法之HAT: Overcoming catastrophic forgetting with hard attention to the task
本文介绍了一种名为Hard Attention to the Task (HAT)的连续学习算法,通过学习几乎二值的注意力向量来克服灾难性遗忘问题,同时不影响当前任务的学习,并通过实验验证了其在减少遗忘方面的有效性。
87 12
|
4月前
|
机器学习/深度学习 算法 计算机视觉
【博士每天一篇文献-算法】持续学习经典算法之LwF: Learning without forgetting
LwF(Learning without Forgetting)是一种机器学习方法,通过知识蒸馏损失来在训练新任务时保留旧任务的知识,无需旧任务数据,有效解决了神经网络学习新任务时可能发生的灾难性遗忘问题。
282 9
|
4月前
|
机器学习/深度学习 算法 机器人
【博士每天一篇文献-算法】改进的PNN架构Lifelong learning with dynamically expandable networks
本文介绍了一种名为Dynamically Expandable Network(DEN)的深度神经网络架构,它能够在学习新任务的同时保持对旧任务的记忆,并通过动态扩展网络容量和选择性重训练机制,有效防止语义漂移,实现终身学习。
65 9
|
4月前
|
存储 机器学习/深度学习 算法
【博士每天一篇文献-算法】连续学习算法之HNet:Continual learning with hypernetworks
本文提出了一种基于任务条件超网络(Hypernetworks)的持续学习模型,通过超网络生成目标网络权重并结合正则化技术减少灾难性遗忘,实现有效的任务顺序学习与长期记忆保持。
54 4
|
4月前
|
存储 机器学习/深度学习 算法
【博士每天一篇文献-算法】连续学习算法之RWalk:Riemannian Walk for Incremental Learning Understanding
RWalk算法是一种增量学习框架,通过结合EWC++和修改版的Path Integral算法,并采用不同的采样策略存储先前任务的代表性子集,以量化和平衡遗忘和固执,实现在学习新任务的同时保留旧任务的知识。
99 3
|
17天前
|
算法
基于WOA算法的SVDD参数寻优matlab仿真
该程序利用鲸鱼优化算法(WOA)对支持向量数据描述(SVDD)模型的参数进行优化,以提高数据分类的准确性。通过MATLAB2022A实现,展示了不同信噪比(SNR)下模型的分类误差。WOA通过模拟鲸鱼捕食行为,动态调整SVDD参数,如惩罚因子C和核函数参数γ,以寻找最优参数组合,增强模型的鲁棒性和泛化能力。
|
23天前
|
机器学习/深度学习 算法 Serverless
基于WOA-SVM的乳腺癌数据分类识别算法matlab仿真,对比BP神经网络和SVM
本项目利用鲸鱼优化算法(WOA)优化支持向量机(SVM)参数,针对乳腺癌早期诊断问题,通过MATLAB 2022a实现。核心代码包括参数初始化、目标函数计算、位置更新等步骤,并附有详细中文注释及操作视频。实验结果显示,WOA-SVM在提高分类精度和泛化能力方面表现出色,为乳腺癌的早期诊断提供了有效的技术支持。
|
3天前
|
供应链 算法 调度
排队算法的matlab仿真,带GUI界面
该程序使用MATLAB 2022A版本实现排队算法的仿真,并带有GUI界面。程序支持单队列单服务台、单队列多服务台和多队列多服务台三种排队方式。核心函数`func_mms2`通过模拟到达时间和服务时间,计算阻塞率和利用率。排队论研究系统中顾客和服务台的交互行为,广泛应用于通信网络、生产调度和服务行业等领域,旨在优化系统性能,减少等待时间,提高资源利用率。
|
11天前
|
存储 算法
基于HMM隐马尔可夫模型的金融数据预测算法matlab仿真
本项目基于HMM模型实现金融数据预测,包括模型训练与预测两部分。在MATLAB2022A上运行,通过计算状态转移和观测概率预测未来值,并绘制了预测值、真实值及预测误差的对比图。HMM模型适用于金融市场的时间序列分析,能够有效捕捉隐藏状态及其转换规律,为金融预测提供有力工具。
|
19天前
|
算法
基于GA遗传算法的PID控制器参数优化matlab建模与仿真
本项目基于遗传算法(GA)优化PID控制器参数,通过空间状态方程构建控制对象,自定义GA的选择、交叉、变异过程,以提高PID控制性能。与使用通用GA工具箱相比,此方法更灵活、针对性强。MATLAB2022A环境下测试,展示了GA优化前后PID控制效果的显著差异。核心代码实现了遗传算法的迭代优化过程,最终通过适应度函数评估并选择了最优PID参数,显著提升了系统响应速度和稳定性。