深度学习优化算法入门:二、动量、RMSProp、Adam

简介: 编者按:DRDO研究人员Ayoosh Kathuria深入浅出地介绍了牛顿法、动量法、RMSProp、Adam优化算法。 本系列的上一篇文章介绍了随机梯度下降,以及如何应对陷入局部极小值或鞍点的问题。

编者按:DRDO研究人员Ayoosh Kathuria深入浅出地介绍了牛顿法、动量法、RMSProp、Adam优化算法。


554a2f7cd68d9702460f606472458ca79c1f1f8a

本系列的上一篇文章介绍了随机梯度下降,以及如何应对陷入局部极小值或鞍点的问题。在这篇文章中,我们将查看另一个困扰神经网络训练的问题,病态曲率。

局部极小值和鞍点会使训练停滞,而病态曲率则会减慢训练速度,以至于机器学习从业者可能会觉得搜索收敛到了一个次优极小值。让我们深入了解下什么是病态曲率。

病态曲率

考虑下面的损失曲面。

a9d1ada31e0df8d43de5bd5e4f9102fb26f22e57

如你所见,我们从随机点开始,渐渐进入蓝色的沟壑区。(颜色表示损失函数在特定点的值是高是低,红色表示高值,蓝色表示低值。)

在到达最小值之前,我们需要首先穿过沟壑区,也就是病态曲率。让我们放大一下这一区域,看看为什么称病态?

11a773375ea07dd861d70b3378029b8e955ae56e

如上图所示,梯度下降在沟壑区的脊间反复振荡,极其缓慢地向最小值处移动。这是因为w1方向要陡峭得多。

考虑下图中A点的梯度,可以分解为w1、w2方向的两个分量。w1方向的梯度要大很多,因此梯度的方向大为偏向w1,而不是w2(但w2才是能够更快到达最小值处的梯度方向)。

fde238fa39360f52a6b1d351e0d74c7b6126ead4

通常情况下,我们使用低学习率来应对这样的反复振荡,但在病态曲率区域使用低学习率,可能要花很多时间才能达到最小值处。事实上,有论文报告,防止反复振荡的足够小的学习率,也许会导致从业者相信损失完全没有改善,干脆放弃训练。

大概,我们需要找到一种方法,首先缓慢地进入病态曲率的平坦底部,然后加速往最小值方向移动。二阶导数可以帮助我们做到这一点。

牛顿法

梯度下降是一阶优化方法。它只考虑损失函数的一阶导数,不考虑高阶函数。基本上这意味着它对损失函数的曲率一无所知。梯度下降可以告诉我们损失是否下降,下降得有多快,但无法区分曲线的的弯曲程度。

bc8b739bcf96800bf7e3d12e4744392a093377d3

上图三条曲线,红点处的梯度都是一样的,但曲率大不一样。解决方案?考虑二阶导数,或者说梯度改变得有多快。

使用二阶导数解决这一问题的一个非常流行的技术是牛顿法(Newton's Method)。为了避免偏离本文的主题,我不会过多探究牛顿法的数学。相反,我将尝试构建牛顿法的直觉。

牛顿法可以提供向梯度方向移动的理想步幅。由于我们现在具备了损失曲面的曲率信息,步幅可以据此确定,避免越过病态曲率的底部。

牛顿法通过计算Hessian矩阵做到这一点。Hessian矩阵是损失函数在所有权重组合上的二阶导数的矩阵。

9aceb43621980d7bfc1cbb45b3043c491a4c62b5

Hessian提供了损失曲面每一点上的曲率估计。正曲率意味着随着我们的移动,损失曲面变得不那么陡峭了。负曲率则意味着,损失曲面变得越来越陡峭了。

ff4246659133a7bd3ead940b3046a35b01d57ee8

注意,如果这一步的计算结果是负的,那就意味着我们可以切换回原本的算法。这对应于下面梯度变得越来越陡峭的情形。

1251dd7b0641f4a9f290d17688b7c8d938e2b73e

然而,如果梯度变得越来越不陡峭,那么我们也许正向病态曲率的底部移动。这时牛顿算法提供了一个修正过的学习步幅,和曲率成反比。换句话说,如果损失曲面变得不那么陡峭,学习步幅就下降。

为何我们不常使用牛顿法?

你已经看到公式中的Hessian矩阵了。Hessian矩阵需要我们计算损失函数在所有权重组合上的梯度。也就是说,需要做的计算的数量级是神经网络所有权重数量的平方。

现代神经网络架构的参数量可能是数亿,计算数亿的平方的梯度在算力上不可行。

虽然高阶优化方法在算力上不太可行,但二阶优化关于纳入梯度自身如何改变的想法是可以借鉴的。虽然我们无法准确计算这一信息,但我们可以基于之前梯度的信息使用启发式算法引导优化过程。

动量

搭配SGD使用的一个非常流行的技术是动量(Momentum)。动量法不仅使用当前的梯度,同时还利用之前的梯度提供的信息。

3a87a2db01ee9fad5baac9585d4958aa22aa81bb

上面的第一个等式就是动量,动量等式由两部分组成,第一项是上一次迭代的动量,乘以“动量系数”。

dd63e70d69cf27af49d408e1df2214d912d46fb3

比如,假设我们将初始动量v设为0,系数定为0.9,那么后续的更新等式为:


50b8e9e77c8b5127a35f9a06808d748ffa5677a4

我们看到,后续的更新保留了之前的梯度,但最近的梯度权重更高。(致喜欢数学的读者,这是梯度的指数平均。)

下面我们来看看动量法如何帮助我们缓解病态曲率的问题。下图中,大多数梯度更新发生在之字形方向上,我们将每次更新分解为w1和w2方向上的两个分量。如果我们分别累加这些梯度的两个分量,那么w1方向上的分量将互相抵消,而w2方向上的分量得到了加强。

4382c04cc8ad67e8773768d2d665cdc7d3e803a1

也就是说,基于动量法的更新,积累了w2方向上的分量,清空了w1方向上的分量,从而帮助我们更快地通往最小值。从这个意义上说,动量法也有助于抑制振荡。

动量法同时提供了加速度,从而加快收敛。但你可能想要搭配模拟退火,以免跳过最小值。

在实践中,动量系数一般初始化为0.5,并在多个epoch后逐渐退火至0.9.

RMSProp

RMSProp,也就是均方根传播的历史很有趣。它是传奇人物Geoffrey Hinton在Coursera授课时初次提出的。

RMSProp也试图抑制振荡,但采取的方法和动量不同。此外,RMSProp可以自动调整学习率。还有,RMSProp为每个参数选定不同的学习率。

992eb3fef860f3ad22d14f717b31a3f5801fb3b1

在第一个等式中,类似之前的动量法,我们计算了梯度平方的指数平均。由于我们为每个参数单独计算,这里的梯度gt表示正更新的参数上的梯度投影。

第二个等式根据指数平均决定步幅大小。我们选定一个初始学习率η,接着除以平均数。在我们上面举的例子中,w1的梯度指数平均比w2大得多,所以w1的学习步幅比w2小得多。这就帮助我们避免了脊间振荡,更快地向最小值移动。

第三个等式不过是权重更新步骤。

上面的等式中,超参数ρ一般定为0.9,但你可能需要加以调整。等式2中的ε是为了确保除数不为零,一般定为1e-10.

注意RMSProp隐式地应用了模拟退火。在向最小值移动的过程中,RMSProp会自动降低学习步幅,以免跳过最小值。

Adam

Adam,即Adaptive Moment Optimization算法结合了动量和RMSProp的启发式算法。

51a401a802f8771237a34c26bc43336b43d77085

这里,我们计算了梯度的指数平均和梯度平方的指数平均(等式1和等式2)。为了得出学习步幅,等式3在学习率上乘以梯度的平均(类似动量),除以梯度平方平均的均方根(类似RMSProp)。等式4是权重更新步骤。

超参数β1一般取0.9,β2一般取0.99. ε一般定为1e-10.

结语

本文介绍了三种应对病态曲率同时加速训练过程的梯度下降方法。

在这三种方法之中,也许动量法用得更普遍,尽管从论文上看Adam更吸引人。经验表明这三种算法都能收敛到给定损失曲面的不同的最优局部极小值。然而,动量法看起来要比Adam更容易找到比较平坦的最小值,而自适应方法(自动调整学习率)倾向于迅速地收敛于较尖的最小值。比较平坦的最小值概括性更好。

9c8fa9bbb112f8c783f9732fbb82447d4e33a84d

尽管这些方法有助于我们驯服深度网络难以控制的损失平面,随着网络日益变深,它们开始变得不够用了。除了选择更好的优化方法,有相当多的研究试图寻找能够生成更平滑的损失曲面的架构。批量归一化(Batch Normalization)和残差连接(Residual Connections)正是这方面的两个例子。我们会在后续的文章中详细介绍它们。但这篇文章就到此为止了。欢迎在评论中提问。

原文发布时间为:2018-10-07

本文作者: weakish

本文来自云栖社区合作伙伴“深度学习自然语言处理”,了解相关信息可以关注“深度学习自然语言处理"


相关文章
|
1天前
|
机器学习/深度学习 自然语言处理 算法
利用深度学习优化图像识别精度的策略
【5月更文挑战第15天】 在计算机视觉领域,图像识别的精确度直接关系到后续处理的效果与可靠性。本文旨在探讨如何通过深度学习技术提升图像识别任务的精度。首先,文中介绍了卷积神经网络(CNN)的基础结构及其在图像识别中的应用;然后,详细分析了数据增强、网络结构优化、正则化方法和注意力机制等策略对提高模型性能的作用;最后,通过实验验证了所提策略的有效性,并讨论了未来可能的研究方向。本文不仅为图像识别领域的研究者提供了实用的优化策略,也为相关应用的开发者指明了提升系统性能的可能途径。
|
1天前
|
机器学习/深度学习 自动驾驶 算法
利用深度学习优化图像识别在自动驾驶系统中的应用
【5月更文挑战第15天】 随着自动驾驶技术的不断进步,图像识别作为其核心技术之一,对准确性和实时性的要求日益提高。本文旨在探讨如何通过深度学习算法优化图像识别流程,进而提升自动驾驶系统的整体性能。文中首先回顾了当前自动驾驶领域中图像识别面临的挑战,接着介绍了几种先进的深度学习模型及其在图像处理中的应用,最后提出了一个结合这些模型的优化框架,并对其潜在的改进效果进行了分析。
|
1天前
|
资源调度 算法 块存储
m基于遗传优化的LDPC码OMS译码算法最优偏移参数计算和误码率matlab仿真
MATLAB2022a仿真实现了遗传优化的LDPC码OSD译码算法,通过自动搜索最佳偏移参数ΔΔ以提升纠错性能。该算法结合了低密度奇偶校验码和有序统计译码理论,利用遗传算法进行全局优化,避免手动调整,提高译码效率。核心程序包括编码、调制、AWGN信道模拟及软输入软输出译码等步骤,通过仿真曲线展示了不同SNR下的误码率性能。
9 1
|
1天前
|
机器学习/深度学习 人工智能 算法
构建高效AI系统:深度学习优化技术解析
【5月更文挑战第12天】 随着人工智能技术的飞速发展,深度学习已成为推动创新的核心动力。本文将深入探讨在构建高效AI系统中,如何通过优化算法、调整网络结构及使用新型硬件资源等手段显著提升模型性能。我们将剖析先进的优化策略,如自适应学习率调整、梯度累积技巧以及正则化方法,并讨论其对模型训练稳定性和效率的影响。文中不仅提供理论分析,还结合实例说明如何在实际项目中应用这些优化技术。
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
使用TensorFlow进行深度学习入门
【5月更文挑战第11天】本文引导读者入门TensorFlow深度学习,介绍TensorFlow——Google的开源机器学习框架,用于处理各种机器学习问题。内容包括TensorFlow安装(使用pip)、核心概念(张量、计算图和会话)以及构建和训练简单线性回归模型的示例。通过这个例子,读者可掌握TensorFlow的基本操作,包括定义模型、损失函数、优化器以及运行会话。
|
1天前
|
算法 Serverless
m基于遗传优化的LDPC码NMS译码算法最优归一化参数计算和误码率matlab仿真
MATLAB 2022a仿真实现了遗传优化的归一化最小和(NMS)译码算法,应用于低密度奇偶校验(LDPC)码。结果显示了遗传优化的迭代过程和误码率对比。遗传算法通过选择、交叉和变异操作寻找最佳归一化因子,以提升NMS译码性能。核心程序包括迭代优化、目标函数计算及性能绘图。最终,展示了SNR与误码率的关系,并保存了关键数据。
15 1
|
1天前
|
算法 调度
考虑需求响应的微网优化调度模型【粒子群算法】【matlab】
考虑需求响应的微网优化调度模型【粒子群算法】【matlab】
|
1天前
|
算法 调度
基于多目标粒子群算法冷热电联供综合能源系统运行优化(matlab代码)
基于多目标粒子群算法冷热电联供综合能源系统运行优化(matlab代码)
|
1天前
|
算法
【免费】面向多微网网络结构设计的大规模二进制矩阵优化算法
【免费】面向多微网网络结构设计的大规模二进制矩阵优化算法
|
1天前
|
算法 调度
【问题探讨】基于非支配排序的蜣螂优化算法NSDBO求解微电网多目标优化调度研究
【问题探讨】基于非支配排序的蜣螂优化算法NSDBO求解微电网多目标优化调度研究

热门文章

最新文章