零、各类优化算法
0.1 框架梳理优化算法
各类深度学习的优化算法的演变过程:SGD -> SGDM -> NAG ->AdaGrad -> AdaDelta -> Adam -> Nadam 这样的历程。
优化算法的框架:
首先定义:待优化的参数为w,目标函数为f(w),初始的学习速率为 α \alphaα,现在要开始迭代优化,在每个epoch t中:
一、Adam
(1)回顾随机梯度下降SGD:
2.2 问题2
问题2:为啥在训练时加入dropout,而在测试阶段不用加入dropout?
答:dropout是一种正则化技术。在训练过程中,模型参数在不退出的情况下容易对某些特征进行过拟合,且相邻参数之间存在高度依赖性。在这种情况下,模型是脆弱和过度拟合的,不能处理分布外的未见数据。Dropout可以在训练过程中通过消零梯度来随机切断参数(权重)之间的连接。因此,dropout可以降低参数之间的依赖程度,使训练后的模型具有更好的鲁棒性和泛化能力。在评估过程中,我们需要参数和一致输出之间的所有连接,所以不需要使用dropout。