前言
在这里我们为了保障实验具备可比性,我们采用控制变量法进行比较损失函数:sgdm、rmsprop和adam对图像分类的影响,为了简便实验,我们采用LeNet-5网络结构做母版这样大家也都熟悉,同样我们的数据集也为同一个。
我们可以参考我在上篇博客实验中学习率为0.01的情况下,loss曲线收敛且并未出现过拟合现象和欠拟合现象,我们选择该网络结构(3乘3卷积核,LeNet-5为模板的网络结构)更改损失函数进行实验。
一.比对之前
明确不变量如下所示:
1.1 数据集不变(总类别为10,手写数字数据集,单类别数为500)
1.2 训练集和验证集的划分不变(训练:验证=7:3)
1.3 网络结构除卷积核相同
1.4 训练轮数相同
1.5 学习率相同
1.6 验证频率
1.7 硬件设备相同
为了避免意外现象,我们对这3种损失函数(sgdm、rmsprop和adam)各自进行三次训练,分别取均值为最后统计值。
这里为了方便,我们省去sgdm的实验截图,直接放结论。
二.adam
综合下图中可得如下结论: 由下图可得如下信息:
2.1 验证准确度:91.7333%
2.2 训练历时39.333s
2.2 loss曲线收敛(正常未出现过拟合和欠拟合)
三.rmsprop
由下图可得如下信息:
3.1 验证准确度:90.4666%
3.2 训练历时39.333s
3.2 loss曲线收敛(正常未出现过拟合和欠拟合)
四.sgdm
由下图可得如下信息:
4.1 验证准确度:91.91%
4.2 训练历时39s
4.2 loss曲线收敛(正常未出现过拟合和欠拟合)\
比对结论
除损失函数改变,对于一个正常收敛且未出现过拟合和欠拟合的网络结构的输出结构来看: 验证准确度由大到小排序: sgmd>adam>rmsprop 训练时间由多到少排序:
adam=rmsprop>sgmd