对比不同学习率对模型结果的影响

简介: 对比不同学习率对模型结果的影响

前言


在这里我们为了保障实验具备可比性,我们采用控制变量法进行比较lr=0.1、lr=0.01、lr=0.001和lr=0.0001对图像分类的影响,为了简便实验,我们采用LeNet-5网络结构做母版这样大家也都熟悉,同样我们的数据集也为同一个。


鉴于我在上一篇博客中三种卷积核训练的结果不是很满意,在不改变卷积结构的情况下,选择卷积核大小为3乘3的作为实验对象。



一.比对之前


明确不变量如下所示:


1.1 数据集不变(总类别为10,手写数字数据集,单类别数为500)


1.2 训练集和验证集的划分不变(训练:验证=7:3)


1.3 网络结构除卷积核相同


1.4 训练轮数相同


1.5 损失函数相同


1.6 验证频率


1.7 硬件设备相同


为了避免意外现象,我们对这5种学习率各自进行三次训练,分别取均值为最后统计值

options = trainingOptions('sgdm',...
    'InitialLearnRate',0.01, ...
    'maxEpochs', 20, ...
    'ValidationData', imdsValidation, ...
    'ValidationFrequency',5,...
    'Verbose',false,...
    'Plots','training-progress');% 显示训练进度


二.学习率为0.1


由下图可得如下信息:


2.1 验证准确度:91.423%


2.2 训练历时39s


2.2 loss曲线收敛(正常未出现过拟合和欠拟合)\


image.png

image.png

image.png


三.学习率为0.01


由下图可得如下信息:


3.1 验证准确度:91.91%


3.2 训练历史39s


3.2 loss曲线收敛(正常未出现过拟合和欠拟合)\


image.png

image.png

image.png


四.学习率为0.001


由下图可得如下信息:


4.1 验证准确度:89.176%


4.2 训练历时39s


4.2  loss曲线未完全收敛,仍然有下降的空间(此时应增加迭代轮数)


image.png

image.png

image.png


五.学习率为0.0001


由下图可得如下信息:


5.1 验证准确度:79.823%


5.2 训练历时39s


5.2 loss曲线明显未收敛,有大量的下降的空间(此时应增加迭代轮数)


image.png

image.png

网络异常,图片无法展示
|


六.总结


对同一网络结构的模型在相同的硬件上运行,我们发现随着学习率由0.1逐渐向0.0001靠近的时,函数的收敛也会随之变缓慢,若需要精度增加或loss减小,应当适当的增加训练的轮数。


合适的学习率和训练轮数,可以在最短时间内达到模型的最优解,节约了训练的时间成本,避免不必要的算力浪费。




相关文章
|
9月前
|
编解码 并行计算 算法
除了NMS参数,还有哪些因素会影响YOLOv3模型的检测性能?
除了NMS参数,还有哪些因素会影响YOLOv3模型的检测性能?
|
9月前
|
机器学习/深度学习 监控
大模型开发:你如何在保持模型性能的同时减少过拟合的风险?
为应对大模型过拟合,采用正则化(L1/L2/Dropout)、早期停止训练以监控验证集性能,通过数据增强提升模型泛化能力,选择适合问题复杂度的模型,使用集成方法(如Bagging/Boosting)增强稳定性,以及利用预训练模型进行迁移学习。这些策略结合使用能有效降低过拟合风险,提高模型泛化性能。
372 2
|
5月前
|
机器学习/深度学习 数据可视化 数据建模
使用ClassificationThresholdTuner进行二元和多类分类问题阈值调整,提高模型性能增强结果可解释性
在分类问题中,调整决策的概率阈值虽常被忽视,却是提升模型质量的有效步骤。本文深入探讨了阈值调整机制,尤其关注多类分类问题,并介绍了一个名为 ClassificationThresholdTuner 的开源工具,该工具自动化阈值调整和解释过程。通过可视化功能,数据科学家可以更好地理解最优阈值及其影响,尤其是在平衡假阳性和假阴性时。此外,工具支持多类分类,解决了传统方法中的不足。
80 2
使用ClassificationThresholdTuner进行二元和多类分类问题阈值调整,提高模型性能增强结果可解释性
|
5月前
|
监控
在有限的数据量下,如何通过正则化技术或dropout来减轻过拟合风险
在有限的数据量下,如何通过正则化技术或dropout来减轻过拟合风险
|
6月前
|
监控 测试技术
在模型训练中,如何衡量和平衡通用性和特定任务需求的重要性?
在模型训练中,如何衡量和平衡通用性和特定任务需求的重要性?
109 2
|
6月前
|
机器学习/深度学习
【机器学习】准确率、精确率、召回率、误报率、漏报率概念及公式
机器学习评估指标中的准确率、精确率、召回率、误报率和漏报率等概念,并给出了这些指标的计算公式。
1227 0
|
8月前
偏微分方程有了基础模型:样本需求数量级减少,14项任务表现最佳
【6月更文挑战第16天】研究人员提出Poseidon模型,减少求解偏微分方程(PDEs)的样本需求,提升效率。在15个挑战任务中,该模型在14项表现最优。基于scOT的多尺度架构, Poseidon降低了计算成本,但仍有泛化和资源限制。[论文链接](https://arxiv.org/pdf/2405.19101)**
115 4
|
9月前
|
人工智能
小模型性能饱和、表现不佳,根源是因为Softmax?
【5月更文挑战第15天】研究人员发现小型语言模型性能受限于Softmax瓶颈,即隐藏维度与目标上下文概率分布不匹配,导致模型在预测时表现不佳。通过实验,他们证实小于1000个隐藏维度的模型易在训练后期出现退化表示,影响性能。该发现为改进小模型性能提供了新视角,但需要更多后续研究验证。[[240 characters]]
89 1
YOLOv3的NMS参数调整对模型的准确率和召回率分别有什么影响?
YOLOv3的NMS参数调整对模型的准确率和召回率分别有什么影响?
|
9月前
|
数据采集
【大模型】大语言模型训练数据中的偏差概念及其可能的影响?
【5月更文挑战第5天】【大模型】大语言模型训练数据中的偏差概念及其可能的影响?