对比不同学习率对模型结果的影响

简介: 对比不同学习率对模型结果的影响

前言


在这里我们为了保障实验具备可比性,我们采用控制变量法进行比较lr=0.1、lr=0.01、lr=0.001和lr=0.0001对图像分类的影响,为了简便实验,我们采用LeNet-5网络结构做母版这样大家也都熟悉,同样我们的数据集也为同一个。


鉴于我在上一篇博客中三种卷积核训练的结果不是很满意,在不改变卷积结构的情况下,选择卷积核大小为3乘3的作为实验对象。



一.比对之前


明确不变量如下所示:


1.1 数据集不变(总类别为10,手写数字数据集,单类别数为500)


1.2 训练集和验证集的划分不变(训练:验证=7:3)


1.3 网络结构除卷积核相同


1.4 训练轮数相同


1.5 损失函数相同


1.6 验证频率


1.7 硬件设备相同


为了避免意外现象,我们对这5种学习率各自进行三次训练,分别取均值为最后统计值

options = trainingOptions('sgdm',...
    'InitialLearnRate',0.01, ...
    'maxEpochs', 20, ...
    'ValidationData', imdsValidation, ...
    'ValidationFrequency',5,...
    'Verbose',false,...
    'Plots','training-progress');% 显示训练进度


二.学习率为0.1


由下图可得如下信息:


2.1 验证准确度:91.423%


2.2 训练历时39s


2.2 loss曲线收敛(正常未出现过拟合和欠拟合)\


image.png

image.png

image.png


三.学习率为0.01


由下图可得如下信息:


3.1 验证准确度:91.91%


3.2 训练历史39s


3.2 loss曲线收敛(正常未出现过拟合和欠拟合)\


image.png

image.png

image.png


四.学习率为0.001


由下图可得如下信息:


4.1 验证准确度:89.176%


4.2 训练历时39s


4.2  loss曲线未完全收敛,仍然有下降的空间(此时应增加迭代轮数)


image.png

image.png

image.png


五.学习率为0.0001


由下图可得如下信息:


5.1 验证准确度:79.823%


5.2 训练历时39s


5.2 loss曲线明显未收敛,有大量的下降的空间(此时应增加迭代轮数)


image.png

image.png

网络异常,图片无法展示
|


六.总结


对同一网络结构的模型在相同的硬件上运行,我们发现随着学习率由0.1逐渐向0.0001靠近的时,函数的收敛也会随之变缓慢,若需要精度增加或loss减小,应当适当的增加训练的轮数。


合适的学习率和训练轮数,可以在最短时间内达到模型的最优解,节约了训练的时间成本,避免不必要的算力浪费。




相关文章
|
机器学习/深度学习 算法 TensorFlow
深度学习笔记(五):学习率过大过小对于网络训练有何影响以及如何解决
学习率是深度学习中的关键超参数,它影响模型的训练进度和收敛性,过大或过小的学习率都会对网络训练产生负面影响,需要通过适当的设置和调整策略来优化。
2305 0
深度学习笔记(五):学习率过大过小对于网络训练有何影响以及如何解决
|
11月前
|
数据采集 前端开发 物联网
【项目实战】通过LLaMaFactory+Qwen2-VL-2B微调一个多模态医疗大模型
本文介绍了一个基于多模态大模型的医疗图像诊断项目。项目旨在通过训练一个医疗领域的多模态大模型,提高医生处理医学图像的效率,辅助诊断和治疗。作者以家中老人的脑部CT为例,展示了如何利用MedTrinity-25M数据集训练模型,经过数据准备、环境搭建、模型训练及微调、最终验证等步骤,成功使模型能够识别CT图像并给出具体的诊断意见,与专业医生的诊断结果高度吻合。
21342 162
【项目实战】通过LLaMaFactory+Qwen2-VL-2B微调一个多模态医疗大模型
|
9月前
|
计算机视觉
YOLOv11改进策略【卷积层】| 2024最新轻量级自适应提取模块 LAE 即插即用 保留局部信息和全局信息
YOLOv11改进策略【卷积层】| 2024最新轻量级自适应提取模块 LAE 即插即用 保留局部信息和全局信息
414 0
YOLOv11改进策略【卷积层】| 2024最新轻量级自适应提取模块 LAE 即插即用 保留局部信息和全局信息
|
自动驾驶 物联网 5G
深入探索5G网络中的网络切片技术及其应用场景
深入探索5G网络中的网络切片技术及其应用场景
3556 3
|
机器学习/深度学习 自然语言处理 算法
深度学习-生成式检索-论文速读-2024-09-14(下)
深度学习-生成式检索-论文速读-2024-09-14(下)
|
Linux 开发工具
【Linux快速入门(二)】Linux与ROS学习之编译基础(make编译)
【Linux快速入门(二)】Linux与ROS学习之编译基础(make编译)
383 0
|
定位技术
eharts 中国地图添加城市(散点图实现,含获取城市坐标、图片转base64、自定义散点样式)
eharts 中国地图添加城市(散点图实现,含获取城市坐标、图片转base64、自定义散点样式)
1454 9
|
算法 计算机视觉
【YOLOv8训练结果评估】YOLOv8如何使用训练好的模型对验证集进行评估及评估参数详解
【YOLOv8训练结果评估】YOLOv8如何使用训练好的模型对验证集进行评估及评估参数详解
|
算法 网络协议
【计网·湖科大·思科】实验三 总线型以太网的特性、集线器和交换机的区别、交换机的自学习算法
【计网·湖科大·思科】实验三 总线型以太网的特性、集线器和交换机的区别、交换机的自学习算法
508 1
|
机器学习/深度学习 人工智能 JSON
在LLM浪潮下,prompt工程师需要很懂算法吗?
最近AI大神吴恩达推出prompt教程并给出了prompt构建三大原则,Prompt Engineering Guide也提出了诸多技巧,受AI技术的快速发展的影响,你觉得在LLM浪潮下,prompt工程师需要很懂算法吗?欢迎一起来聊一聊~
26075 50
在LLM浪潮下,prompt工程师需要很懂算法吗?