batch_size对精确度和损失的影响

简介: batch_size对精确度和损失的影响

1 问题

在深度学习的学习过程中,模型性能对batchsize虽然没有学习率那么敏感,但是在进一步提升模型性能时,batch_size就会成为一个非常关键的参数。

batch_size对精度和损失的影响研究。

batch_size = [,32,64,128,256]

  1. 不同batch_size下的训练精度曲线;
  2. 不同batch_size下的训练Loss曲线;
  3. 不同batch_size下的验证精度曲线;
  4. 不同batch_size下的验证Loss曲线;

基础参数配置:

  1. 训练周期=40
  2. 学习率=0.001
  3. 优化器= SGD


2 方法

在此之前,我们已经实现了全网络连接MNIST手写数字模型建立,一些参数对模型的精确度和损失产生影响,例如,学习率(learn_rate)、batch_size等

针对batch_size对模型的影响,将定义一个方法,把batch_size = [32,64,128,256]

数据可视化,使用matplotlib绘制

Batchsize=32

Batchsize=64

Batchsize=128

Batchsize=256

数据可视化,使用matplotlib绘制四个子图,关键代码如下:

结果如下:


3 结语

batch_size取值32训练和取64128训练,trainvallloss下降趋势32>64>128>256,最终结果也是32>64>128>256差不多,train vallacc,的最终结果32=64>128>256,其中64trainacc最先大于vallacc,可能是实验偶然的结果,对于只有十个的分类,可以将batch32附近,这样可以提高精度,降低训练时长

目录
相关文章
|
2月前
|
编解码 并行计算 算法
除了NMS参数,还有哪些因素会影响YOLOv3模型的检测性能?
除了NMS参数,还有哪些因素会影响YOLOv3模型的检测性能?
|
18天前
|
测试技术
goldfish loss:减少训练数据泄漏,提高大语言模型输出的多样性
LLMs(大型语言模型)能够记忆并重复它们的训练数据,这可能会带来隐私和版权风险。为了减轻记忆现象,论文作者引入了一种名为"goldfish loss"的微妙修改,在训练过程中,随机抽样的一部分标记被排除在损失计算之外。这些被舍弃的标记不会被模型记忆,从而防止模型完整复制训练集中的一整个标记序列。
44 3
|
机器学习/深度学习 资源调度 监控
深度学习基础入门篇[六]:模型调优,学习率设置(Warm Up、loss自适应衰减等),batch size调优技巧,基于方差放缩初始化方法。
深度学习基础入门篇[六]:模型调优,学习率设置(Warm Up、loss自适应衰减等),batch size调优技巧,基于方差放缩初始化方法。
|
24天前
|
机器学习/深度学习
YOLOv8的多分类模型如何计算准确率(Accuracy)、精确率(Precision)、召回率(recall)和F1-Score模型评估参数
YOLOv8的多分类模型如何计算准确率(Accuracy)、精确率(Precision)、召回率(recall)和F1-Score模型评估参数
|
2月前
|
存储 人工智能 自然语言处理
DeepSparse: 通过剪枝和稀疏预训练,在不损失精度的情况下减少70%的模型大小,提升三倍速度
该论文提出了一种新方法,用于创建高稀疏性大型语言模型,通过稀疏预训练和高效部署,在保持高准确度的同时显著提升处理速度。方法包括结合SparseGPT剪枝和稀疏预训练,实现70%稀疏度下准确率完全恢复,尤其适合复杂任务。实验显示,使用Cerebras CS-3 AI加速器和Neural Magic的DeepSparse、nm-vllm引擎,训练和推理速度有显著提升。此外,量化稀疏模型在CPU上速度提升可达8.6倍。这种方法优于传统剪枝,为构建更快、更小的语言模型提供了新途径,并通过开源代码和模型促进了研究复现和扩展。
48 3
YOLOv3的NMS参数调整对模型的准确率和召回率分别有什么影响?
YOLOv3的NMS参数调整对模型的准确率和召回率分别有什么影响?
|
2月前
|
机器学习/深度学习 并行计算 数据可视化
Batch Size 对神经网络训练的影响
Batch Size 对神经网络训练的影响
42 0
|
2月前
|
机器学习/深度学习
YOLOv8改进 | Conv篇 | 利用轻量化PartialConv提出一种全新的结构CSPPC (参数量下降约100W)
YOLOv8改进 | Conv篇 | 利用轻量化PartialConv提出一种全新的结构CSPPC (参数量下降约100W)
670 0
|
11月前
|
机器学习/深度学习 数据可视化 数据挖掘
0参数量 + 0训练,3D点云分析方法Point-NN刷新多项SOTA(2)
0参数量 + 0训练,3D点云分析方法Point-NN刷新多项SOTA
223 0
|
11月前
|
机器学习/深度学习 数据可视化 计算机视觉
0参数量 + 0训练,3D点云分析方法Point-NN刷新多项SOTA(1)
0参数量 + 0训练,3D点云分析方法Point-NN刷新多项SOTA
102 0