神经网络训练失败的原因总结 !!

简介: 神经网络训练失败的原因总结 !!

前言

在面对模型不收敛的时候,首先要保证训练的次数够多。在训练过程中,loss并不是一直在下降,准确率一直在提升的,会有一些震荡存在。只要总体趋势是在收敛就行。若训练次数够多(一般上千次,上万次,或者几十个epoch)没收敛,再考虑采取措施解决。


一、数据与标签方面

1. 没有对数据进行预处理

树数据分类标注是否准确?数据是否干净?

2. 没有对数据进行归一化

由于不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。此外,大部分神经网络流程都假设输入输出是在0附近的分布,从权值初始化到激活函数、从训练到训练网络的优化算法。将数据减去均值并除去方差。

3. 样本的信息量太大导致网络不足以fit住整个样本空间

样本邵只可能带来过拟合的问题,需要看下training set上的loss收敛了吗,如果只是 validate set上不收敛,那就说明overfitting了,这时候就要考虑各种 anti-overfit的 trick 了,比如 dropout,SGD,增大minibatch的数量,减少fc层的节点数量,momentum,finetune等。

4. 标签的设置是否正确

二、模型方面

1. 网络设定不合理

如果做很复杂的分类任务,却只用了很浅的网络,可能会导致训练难以收敛。应当选择合适的网络,或者尝试加深当前网络。总体来说,网络不是越深越好,开始可以搭建一个3~8层的网络,当这个网络实现的不错时,你可以考虑实验更深的网络来提升精确度。从小网络开始训练意味着更快,并且可以设置不同参数观察对网络的影响而不是简单的堆叠更多层。

2. Learning rate 不合适

如果太大,会造成不收敛;如果太小,会造成收敛速度非常慢。

在自己训练新网络时,可以从0.1 开始尝试,如果 loss 不下降,那就降低,除以10,用0.01尝试,一般来说,0.01会收敛,不行的话就用0.001。学习率设置过大,很容易震荡。不过刚开始不建议把学习率设置过小,尤其是在训练的开始阶段。在开始阶段我们不能把学习率设置的太低,否则loss不会收敛。

建议逐渐尝试,从0.1,0.08,0.06,0.05....逐渐减小直到正常为止。有的时候学习率太低走不出低估,把冲量提高也是一种方法,适当提高mini-batch值,使其波动不大。

learning rate设大了会带来跑飞(loss突然一直很大)的问题。这个是新手最常见的情况——为啥网络跑着跑着看着要收敛了结果突然起飞了。可能性最大的原因是你用了relu作为激活函数的同时使用了 softmax 或者带有 exp的函数做分类层的loss函数。

当某一次训练传到最后一层的时候,某一节点激活过度(比如100),那么 exp(100)=Inf,发生溢出,bp后所有的weight会变成NAN,然后从此之后weight就会一直保持NAN,于是loss就飞起来了。如果 lr 设的过大会出现跑飞再也回不来的情况。这时候你停一下随便挑一个层的weights看一看,很可能都是NAN了。对于这种情况建议用二分类法尝试。0.1~0.001不同模型不同任务最优的lr都不一样。

3. 隐层神经元数量错误

在一些情况下使用过多或过少的神经元数量都会使得网络很难训练。太少的神经元数量没有能力来表达任务,而太多的神经元数量会导致训练缓慢,并且网络很难清除一些噪声。

隐层神经元数量可以从256到1024中间开始设置,然后可以看看研究人员使用的数字,可以用作参考。如果他们使用的数字与这个大不相同,那么可以想象一下这其中的原理。在决定使用隐层的单元数量之前,最为关键的是考虑你需要通过这个网络表达信息的实际值的最少数量,然后再慢慢增加这个数字。

如果你做回归任务可以考虑使用的神经元数量为输入或输出变量的2到3倍。实际上,与其他因素相比,隐藏单元的数量通常对于神经网络的性能影响相当小。并且在很多情况下,增大所需要隐藏单元的数量仅仅是减慢了训练速度。

4. 错误初始化网络参数

如果没有正确初始化网络权重,那么网络将不能训练。

通常使用较多的初始化权重方法有'he','lecun','xavier',在实际应用中这些方法有非常好的性能,而网络偏差通常初始化为0,你可以选择一个最适合你任务的初始化方式。

5. 没有正则化

正则化典型的就是dropout、加噪声等。即使数据量很大或者你觉得网络不可能出现过拟合,但是对网络进行正则化还是很有必要的。

dropout 通常从设定参数为0.75或0.9开始,根据你认为网络出现过拟合的可能性来调整这个参数。另外,如果你确定这个网络不会出现过拟合,那么可以将参数设定为0.99.正则化不仅仅可以防止过拟合,并且在这个随机过程中,能够加快训练速度以及帮助处理数据中的异常值并防止网络的极端权重配置。对数据扩增也能够实现正则化的效果,最好的避免过拟合的方法就是有大量的训练数据。

6. Batch Size 过大

batch size设置的过大会降低网络的准确度,因为它降低了梯度下降的随机性。另外,在相同情况下batch size越大,那么要达到相同的精确度通常需要训练更多的epoch。

我们可以尝试一些较小的batch size,如16,8,甚至是1。使用较小的batch size,那么一个epoch就可以进行更多次的权值更新。这里有两个好处,第一,可以跳出局部最小点;其二可以表现出更好的泛化性。

7. 学习率设的不对

许多深度学习的框架默认开启了gradient clipping,这个可以处理gradient explosion问题,这个是非常有用的,但是在默认情况下,它也很难找到最佳学习率。如果你正确的清理了数据,删除了异常值,以及设定了正确的学习率,那么可以不需要使用gradient clipping,偶尔你也会遇到gradient explosion问题,那么你可以开启gradient clipping。但是,出现这种问题一般情况下表明数据有其他问题,而gradient clipping只是一个临时的解决方案。

8. 最后一层的激活函数用的不对

在最后一层使用错误的激活函数会导致网络最终不能输出你期望的范围值,最常见的错误就是最后一层使用Relu函数,其输出无负值。

如果是做回归任务,大多数情况下不需要使用激活函数,除非你直到你所期望的值作为输出。想象一下你的数据值实际代表了什么,以及再归一化之后它们的范围是多少,最有可能的情况是输出没有边界的正数和负数。在这种情况下,最后一层不应该使用激活函数。如果你的输出值只能在某个范围内有意义,如0~1范围内的概率组成,那么最后一层可以使用sigmoid函数。

9. 网络存在坏梯度

如果你训练了几个epoch误差没有改变,那可能是你使用了Relu,可以尝试将激活函数换成Leaky Relu。因为Relu激活函数对正值的梯度为1,负值的梯度为0。因此会出现某些网络权值的成本函数的斜率为0,在这种情况下,我们说网络是“dead”,因为网络已经不能更新。

三、如何通过 train loss 与 test loss 分析网络当下的状况

1. train loss 不断下降,test loss 不断下降,说明网络仍在学习;

2. train loss 不断下降,test loss 趋于不变,说明网络过拟合;

3. train loss 趋于不变,test loss 不断下降,说明数据集100%有问题;

4. train loss 趋于不变,test loss 趋于不变,说明学习遇到瓶颈,需要减小学习率或批量数目;

5. train loss 不断上升,test loss 不断上升,说明网络结构设计不当,训练超参数设置不当,数据集经过清洗等问题。


参考:小白学视觉

目录
相关文章
|
2月前
|
机器学习/深度学习 PyTorch 算法框架/工具
目标检测实战(一):CIFAR10结合神经网络加载、训练、测试完整步骤
这篇文章介绍了如何使用PyTorch框架,结合CIFAR-10数据集,通过定义神经网络、损失函数和优化器,进行模型的训练和测试。
143 2
目标检测实战(一):CIFAR10结合神经网络加载、训练、测试完整步骤
|
2月前
|
机器学习/深度学习 数据可视化 计算机视觉
目标检测笔记(五):详细介绍并实现可视化深度学习中每层特征层的网络训练情况
这篇文章详细介绍了如何通过可视化深度学习中每层特征层来理解网络的内部运作,并使用ResNet系列网络作为例子,展示了如何在训练过程中加入代码来绘制和保存特征图。
67 1
目标检测笔记(五):详细介绍并实现可视化深度学习中每层特征层的网络训练情况
|
4月前
|
机器学习/深度学习
神经网络与深度学习---验证集(测试集)准确率高于训练集准确率的原因
本文分析了神经网络中验证集(测试集)准确率高于训练集准确率的四个可能原因,包括数据集大小和分布不均、模型正则化过度、批处理后准确率计算时机不同,以及训练集预处理过度导致分布变化。
|
23天前
|
机器学习/深度学习 自然语言处理 语音技术
Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧
本文介绍了Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧,并通过TensorFlow和PyTorch等库展示了实现神经网络的具体示例,涵盖图像识别、语音识别等多个应用场景。
48 8
|
2月前
|
机器学习/深度学习 数据采集 算法
目标分类笔记(一): 利用包含多个网络多种训练策略的框架来完成多目标分类任务(从数据准备到训练测试部署的完整流程)
这篇博客文章介绍了如何使用包含多个网络和多种训练策略的框架来完成多目标分类任务,涵盖了从数据准备到训练、测试和部署的完整流程,并提供了相关代码和配置文件。
63 0
目标分类笔记(一): 利用包含多个网络多种训练策略的框架来完成多目标分类任务(从数据准备到训练测试部署的完整流程)
|
2月前
|
机器学习/深度学习 算法 TensorFlow
深度学习笔记(五):学习率过大过小对于网络训练有何影响以及如何解决
学习率是深度学习中的关键超参数,它影响模型的训练进度和收敛性,过大或过小的学习率都会对网络训练产生负面影响,需要通过适当的设置和调整策略来优化。
490 0
深度学习笔记(五):学习率过大过小对于网络训练有何影响以及如何解决
|
2月前
|
机器学习/深度学习 算法
【机器学习】揭秘反向传播:深度学习中神经网络训练的奥秘
【机器学习】揭秘反向传播:深度学习中神经网络训练的奥秘
|
3月前
|
机器学习/深度学习 数据采集 数据可视化
深度学习实践:构建并训练卷积神经网络(CNN)对CIFAR-10数据集进行分类
本文详细介绍如何使用PyTorch构建并训练卷积神经网络(CNN)对CIFAR-10数据集进行图像分类。从数据预处理、模型定义到训练过程及结果可视化,文章全面展示了深度学习项目的全流程。通过实际操作,读者可以深入了解CNN在图像分类任务中的应用,并掌握PyTorch的基本使用方法。希望本文为您的深度学习项目提供有价值的参考与启示。
|
4月前
|
机器学习/深度学习
|
4月前
|
安全 Apache 数据安全/隐私保护
你的Wicket应用安全吗?揭秘在Apache Wicket中实现坚不可摧的安全认证策略
【8月更文挑战第31天】在当前的网络环境中,安全性是任何应用程序的关键考量。Apache Wicket 是一个强大的 Java Web 框架,提供了丰富的工具和组件,帮助开发者构建安全的 Web 应用程序。本文介绍了如何在 Wicket 中实现安全认证,
48 0