机器(深度)学习中的 Dropout

简介: 机器(深度)学习中的 Dropout

这篇文章中,我将主要讨论神经网络中 dropout 的概念,特别是深度网络,然后进行实验,通过在标准数据集上实施深度网络并查看 dropout 的影响,看看它在实践中实际影响如何。

1. Dropout是什么?

术语“dropout”是指在神经网络中丢弃单元(包括隐藏的和可见的)。

简单来说,dropout 是指随机选择的某组神经元在训练阶段忽略单元(即神经元)。 “忽略”是指在特定的前向或后向传递过程中不考虑这些单元。

详细的就是,在每个训练阶段,单个节点要么以 1-p 的概率退出网络,要么以 p 的概率保留,这样就剩下一个缩小的网络;也删除了到丢弃节点的传入和传出边。

2. 为什么需要Dropout?

鉴于我们对 dropout 有所了解,一个问题出现了——为什么我们需要 dropout?为什么我们需要关闭神经网络的某些部分?

这些问题的答案是“防止过拟合”。

全连接层占据了大部分参数,因此,神经元在训练过程中相互依赖,这抑制了每个神经元的个体能力,导致训练数据过拟合。

3. 重新审视 Dropout

现在我们对 dropout 和动机有了一些了解,让我们来详细了解一下。如果你只是想了解神经网络中的 dropout,那么以上两节就足够了。在本节中,我将涉及更多技术细节。

在机器学习中,正则化是防止过度拟合的方法。正则化通过向损失函数添加惩罚来减少过度拟合。通过添加这个惩罚,模型被训练成不学习相互依赖的特征权重集。了解逻辑回归的人可能熟悉 L1(拉普拉斯)和 L2(高斯)惩罚。

Dropout 是一种神经网络正则化方法,有助于减少神经元之间的相互依赖学习。

4. 训练阶段

训练阶段:对于每个隐藏层,对于每个训练样本,对于每次迭代,忽略(清零)节点(和相应的激活)的随机分数 p。

5. 测试阶段

使用所有激活,但将它们减少一个因子 p(以解决训练期间丢失的激活)。

Srivastava, Nitish, et al.

6. 作用

  1. Dropout 迫使神经网络学习更强大的特征,这些特征与其他神经元的许多不同随机子集结合使用时很有用。
  2. Dropout 使收敛所需的迭代次数加倍。然而,每个时期的训练时间较少。
  3. 有 H 个隐藏单元,每个隐藏单元都可以被丢弃,我们有2^H 个可能的模型。在测试阶段,考虑整个网络,每次激活都减少一个因子 p。

7. 实际效果

让我们在实践中试试这个理论。为了了解 dropout 的工作原理,我在 Keras 中构建了一个深层网络,并尝试在 CIFAR-10 数据集上对其进行验证。构建的深度网络具有三个大小为 64、128 和 256 的卷积层,然后是两个大小为 512 的密集连接层和一个大小为 10 的输出层密集层(CIFAR-10 数据集中的类数)。

我将 ReLU 作为隐藏层的激活函数,将 sigmoid 作为输出层的激活函数(这些是标准,并没有在改变这些方面做太多实验)。另外,我使用了标准的分类交叉熵损失。

最后,我在所有层中使用了 dropout,并将 dropout 的比例从 0.0(根本没有 dropout)增加到 0.9,步长为 0.1,并将每个层运行到 20 个 epoch。结果如下所示:

从上图中我们可以得出结论,随着 dropout 的增加,在趋势开始下降之前,验证准确率有所提高,损失最初有所下降。

如果 dropout fraction 为 0.2,趋势下降可能有两个原因:

  1. 0.2 是此数据集、网络和使用的设置参数的实际最小值
  2. 需要更多的时期来训练网络。
目录
打赏
0
0
0
0
332
分享
相关文章
|
1月前
YOLOv11改进策略【模型轻量化】| 替换骨干网络为 GhostNet V3 2024华为的重参数轻量化模型
YOLOv11改进策略【模型轻量化】| 替换骨干网络为 GhostNet V3 2024华为的重参数轻量化模型
93 18
YOLOv11改进策略【模型轻量化】| 替换骨干网络为 GhostNet V3 2024华为的重参数轻量化模型
YOLOv11改进策略【模型轻量化】| 替换骨干网络 CVPR-2023 FasterNet 高效快速的部分卷积块
YOLOv11改进策略【模型轻量化】| 替换骨干网络 CVPR-2023 FasterNet 高效快速的部分卷积块
83 11
YOLOv11改进策略【模型轻量化】| 替换骨干网络 CVPR-2023 FasterNet 高效快速的部分卷积块
《深度解析:深度信念网络DBN降维模型训练要点》
深度信念网络(DBN)在降维任务中表现出色,但正确的模型训练至关重要。DBN由多个受限玻尔兹曼机(RBM)堆叠而成,通过逐层预训练和微调学习数据的低维表示。训练要点包括:数据预处理(归一化、去噪)、参数设置(学习率、隐藏层节点数、训练轮数)、防止过拟合(正则化、数据增强)。每个环节对降维效果都有重要影响,需合理调整以发挥最佳性能。
65 10
【机器学习】面试题:LSTM长短期记忆网络的理解?LSTM是怎么解决梯度消失的问题的?还有哪些其它的解决梯度消失或梯度爆炸的方法?
长短时记忆网络(LSTM)的基本概念、解决梯度消失问题的机制,以及介绍了包括梯度裁剪、改变激活函数、残差结构和Batch Normalization在内的其他方法来解决梯度消失或梯度爆炸问题。
278 2
【YOLOv8改进- Backbone主干】YOLOv8更换主干网络之ConvNexts,纯卷积神经网络,更快更准,,降低参数量!
YOLOv8专栏探讨了针对目标检测的ConvNet创新,提出ConvNeXt模型,它挑战Transformer在视觉任务中的主导地位。ConvNeXt通过增大卷积核、使用GeLU激活、切换到LayerNorm和改进下采样层,提升了纯ConvNet性能,达到与Transformer相当的准确率和效率。论文和代码已公开。
【YOLOv8改进 - Backbone主干】清华大学CloFormer AttnConv :利用共享权重和上下文感知权重增强局部感知,注意力机制与卷积的完美融合
【YOLOv8改进 - Backbone主干】清华大学CloFormer AttnConv :利用共享权重和上下文感知权重增强局部感知,注意力机制与卷积的完美融合
**批量归一化(BN)**是2015年提出的深度学习优化技术,旨在解决**内部协变量偏移**和**梯度问题**。
【6月更文挑战第28天】**批量归一化(BN)**是2015年提出的深度学习优化技术,旨在解决**内部协变量偏移**和**梯度问题**。BN通过在每个小批量上执行**标准化**,然后应用学习到的γ和β参数,确保层间输入稳定性,加速训练,减少对超参数的敏感性,并作为隐含的正则化手段对抗过拟合。这提升了模型训练速度和性能,简化了初始化。
83 0
技术经验解读:不知道怎样计算权重?告诉你8种确定权重方法
技术经验解读:不知道怎样计算权重?告诉你8种确定权重方法
DeepMind升级Transformer,前向通过FLOPs最多可降一半
【4月更文挑战第25天】DeepMind提出的新Transformer变体MoD,通过动态分配计算资源降低前向计算复杂度,旨在优化效率并保持性能。MoD模型采用动态路由机制,集中计算资源处理关键token,减少不必要的计算,从而提高效率和速度。实验显示,MoD模型能减半FLOPs,降低成本。然而,它面临动态计算分配的复杂性、路由算法的准确性及自回归采样中的非因果性挑战。[论文链接](https://arxiv.org/pdf/2404.02258.pdf)
81 5
【顶刊2023】重新审视Dropout层的作用,不止可有效防止过拟合!来源:《Dropout Reduces Underfitting》
【顶刊2023】重新审视Dropout层的作用,不止可有效防止过拟合!来源:《Dropout Reduces Underfitting》
122 1
【顶刊2023】重新审视Dropout层的作用,不止可有效防止过拟合!来源:《Dropout Reduces Underfitting》

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等