DNN、CNN和RNN的12种主要dropout方法的数学和视觉解释(一)

简介: DNN、CNN和RNN的12种主要dropout方法的数学和视觉解释(一)

动机

在(深度)机器学习中训练模型时的主要挑战之一是协同适应。这意味着神经元彼此非常依赖。它们彼此之间影响很大,并且在输入方面不够独立。找到某些神经元具有比其他神经元重要的预测能力的情况也是很常见的。换句话说,我们的输出可能会过度依赖一个神经元。

为了避免这些影响,必须分配权重以防止过拟合。某些神经元的共适应和高预测能力可以用不同的正则化方法来调节。其中最常用的一种是Dropout。但是,大多数情况下很少使用Dropout的全部功能。

根据网络结构的不同,DNN,CNN还是RNN,可以应用不同的Dropout方法。实际上,我们仅使用一个(或几乎使用),大部分人并不对Dropout有深入的理解。因此在本文中,我们将在数学上和视觉上深入Dropout的世界:

  • 标准Dropout方法
  • 标准Dropout的变体
  • 应用于CNN的Dropout方法
  • 应用于RNN的Dropout方法
  • 其他Dropout应用程序(Monte Carlo和压缩)

符号

image.png

Standard Dropout

最著名和最常用的方法是Hinton等人于2012年引入的标准dropout。出于明显的原因,通常简称为“dropout”,在本文中,我们将其称为“标准dropout”。

image.png


为了防止在训练阶段过度拟合,会随机省略神经元。在密集(或完全连接)的网络中引入的每一层,我们给出了丢失的概率p。在每次迭代中,每个神经元都有被忽略的概率p。Hinton等。论文建议在输入层上的丢失概率p = 0.2,在隐藏层上的概率p = 0.5。显然,我们对作为预测的输出层感兴趣。因此,我们不会在输出层上应用缺失。

image.png

在数学上,我们说每个神经元的遗漏概率遵循概率p的伯努利分布。因此,我们用蒙版制作了神经元矢量(层)的逐个元素,其中每个元素都是遵循伯努利分布的随机变量。

在测试(或推断)阶段,没有退出。所有神经元都活跃。为了补偿与训练阶段相比的其他信息,我们根据存在的可能性进行加权。因此,神经元的概率不会被忽略。它是1-p

DropConnect

image.png


我们找到了与“标准dropout”方法相同的机制。除了掩码(其元素是遵循分布的随机变量)之外,不将其应用于图层的神经元矢量,而是应用于将图层连接至前一层的权重矩阵。

image.png

对于测试阶段,可能具有与标准Dropout方法相同的逻辑。我们可以乘以存在的概率。但这不是L. Wan等人提出的方法。有趣的是,即使在测试阶段,他们也可以通过应用DropConnect的高斯近似来提出一种随机的丢弃方法。然后通过从该高斯表示中随机抽取样本。StandOut之后,我们将回到高斯近似。

目录
相关文章
|
1月前
|
机器学习/深度学习 自然语言处理 异构计算
Python深度学习面试:CNN、RNN与Transformer详解
【4月更文挑战第16天】本文介绍了深度学习面试中关于CNN、RNN和Transformer的常见问题和易错点,并提供了Python代码示例。理解这三种模型的基本组成、工作原理及其在图像识别、文本处理等任务中的应用是评估技术实力的关键。注意点包括:模型结构的混淆、过拟合的防治、输入序列长度处理、并行化训练以及模型解释性。掌握这些知识和技巧,将有助于在面试中展现优秀的深度学习能力。
67 11
|
1月前
|
机器学习/深度学习 人工智能 移动开发
一文搞懂 FFN / RNN / CNN 的参数量计算公式 !!
一文搞懂 FFN / RNN / CNN 的参数量计算公式 !!
37 3
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
一文介绍CNN/RNN/GAN/Transformer等架构 !!
一文介绍CNN/RNN/GAN/Transformer等架构 !!
53 5
|
1月前
|
机器学习/深度学习 存储 算法
卷积神经网络(CNN)的数学原理解析
卷积神经网络(CNN)的数学原理解析
51 1
卷积神经网络(CNN)的数学原理解析
|
1月前
|
机器学习/深度学习 算法 TensorFlow
TensorFlow 2keras开发深度学习模型实例:多层感知器(MLP),卷积神经网络(CNN)和递归神经网络(RNN)
TensorFlow 2keras开发深度学习模型实例:多层感知器(MLP),卷积神经网络(CNN)和递归神经网络(RNN)
|
1月前
|
机器学习/深度学习 自然语言处理 并行计算
神经网络结构——CNN、RNN、LSTM、Transformer !!
神经网络结构——CNN、RNN、LSTM、Transformer !!
180 0
|
1月前
|
机器学习/深度学习 人工智能 算法
深度学习及CNN、RNN、GAN等神经网络简介(图文解释 超详细)
深度学习及CNN、RNN、GAN等神经网络简介(图文解释 超详细)
225 1
|
1月前
|
机器学习/深度学习 自然语言处理 TensorFlow
【Python深度学习】RNN循环神经网络结构讲解及序列回归问题实战(图文解释 附源码)
【Python深度学习】RNN循环神经网络结构讲解及序列回归问题实战(图文解释 附源码)
64 0
|
1月前
|
机器学习/深度学习 存储 自然语言处理
一文带你了解【深度学习】中CNN、RNN、LSTM、DBN等神经网络(图文解释 包括各种激活函数)
一文带你了解【深度学习】中CNN、RNN、LSTM、DBN等神经网络(图文解释 包括各种激活函数)
146 0
|
3天前
|
机器学习/深度学习
【从零开始学习深度学习】23. CNN中的多通道输入及多通道输出计算方式及1X1卷积层介绍
【从零开始学习深度学习】23. CNN中的多通道输入及多通道输出计算方式及1X1卷积层介绍
【从零开始学习深度学习】23. CNN中的多通道输入及多通道输出计算方式及1X1卷积层介绍