DNN、CNN和RNN的12种主要dropout方法的数学和视觉解释(一)

简介: DNN、CNN和RNN的12种主要dropout方法的数学和视觉解释(一)

动机

在(深度)机器学习中训练模型时的主要挑战之一是协同适应。这意味着神经元彼此非常依赖。它们彼此之间影响很大,并且在输入方面不够独立。找到某些神经元具有比其他神经元重要的预测能力的情况也是很常见的。换句话说,我们的输出可能会过度依赖一个神经元。

为了避免这些影响,必须分配权重以防止过拟合。某些神经元的共适应和高预测能力可以用不同的正则化方法来调节。其中最常用的一种是Dropout。但是,大多数情况下很少使用Dropout的全部功能。

根据网络结构的不同,DNN,CNN还是RNN,可以应用不同的Dropout方法。实际上,我们仅使用一个(或几乎使用),大部分人并不对Dropout有深入的理解。因此在本文中,我们将在数学上和视觉上深入Dropout的世界:

  • 标准Dropout方法
  • 标准Dropout的变体
  • 应用于CNN的Dropout方法
  • 应用于RNN的Dropout方法
  • 其他Dropout应用程序(Monte Carlo和压缩)

符号

image.png

Standard Dropout

最著名和最常用的方法是Hinton等人于2012年引入的标准dropout。出于明显的原因,通常简称为“dropout”,在本文中,我们将其称为“标准dropout”。

image.png


为了防止在训练阶段过度拟合,会随机省略神经元。在密集(或完全连接)的网络中引入的每一层,我们给出了丢失的概率p。在每次迭代中,每个神经元都有被忽略的概率p。Hinton等。论文建议在输入层上的丢失概率p = 0.2,在隐藏层上的概率p = 0.5。显然,我们对作为预测的输出层感兴趣。因此,我们不会在输出层上应用缺失。

image.png

在数学上,我们说每个神经元的遗漏概率遵循概率p的伯努利分布。因此,我们用蒙版制作了神经元矢量(层)的逐个元素,其中每个元素都是遵循伯努利分布的随机变量。

在测试(或推断)阶段,没有退出。所有神经元都活跃。为了补偿与训练阶段相比的其他信息,我们根据存在的可能性进行加权。因此,神经元的概率不会被忽略。它是1-p

DropConnect

image.png


我们找到了与“标准dropout”方法相同的机制。除了掩码(其元素是遵循分布的随机变量)之外,不将其应用于图层的神经元矢量,而是应用于将图层连接至前一层的权重矩阵。

image.png

对于测试阶段,可能具有与标准Dropout方法相同的逻辑。我们可以乘以存在的概率。但这不是L. Wan等人提出的方法。有趣的是,即使在测试阶段,他们也可以通过应用DropConnect的高斯近似来提出一种随机的丢弃方法。然后通过从该高斯表示中随机抽取样本。StandOut之后,我们将回到高斯近似。

目录
相关文章
|
1月前
|
机器学习/深度学习 自然语言处理 前端开发
前端神经网络入门:Brain.js - 详细介绍和对比不同的实现 - CNN、RNN、DNN、FFNN -无需准备环境打开浏览器即可测试运行-支持WebGPU加速
本文介绍了如何使用 JavaScript 神经网络库 **Brain.js** 实现不同类型的神经网络,包括前馈神经网络(FFNN)、深度神经网络(DNN)和循环神经网络(RNN)。通过简单的示例和代码,帮助前端开发者快速入门并理解神经网络的基本概念。文章还对比了各类神经网络的特点和适用场景,并简要介绍了卷积神经网络(CNN)的替代方案。
114 1
|
7月前
|
机器学习/深度学习 人工智能 移动开发
一文搞懂 FFN / RNN / CNN 的参数量计算公式 !!
一文搞懂 FFN / RNN / CNN 的参数量计算公式 !!
341 3
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
卷积神经网络(CNN):视觉识别的革命先锋
卷积神经网络(CNN)作为人工智能领域的一颗璀璨明珠,在计算机视觉中发挥着核心作用。CNN的发展历程展现了从生物学灵感到技术创新的转变,历经LeNet-5至AlexNet、VGGNet、ResNet等里程碑式的进步。其独特结构包括卷积层、池化层及全连接层,能够层层递进地提取特征并作出决策。CNN不仅在图像分类、目标检测等领域表现卓越,还在人脸识别、医学影像分析等方面展现出巨大潜力。尽管存在局限性,如对序列数据处理能力有限及解释性问题,但通过引入注意力机制、自监督学习等方法,CNN将持续演进,引领人工智能技术走向更加精彩的未来。
340 2
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
算法金 | 秒懂 AI - 深度学习五大模型:RNN、CNN、Transformer、BERT、GPT 简介
**RNN**,1986年提出,用于序列数据,如语言模型和语音识别,但原始模型有梯度消失问题。**LSTM**和**GRU**通过门控解决了此问题。 **CNN**,1989年引入,擅长图像处理,卷积层和池化层提取特征,经典应用包括图像分类和物体检测,如LeNet-5。 **Transformer**,2017年由Google推出,自注意力机制实现并行计算,优化了NLP效率,如机器翻译。 **BERT**,2018年Google的双向预训练模型,通过掩码语言模型改进上下文理解,适用于问答和文本分类。
167 9
|
5月前
|
机器学习/深度学习 PyTorch 算法框架/工具
图神经网络是一类用于处理图结构数据的神经网络。与传统的深度学习模型(如卷积神经网络CNN和循环神经网络RNN)不同,
图神经网络是一类用于处理图结构数据的神经网络。与传统的深度学习模型(如卷积神经网络CNN和循环神经网络RNN)不同,
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。
【7月更文挑战第2天】计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。AlexNet开启新时代,后续模型不断优化,推动对象检测、语义分割、图像生成等领域发展。尽管面临数据隐私、模型解释性等挑战,深度学习已广泛应用于安防、医疗、零售和农业,预示着更智能、高效的未来,同时也强调了技术创新、伦理考量的重要性。
70 1
|
7月前
|
机器学习/深度学习 存储 算法
卷积神经网络(CNN)的数学原理解析
卷积神经网络(CNN)的数学原理解析
220 1
卷积神经网络(CNN)的数学原理解析
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
一文介绍CNN/RNN/GAN/Transformer等架构 !!
一文介绍CNN/RNN/GAN/Transformer等架构 !!
262 5
|
7月前
|
机器学习/深度学习 算法 TensorFlow
TensorFlow 2keras开发深度学习模型实例:多层感知器(MLP),卷积神经网络(CNN)和递归神经网络(RNN)
TensorFlow 2keras开发深度学习模型实例:多层感知器(MLP),卷积神经网络(CNN)和递归神经网络(RNN)
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理

热门文章

最新文章

下一篇
DataWorks