DNN、CNN和RNN的12种主要dropout方法的数学和视觉解释(一)

简介: DNN、CNN和RNN的12种主要dropout方法的数学和视觉解释(一)

动机

在(深度)机器学习中训练模型时的主要挑战之一是协同适应。这意味着神经元彼此非常依赖。它们彼此之间影响很大,并且在输入方面不够独立。找到某些神经元具有比其他神经元重要的预测能力的情况也是很常见的。换句话说,我们的输出可能会过度依赖一个神经元。

为了避免这些影响,必须分配权重以防止过拟合。某些神经元的共适应和高预测能力可以用不同的正则化方法来调节。其中最常用的一种是Dropout。但是,大多数情况下很少使用Dropout的全部功能。

根据网络结构的不同,DNN,CNN还是RNN,可以应用不同的Dropout方法。实际上,我们仅使用一个(或几乎使用),大部分人并不对Dropout有深入的理解。因此在本文中,我们将在数学上和视觉上深入Dropout的世界:

  • 标准Dropout方法
  • 标准Dropout的变体
  • 应用于CNN的Dropout方法
  • 应用于RNN的Dropout方法
  • 其他Dropout应用程序(Monte Carlo和压缩)

符号

image.png

Standard Dropout

最著名和最常用的方法是Hinton等人于2012年引入的标准dropout。出于明显的原因,通常简称为“dropout”,在本文中,我们将其称为“标准dropout”。

image.png


为了防止在训练阶段过度拟合,会随机省略神经元。在密集(或完全连接)的网络中引入的每一层,我们给出了丢失的概率p。在每次迭代中,每个神经元都有被忽略的概率p。Hinton等。论文建议在输入层上的丢失概率p = 0.2,在隐藏层上的概率p = 0.5。显然,我们对作为预测的输出层感兴趣。因此,我们不会在输出层上应用缺失。

image.png

在数学上,我们说每个神经元的遗漏概率遵循概率p的伯努利分布。因此,我们用蒙版制作了神经元矢量(层)的逐个元素,其中每个元素都是遵循伯努利分布的随机变量。

在测试(或推断)阶段,没有退出。所有神经元都活跃。为了补偿与训练阶段相比的其他信息,我们根据存在的可能性进行加权。因此,神经元的概率不会被忽略。它是1-p

DropConnect

image.png


我们找到了与“标准dropout”方法相同的机制。除了掩码(其元素是遵循分布的随机变量)之外,不将其应用于图层的神经元矢量,而是应用于将图层连接至前一层的权重矩阵。

image.png

对于测试阶段,可能具有与标准Dropout方法相同的逻辑。我们可以乘以存在的概率。但这不是L. Wan等人提出的方法。有趣的是,即使在测试阶段,他们也可以通过应用DropConnect的高斯近似来提出一种随机的丢弃方法。然后通过从该高斯表示中随机抽取样本。StandOut之后,我们将回到高斯近似。

目录
相关文章
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
​​超越CNN与RNN:为什么Transformer是AI发展的必然选择?​
本文深入解析Transformer及其在AI领域的三大突破:自然语言处理、视觉识别(ViT)与图像生成(DiT)。以“注意力即一切”为核心,揭示其如何成为AI时代的通用架构。
812 2
|
9月前
|
机器学习/深度学习 数据采集 算法
【CNN-BiLSTM-attention】基于高斯混合模型聚类的风电场短期功率预测方法(Python&matlab代码实现)
【CNN-BiLSTM-attention】基于高斯混合模型聚类的风电场短期功率预测方法(Python&matlab代码实现)
440 4
|
机器学习/深度学习 人工智能 移动开发
一文搞懂 FFN / RNN / CNN 的参数量计算公式 !!
一文搞懂 FFN / RNN / CNN 的参数量计算公式 !!
1362 3
|
机器学习/深度学习 自然语言处理 前端开发
前端神经网络入门:Brain.js - 详细介绍和对比不同的实现 - CNN、RNN、DNN、FFNN -无需准备环境打开浏览器即可测试运行-支持WebGPU加速
本文介绍了如何使用 JavaScript 神经网络库 **Brain.js** 实现不同类型的神经网络,包括前馈神经网络(FFNN)、深度神经网络(DNN)和循环神经网络(RNN)。通过简单的示例和代码,帮助前端开发者快速入门并理解神经网络的基本概念。文章还对比了各类神经网络的特点和适用场景,并简要介绍了卷积神经网络(CNN)的替代方案。
2134 1
|
机器学习/深度学习 人工智能 自然语言处理
算法金 | 秒懂 AI - 深度学习五大模型:RNN、CNN、Transformer、BERT、GPT 简介
**RNN**,1986年提出,用于序列数据,如语言模型和语音识别,但原始模型有梯度消失问题。**LSTM**和**GRU**通过门控解决了此问题。 **CNN**,1989年引入,擅长图像处理,卷积层和池化层提取特征,经典应用包括图像分类和物体检测,如LeNet-5。 **Transformer**,2017年由Google推出,自注意力机制实现并行计算,优化了NLP效率,如机器翻译。 **BERT**,2018年Google的双向预训练模型,通过掩码语言模型改进上下文理解,适用于问答和文本分类。
1157 9
|
机器学习/深度学习 PyTorch 算法框架/工具
图神经网络是一类用于处理图结构数据的神经网络。与传统的深度学习模型(如卷积神经网络CNN和循环神经网络RNN)不同,
图神经网络是一类用于处理图结构数据的神经网络。与传统的深度学习模型(如卷积神经网络CNN和循环神经网络RNN)不同,
|
机器学习/深度学习 人工智能 自然语言处理
计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。
【7月更文挑战第2天】计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。AlexNet开启新时代,后续模型不断优化,推动对象检测、语义分割、图像生成等领域发展。尽管面临数据隐私、模型解释性等挑战,深度学习已广泛应用于安防、医疗、零售和农业,预示着更智能、高效的未来,同时也强调了技术创新、伦理考量的重要性。
426 1
|
机器学习/深度学习 自然语言处理 算法
基于卷积神经网络(CNN)的垃圾邮件过滤方法
传统的垃圾邮件过滤手段如规则匹配常因垃圾邮件的多变而失效。基于深度学习的方法,特别是卷积神经网络(CNN),能自动学习邮件中的复杂特征,有效识别垃圾邮件的新形态。CNN通过特征学习、处理复杂结构、良好的泛化能力和适应性,以及高效处理大数据的能力,显著提升了过滤精度。在文本分类任务中,CNN通过卷积层提取局部特征,池化层减少维度,全连接层进行分类,特别适合捕捉文本的局部模式和顺序信息,从而构建高效的垃圾邮件过滤系统。
1166 0
|
机器学习/深度学习 人工智能 自然语言处理
一文介绍CNN/RNN/GAN/Transformer等架构 !!
一文介绍CNN/RNN/GAN/Transformer等架构 !!
2011 5
|
机器学习/深度学习
【从零开始学习深度学习】33.语言模型的计算方式及循环神经网络RNN简介
【从零开始学习深度学习】33.语言模型的计算方式及循环神经网络RNN简介
【从零开始学习深度学习】33.语言模型的计算方式及循环神经网络RNN简介

热门文章

最新文章