Meta AI & UC Berkeley 新作 | Early Dropout: Make Hinton‘s Drouout Great Again!

简介: Meta AI & UC Berkeley 新作 | Early Dropout: Make Hinton‘s Drouout Great Again!

f06ff629f95d934e598c4a2c0116ad60.png

Title: Dropout Reduces Underfitting


Paper: https://arxiv.org/pdf/2303.01500.pdf


Code: https://github.com/facebookresearch/dropout


导读

b73926557ffcbb7fc5ee95e779818beb.png


由Hinton等人于2012年提出,作为防止神经网络过拟合(overfitting)的正则化器,dropout已经经受住了时间的考验。**本篇论文证明了在训练开始时使用dropout,可以缓解欠拟合(underfitting)。**在训练早期阶段,论文发现dropout减少了mini-batches梯度的方向方差,并有助于将mini-batches梯度与整个数据集的梯度对齐。这有助于抵消SGD的随机性,并限制单个batch对模型训练的影响。论文找到了一个提高欠拟合模型性能的解决方案——early dropout:dropout只在训练的初始阶段应用,并在之后关闭。与没有dropout的模型相比,带有early dropout的模型获得的最终训练损失更低。此外,论文探索了一种正则化过拟合模型的对称技术——late dropout,其中dropout在早期迭代中不使用,只在训练后期被激活。在ImageNet和各种视觉任务上的实验表明,论文的方法可以持续提高泛化精度。论文的研究结果鼓励了对深度学习中正则化的研究,该方法可以成为未来神经网络训练的有用工具,特别是在大数据时代。


背景

Overfitting


ddc035b6c2a0d8ecde2970720e345678.png

**当一个模型在验证集合上和训练集合上表现都很好,但对测试集合上变现很差时,就会出现过拟合。**当数据量减少(上图上半部分)或模型容量增加(上图下半部分)时,就会发生过拟合。

Dropout


4f0c71a1e551a0acb8da191ee149f1f0.png

Dropout简单来说就是在网络前向传播的时候,让某个神经元的激活值以一定的概率p停止工作,这样可以使模型泛化性更强,因为它不会太依赖某些局部的特征。


Drop rate

在Dropout中将神经元的激活值设置为零的概率p,这是一个影响巨大的超参数。

8af5d6e424edec304e46c519e2a7b96d.png


训练精度随着Drop rate的增加而降低,然而,存在一个最优的下降率(在上面这种情况下是p=0.15),使测试精度最大化。

a3c5d0cffd656c0d97f68f785a020adb.png

使用较大的数据集(上图上)或使用较小的模型(上图下,ViT-Tiny(T), Small(S), and Base(B)/32)进行训练,都会导致较低的最优下降率,在某些情况下甚至可能达到0。

Underfitting

随着数据集的规模不断增加,模型不容易对大量的数据进行过拟合,因此近年来dropout rate逐渐降低,甚至很多工作不再使用dropout。随着全球范围内生成和分布的数据量的快速增长,未来的模型可能会更难以正确地拟合数据,导致欠拟合。


贡献

bb34f3f566429618cc62ae682901a216.png


论文提出了early dropout——dropout只在早期训练中使用——以帮助欠拟合模型更好地拟合。与没有dropout和标准dropout相比,early dropout降低了最终的训练损失

论文提出了late dropout——对于已经使用标准dropout的模型,论文建议在早期的训练时期删除dropout,以减轻过拟合。实验证明了它能提高大型模型的泛化精度

方法

在本章节中,论文探讨了dropout是否可以作为一种减少拟合不足的工具


推断思路

论文提出的相关的工具和指标对dropout的有效性进行了详细分析


Gradient norm

11bba89ded11a3739bc0c88cf39a98c7.png


首先,如上图左半部分所示,droput模型产生的梯度的L 2 L_2L

2

范数更小,表明其每次梯度更新时的步长更小

Model distance

由于梯度步长较小,理论上droput模型从其初始点移动的距离比baseline要小。但是如上图左半部分所示,droput模型实际上比baseline移动了更大的距离,这与最初基于梯度规范的预期相反。说明,而步长较大的梯度更新可能是随机的、蜿蜒的,在任何一个特定的方向上都没有太大的进展。

Gradient direction variance

af953a1505bcfb6dabf54651d5714706.png


接着,论文在训练模型checkpoint来收集一组mini-batch梯度G GG,然后计算平均成对余弦距离来测量梯度方向方差(GDV):

517afaf0cbcc5a03764a284f36284ac4.png

可以看到如上图所示,在一定的迭代次数(大约1000次)中,droput模型表现出较低的梯度方差,并朝着更一致的方向移动。


Gradient direction error


e57955b76a97d3030211f17cab80bbbc.png

image.png

93242d9506ad7a7571ea04d0dbcd32fa.png


在训练开始时,dropout模型的mini-batch梯度与整个数据集梯度的距离更小,这表明它正在朝着优化总训练损失的更理想的方向移动(如上图所示)。然而,在大约1000次迭代之后,dropout模型会产生距离更远的梯度。这可能是dropout rate从减少欠拟合过渡到减少过拟合的转折点。


Bias-variance tradeoff

对于no-dropout模型,SGD mini-batch提供了整个数据集梯度的无偏估计,因为mini-batch梯度的期望等于整个数据集梯度。然而,随着dropout,估计变得或多或少有偏差,因为mini-batch梯度是由不同的子网络产生的,其期望的梯度可能或不匹配整个网络的梯度。这就导致梯度方差和梯度误差的减少。这种方差和误差的减少有助于防止模型对特定batch的过拟合,特别是在训练的早期阶段。


论文方案

基于上述分析中,可以知道早期使用dropout可以潜在地提高模型拟合训练数据的能力。基于这一观察结果,论文提出了下述观点:


  1. 重新定义过拟合和欠拟合状
  2. 模型处于欠拟合还是过拟合状态很难精确定义,论文使用以下定义:


如果一个模型使用standard dropout能更好地泛化,认为它处于过拟合状态

如果模型在没有dropout的情况下表现更好,认为它处于欠拟合状态

Early dropout

假如欠拟合的模型未使用dropout,尝试在某次迭代之前使用dropout,然后在之后的训练中禁用它


Late dropout

假如在使用standard dropout后过拟合的模型,在某次迭代之前不使用dropout,然后在后续的训练中使用它。


实验

Early Dropout

f6d855dc7d3a7b0c88e3fc1111de0dd4.png


上图上半部分显示,Early Dropout持续提高了测试的准确性,也减少了训练损失,表明Early Dropout有助于模型更好地拟合数据。


上图下半部分显示,将训练epochs翻倍并减少mixup和cutmix强度,baselines实现了准确性的提高,有时设置大大超过了以前的文献结果。然而,early dropout仍然进一步提高了准确性。

Late Dropout

69fa0dec77c0b77d8c5e663e8401a95b.png


上表显示,与standard s.d(Stochastic depth,dropout的演化版本)相比,Late s.d提升了过拟合模型的测试精度。


消融实验

Scheduling strategies

699a1611e5443b771bd36cc161734971.png

Early dropout优于其他dropout策略或者相关的正则化策略。

Early dropout scheduling

d0b2faf1ed2cf0c95b94120c9ef29fe8.png

Early dropout对各种drop rate变化策略都是鲁棒的。


Model sizes

0fe7c317cb22210453ce8ee4cb9c9ebe.png


Early dropout并对欠拟合模型更加有效,对过拟合模型(模型规模大)效果不佳


Training curves

7d32f7aeed4cc72101dfc27bde84f70f.png


一旦Early dropout阶段结束,其train loss显著下降,test accuracy显著提高,超过no-dropout baseline。


Dropout epochs

0323429ed2113a4c948eb0caa6811ebc.png


Early dropout在不同的epochs设置下都是有效的。


Drop rates

eb715f08ba05c78eeaf9079e92cc7b6b.png


standard dropout(s.d)对dropout rate不是那么敏感,但Early dropout(s.d)的表现高度依赖于它。


Learning rate warmup

0e22d121a47860457ed21742195b4125.png

无论是否使用lr warmup,以及warmup的epoch数量,Early dropout也会提高准确性。


Downstream Tasks


498b92a628a24415626d0017374b49b2.png

0cfd067b0301649d8bbf9883cde04025.png


524778c6ea69272003db6e2cb6ec77b5.png


最后,论文还在下游任务上对预训练的ImageNet-1K模型进行微调,评估Early dropout和Late dropout在目标检测、语义分割、分类等任务上的有效性,结果显示,使用early dropout、s.d和late s.d预训练的模型,能够能够显著提高下游任务的性能和泛化能力


总结

10年来,Dropout在应对过拟合问题上表现出色。在这项工作中,论文揭示了它的潜力,以帮助随机优化和减少欠拟合。论文的关键见解是,Dropout抵消了SGD带来的数据随机性,并在早期训练中减少了梯度方差。这也导致随机mini-batch梯度更符合底层的整个数据集梯度。在此基础上,论文提出了early dropout,以帮助欠拟合模型更好地拟合,而late dropout,以提高过拟合模型的泛化性。论文希望这项发现能激发更多的研究,以理解dropout,为基于梯度的学习设计正则化器,并且论文的方法有助于使用越来越大的数据集进行建模训练。


写在最后

如果您也对人工智能和计算机视觉全栈领域感兴趣,强烈推荐您关注有料、有趣、有爱的公众号『CVHub』,每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案!


同时欢迎添加小编微信: cv_huber,备注CSDN,加入官方学术|技术|招聘交流群,一起探讨更多有趣的话题!


目录
相关文章
|
1月前
|
机器学习/深度学习 人工智能
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
Leffa 是 Meta 开源的图像生成框架,通过引入流场学习在注意力机制中精确控制人物的外观和姿势。该框架不增加额外参数和推理成本,适用于多种扩散模型,展现了良好的模型无关性和泛化能力。
77 11
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
Llama 3.3:Meta AI 开源新的纯文本语言模型,专注于多语言对话优化
Meta AI推出的Llama 3.3是一款70B参数的纯文本语言模型,支持多语言对话,具备高效、低成本的特点,适用于多种应用场景,如聊天机器人、客户服务自动化、语言翻译等。
85 13
Llama 3.3:Meta AI 开源新的纯文本语言模型,专注于多语言对话优化
|
1月前
|
人工智能 安全 PyTorch
SPDL:Meta AI 推出的开源高性能AI模型数据加载解决方案,兼容主流 AI 框架 PyTorch
SPDL是Meta AI推出的开源高性能AI模型数据加载解决方案,基于多线程技术和异步事件循环,提供高吞吐量、低资源占用的数据加载功能,支持分布式系统和主流AI框架PyTorch。
63 10
SPDL:Meta AI 推出的开源高性能AI模型数据加载解决方案,兼容主流 AI 框架 PyTorch
|
1月前
|
机器学习/深度学习 人工智能 算法
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性
Meta Motivo 是 Meta 公司推出的 AI 模型,旨在控制数字智能体的全身动作,提升元宇宙体验的真实性。该模型通过无监督强化学习算法,能够实现零样本学习、行为模仿与生成、多任务泛化等功能,适用于机器人控制、虚拟助手、游戏角色动画等多个应用场景。
70 4
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性
|
1月前
|
机器学习/深度学习 存储 人工智能
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型
EfficientTAM是Meta AI推出的轻量级视频对象分割和跟踪模型,旨在解决SAM 2模型在移动设备上部署时的高计算复杂度问题。该模型采用非层次化Vision Transformer(ViT)作为图像编码器,并引入高效记忆模块,以降低计算复杂度,同时保持高质量的分割结果。EfficientTAM在多个视频分割基准测试中表现出与SAM 2相当的性能,具有更快的处理速度和更少的参数,特别适用于移动设备上的视频对象分割应用。
62 9
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型
|
1月前
|
人工智能 数据挖掘
AI长脑子了?LLM惊现人类脑叶结构并有数学代码分区,MIT大牛新作震惊学界!
麻省理工学院的一项新研究揭示了大型语言模型(LLM)内部概念空间的几何结构,与人脑类似。研究通过分析稀疏自编码器生成的高维向量,发现了概念空间在原子、大脑和星系三个层次上的独特结构,为理解LLM的内部机制提供了新视角。论文地址:https://arxiv.org/abs/2410.19750
75 12
|
1月前
|
人工智能 自然语言处理 数据挖掘
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%
田渊栋团队提出Agent-as-a-Judge框架,利用智能体自身评估其他智能体的性能,不仅关注最终结果,还能提供中间反馈,更全面准确地反映智能体的真实能力。该框架在DevAI基准测试中表现出色,成本效益显著,为智能体的自我改进提供了有力支持。
54 7
|
2月前
|
机器学习/深度学习 人工智能 机器人
何恺明新作出炉!异构预训练Transformer颠覆本体视觉学习范式,AI性能暴涨超20%
【10月更文挑战第29天】在机器人学习领域,训练通用模型面临数据异构性的挑战。近期研究“Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers”提出异构预训练Transformer(HPT),通过大规模预训练学习跨不同本体和任务的共享表示,显著提升了性能。实验结果显示,HPT在未见过的任务上表现优异,性能提升超过20%。
105 6
|
3月前
|
人工智能 自然语言处理 安全
【通义】AI视界|Adobe推出文生视频AI模型,迎战OpenAI和Meta
本文精选了过去24小时内的重要科技新闻,包括微软人工智能副总裁跳槽至OpenAI、Adobe推出文本生成视频的AI模型、Meta取消高端头显转而开发超轻量设备、谷歌与核能公司合作为数据中心供电,以及英伟达股价创下新高,市值接近3.4万亿美元。这些动态展示了科技行业的快速发展和激烈竞争。点击链接或扫描二维码获取更多资讯。
|
4月前
|
人工智能 测试技术
语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场
【9月更文挑战第20天】Meta研究人员提出了一种名为Transfusion的创新方法,通过融合Transformer和Diffusion模型,实现了能同时处理文本和图像数据的多模态模型。此模型结合了语言模型的预测能力和Diffusion模型的生成能力,能够在单一架构中处理混合模态数据,有效学习文本与图像间的复杂关系,提升跨模态理解和生成效果。经过大规模预训练,Transfusion模型在多种基准测试中表现出色,尤其在图像压缩和模态特定编码方面具有优势。然而,其训练所需的大量计算资源和数据、以及潜在的伦理和隐私问题仍需关注。
94 7

热门文章

最新文章