Meta AI & UC Berkeley 新作 | Early Dropout: Make Hinton‘s Drouout Great Again!

简介: Meta AI & UC Berkeley 新作 | Early Dropout: Make Hinton‘s Drouout Great Again!

f06ff629f95d934e598c4a2c0116ad60.png

Title: Dropout Reduces Underfitting


Paper: https://arxiv.org/pdf/2303.01500.pdf


Code: https://github.com/facebookresearch/dropout


导读

b73926557ffcbb7fc5ee95e779818beb.png


由Hinton等人于2012年提出,作为防止神经网络过拟合(overfitting)的正则化器,dropout已经经受住了时间的考验。**本篇论文证明了在训练开始时使用dropout,可以缓解欠拟合(underfitting)。**在训练早期阶段,论文发现dropout减少了mini-batches梯度的方向方差,并有助于将mini-batches梯度与整个数据集的梯度对齐。这有助于抵消SGD的随机性,并限制单个batch对模型训练的影响。论文找到了一个提高欠拟合模型性能的解决方案——early dropout:dropout只在训练的初始阶段应用,并在之后关闭。与没有dropout的模型相比,带有early dropout的模型获得的最终训练损失更低。此外,论文探索了一种正则化过拟合模型的对称技术——late dropout,其中dropout在早期迭代中不使用,只在训练后期被激活。在ImageNet和各种视觉任务上的实验表明,论文的方法可以持续提高泛化精度。论文的研究结果鼓励了对深度学习中正则化的研究,该方法可以成为未来神经网络训练的有用工具,特别是在大数据时代。


背景

Overfitting


ddc035b6c2a0d8ecde2970720e345678.png

**当一个模型在验证集合上和训练集合上表现都很好,但对测试集合上变现很差时,就会出现过拟合。**当数据量减少(上图上半部分)或模型容量增加(上图下半部分)时,就会发生过拟合。

Dropout


4f0c71a1e551a0acb8da191ee149f1f0.png

Dropout简单来说就是在网络前向传播的时候,让某个神经元的激活值以一定的概率p停止工作,这样可以使模型泛化性更强,因为它不会太依赖某些局部的特征。


Drop rate

在Dropout中将神经元的激活值设置为零的概率p,这是一个影响巨大的超参数。

8af5d6e424edec304e46c519e2a7b96d.png


训练精度随着Drop rate的增加而降低,然而,存在一个最优的下降率(在上面这种情况下是p=0.15),使测试精度最大化。

a3c5d0cffd656c0d97f68f785a020adb.png

使用较大的数据集(上图上)或使用较小的模型(上图下,ViT-Tiny(T), Small(S), and Base(B)/32)进行训练,都会导致较低的最优下降率,在某些情况下甚至可能达到0。

Underfitting

随着数据集的规模不断增加,模型不容易对大量的数据进行过拟合,因此近年来dropout rate逐渐降低,甚至很多工作不再使用dropout。随着全球范围内生成和分布的数据量的快速增长,未来的模型可能会更难以正确地拟合数据,导致欠拟合。


贡献

bb34f3f566429618cc62ae682901a216.png


论文提出了early dropout——dropout只在早期训练中使用——以帮助欠拟合模型更好地拟合。与没有dropout和标准dropout相比,early dropout降低了最终的训练损失

论文提出了late dropout——对于已经使用标准dropout的模型,论文建议在早期的训练时期删除dropout,以减轻过拟合。实验证明了它能提高大型模型的泛化精度

方法

在本章节中,论文探讨了dropout是否可以作为一种减少拟合不足的工具


推断思路

论文提出的相关的工具和指标对dropout的有效性进行了详细分析


Gradient norm

11bba89ded11a3739bc0c88cf39a98c7.png


首先,如上图左半部分所示,droput模型产生的梯度的L 2 L_2L

2

范数更小,表明其每次梯度更新时的步长更小

Model distance

由于梯度步长较小,理论上droput模型从其初始点移动的距离比baseline要小。但是如上图左半部分所示,droput模型实际上比baseline移动了更大的距离,这与最初基于梯度规范的预期相反。说明,而步长较大的梯度更新可能是随机的、蜿蜒的,在任何一个特定的方向上都没有太大的进展。

Gradient direction variance

af953a1505bcfb6dabf54651d5714706.png


接着,论文在训练模型checkpoint来收集一组mini-batch梯度G GG,然后计算平均成对余弦距离来测量梯度方向方差(GDV):

517afaf0cbcc5a03764a284f36284ac4.png

可以看到如上图所示,在一定的迭代次数(大约1000次)中,droput模型表现出较低的梯度方差,并朝着更一致的方向移动。


Gradient direction error


e57955b76a97d3030211f17cab80bbbc.png

image.png

93242d9506ad7a7571ea04d0dbcd32fa.png


在训练开始时,dropout模型的mini-batch梯度与整个数据集梯度的距离更小,这表明它正在朝着优化总训练损失的更理想的方向移动(如上图所示)。然而,在大约1000次迭代之后,dropout模型会产生距离更远的梯度。这可能是dropout rate从减少欠拟合过渡到减少过拟合的转折点。


Bias-variance tradeoff

对于no-dropout模型,SGD mini-batch提供了整个数据集梯度的无偏估计,因为mini-batch梯度的期望等于整个数据集梯度。然而,随着dropout,估计变得或多或少有偏差,因为mini-batch梯度是由不同的子网络产生的,其期望的梯度可能或不匹配整个网络的梯度。这就导致梯度方差和梯度误差的减少。这种方差和误差的减少有助于防止模型对特定batch的过拟合,特别是在训练的早期阶段。


论文方案

基于上述分析中,可以知道早期使用dropout可以潜在地提高模型拟合训练数据的能力。基于这一观察结果,论文提出了下述观点:


  1. 重新定义过拟合和欠拟合状
  2. 模型处于欠拟合还是过拟合状态很难精确定义,论文使用以下定义:


如果一个模型使用standard dropout能更好地泛化,认为它处于过拟合状态

如果模型在没有dropout的情况下表现更好,认为它处于欠拟合状态

Early dropout

假如欠拟合的模型未使用dropout,尝试在某次迭代之前使用dropout,然后在之后的训练中禁用它


Late dropout

假如在使用standard dropout后过拟合的模型,在某次迭代之前不使用dropout,然后在后续的训练中使用它。


实验

Early Dropout

f6d855dc7d3a7b0c88e3fc1111de0dd4.png


上图上半部分显示,Early Dropout持续提高了测试的准确性,也减少了训练损失,表明Early Dropout有助于模型更好地拟合数据。


上图下半部分显示,将训练epochs翻倍并减少mixup和cutmix强度,baselines实现了准确性的提高,有时设置大大超过了以前的文献结果。然而,early dropout仍然进一步提高了准确性。

Late Dropout

69fa0dec77c0b77d8c5e663e8401a95b.png


上表显示,与standard s.d(Stochastic depth,dropout的演化版本)相比,Late s.d提升了过拟合模型的测试精度。


消融实验

Scheduling strategies

699a1611e5443b771bd36cc161734971.png

Early dropout优于其他dropout策略或者相关的正则化策略。

Early dropout scheduling

d0b2faf1ed2cf0c95b94120c9ef29fe8.png

Early dropout对各种drop rate变化策略都是鲁棒的。


Model sizes

0fe7c317cb22210453ce8ee4cb9c9ebe.png


Early dropout并对欠拟合模型更加有效,对过拟合模型(模型规模大)效果不佳


Training curves

7d32f7aeed4cc72101dfc27bde84f70f.png


一旦Early dropout阶段结束,其train loss显著下降,test accuracy显著提高,超过no-dropout baseline。


Dropout epochs

0323429ed2113a4c948eb0caa6811ebc.png


Early dropout在不同的epochs设置下都是有效的。


Drop rates

eb715f08ba05c78eeaf9079e92cc7b6b.png


standard dropout(s.d)对dropout rate不是那么敏感,但Early dropout(s.d)的表现高度依赖于它。


Learning rate warmup

0e22d121a47860457ed21742195b4125.png

无论是否使用lr warmup,以及warmup的epoch数量,Early dropout也会提高准确性。


Downstream Tasks


498b92a628a24415626d0017374b49b2.png

0cfd067b0301649d8bbf9883cde04025.png


524778c6ea69272003db6e2cb6ec77b5.png


最后,论文还在下游任务上对预训练的ImageNet-1K模型进行微调,评估Early dropout和Late dropout在目标检测、语义分割、分类等任务上的有效性,结果显示,使用early dropout、s.d和late s.d预训练的模型,能够能够显著提高下游任务的性能和泛化能力


总结

10年来,Dropout在应对过拟合问题上表现出色。在这项工作中,论文揭示了它的潜力,以帮助随机优化和减少欠拟合。论文的关键见解是,Dropout抵消了SGD带来的数据随机性,并在早期训练中减少了梯度方差。这也导致随机mini-batch梯度更符合底层的整个数据集梯度。在此基础上,论文提出了early dropout,以帮助欠拟合模型更好地拟合,而late dropout,以提高过拟合模型的泛化性。论文希望这项发现能激发更多的研究,以理解dropout,为基于梯度的学习设计正则化器,并且论文的方法有助于使用越来越大的数据集进行建模训练。


写在最后

如果您也对人工智能和计算机视觉全栈领域感兴趣,强烈推荐您关注有料、有趣、有爱的公众号『CVHub』,每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案!


同时欢迎添加小编微信: cv_huber,备注CSDN,加入官方学术|技术|招聘交流群,一起探讨更多有趣的话题!


目录
相关文章
|
6月前
|
人工智能 缓存 关系型数据库
Mistral AI vs. Meta:顶级开源LLM比较
为了提高性能,大型语言模型(llm)通常会通过增加模型大小的方法来实现这个目标,但是模型大小的增加也增加了计算成本和推理延迟,增加了在实际场景中部署和使用llm的障碍。
180 2
|
1月前
|
人工智能 自然语言处理 安全
【通义】AI视界|Adobe推出文生视频AI模型,迎战OpenAI和Meta
本文精选了过去24小时内的重要科技新闻,包括微软人工智能副总裁跳槽至OpenAI、Adobe推出文本生成视频的AI模型、Meta取消高端头显转而开发超轻量设备、谷歌与核能公司合作为数据中心供电,以及英伟达股价创下新高,市值接近3.4万亿美元。这些动态展示了科技行业的快速发展和激烈竞争。点击链接或扫描二维码获取更多资讯。
|
2月前
|
人工智能 测试技术
语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场
【9月更文挑战第20天】Meta研究人员提出了一种名为Transfusion的创新方法,通过融合Transformer和Diffusion模型,实现了能同时处理文本和图像数据的多模态模型。此模型结合了语言模型的预测能力和Diffusion模型的生成能力,能够在单一架构中处理混合模态数据,有效学习文本与图像间的复杂关系,提升跨模态理解和生成效果。经过大规模预训练,Transfusion模型在多种基准测试中表现出色,尤其在图像压缩和模态特定编码方面具有优势。然而,其训练所需的大量计算资源和数据、以及潜在的伦理和隐私问题仍需关注。
70 7
|
3月前
|
人工智能
Meta开源用于数学等复杂推理AI Agent—HUSKY
【8月更文挑战第19天】Meta AI团队开源了HUSKY,一种统一的AI代理,专长解决数学及复杂推理任务。HUSKY通过学习在通用操作空间内推理,涵盖数值、表格和基于知识的任务。它分为生成和执行两阶段,利用专家模型如语言和数值推理模型解决问题。经过14个数据集测试,HUSKY展现出超越同类代理的性能,尤其是在新提出的HUSKYQA评估集中,其7B模型的表现媲美甚至超越GPT-4等大型模型。相关代码和模型已公开,以推动领域内的研究进展。[论文](https://arxiv.org/abs/2406.06469)
50 2
|
4月前
|
人工智能 自然语言处理 API
[AI Meta Llama-3.1] 介绍
探索Meta Llama-3.1 AI模型的强大功能,包括多版本选择、关键能力、自定义部署和成本优化策略。
[AI Meta Llama-3.1] 介绍
|
6月前
|
机器学习/深度学习 人工智能 机器人
Meta首席科学家Yann LeCun:AI毁灭人类的概率为零
【2月更文挑战第22天】Meta首席科学家Yann LeCun:AI毁灭人类的概率为零
49 2
Meta首席科学家Yann LeCun:AI毁灭人类的概率为零
|
6月前
|
人工智能 安全 搜索推荐
OpenAI、谷歌、微软、Meta联名签署AI公开信
【2月更文挑战第16天】OpenAI、谷歌、微软、Meta联名签署AI公开信
61 2
OpenAI、谷歌、微软、Meta联名签署AI公开信
|
6月前
|
人工智能 数据可视化 测试技术
Meta AI开源CLIP-DINOiser | 如何将自监督DINO的Trick教给CLIP?这里就是答案!
Meta AI开源CLIP-DINOiser | 如何将自监督DINO的Trick教给CLIP?这里就是答案!
140 0
|
人工智能 计算机视觉 异构计算
基于 Python 的 Meta AI —— SAM
基于 Python 的 Meta AI —— SAM
|
机器学习/深度学习 人工智能 PyTorch
7nm制程,比GPU效率高,Meta发布第一代AI推理加速器
7nm制程,比GPU效率高,Meta发布第一代AI推理加速器
412 0