Meta AI & UC Berkeley 新作 | Early Dropout: Make Hinton‘s Drouout Great Again!

简介: Meta AI & UC Berkeley 新作 | Early Dropout: Make Hinton‘s Drouout Great Again!

f06ff629f95d934e598c4a2c0116ad60.png

Title: Dropout Reduces Underfitting


Paper: https://arxiv.org/pdf/2303.01500.pdf


Code: https://github.com/facebookresearch/dropout


导读

b73926557ffcbb7fc5ee95e779818beb.png


由Hinton等人于2012年提出,作为防止神经网络过拟合(overfitting)的正则化器,dropout已经经受住了时间的考验。**本篇论文证明了在训练开始时使用dropout,可以缓解欠拟合(underfitting)。**在训练早期阶段,论文发现dropout减少了mini-batches梯度的方向方差,并有助于将mini-batches梯度与整个数据集的梯度对齐。这有助于抵消SGD的随机性,并限制单个batch对模型训练的影响。论文找到了一个提高欠拟合模型性能的解决方案——early dropout:dropout只在训练的初始阶段应用,并在之后关闭。与没有dropout的模型相比,带有early dropout的模型获得的最终训练损失更低。此外,论文探索了一种正则化过拟合模型的对称技术——late dropout,其中dropout在早期迭代中不使用,只在训练后期被激活。在ImageNet和各种视觉任务上的实验表明,论文的方法可以持续提高泛化精度。论文的研究结果鼓励了对深度学习中正则化的研究,该方法可以成为未来神经网络训练的有用工具,特别是在大数据时代。


背景

Overfitting


ddc035b6c2a0d8ecde2970720e345678.png

**当一个模型在验证集合上和训练集合上表现都很好,但对测试集合上变现很差时,就会出现过拟合。**当数据量减少(上图上半部分)或模型容量增加(上图下半部分)时,就会发生过拟合。

Dropout


4f0c71a1e551a0acb8da191ee149f1f0.png

Dropout简单来说就是在网络前向传播的时候,让某个神经元的激活值以一定的概率p停止工作,这样可以使模型泛化性更强,因为它不会太依赖某些局部的特征。


Drop rate

在Dropout中将神经元的激活值设置为零的概率p,这是一个影响巨大的超参数。

8af5d6e424edec304e46c519e2a7b96d.png


训练精度随着Drop rate的增加而降低,然而,存在一个最优的下降率(在上面这种情况下是p=0.15),使测试精度最大化。

a3c5d0cffd656c0d97f68f785a020adb.png

使用较大的数据集(上图上)或使用较小的模型(上图下,ViT-Tiny(T), Small(S), and Base(B)/32)进行训练,都会导致较低的最优下降率,在某些情况下甚至可能达到0。

Underfitting

随着数据集的规模不断增加,模型不容易对大量的数据进行过拟合,因此近年来dropout rate逐渐降低,甚至很多工作不再使用dropout。随着全球范围内生成和分布的数据量的快速增长,未来的模型可能会更难以正确地拟合数据,导致欠拟合。


贡献

bb34f3f566429618cc62ae682901a216.png


论文提出了early dropout——dropout只在早期训练中使用——以帮助欠拟合模型更好地拟合。与没有dropout和标准dropout相比,early dropout降低了最终的训练损失

论文提出了late dropout——对于已经使用标准dropout的模型,论文建议在早期的训练时期删除dropout,以减轻过拟合。实验证明了它能提高大型模型的泛化精度

方法

在本章节中,论文探讨了dropout是否可以作为一种减少拟合不足的工具


推断思路

论文提出的相关的工具和指标对dropout的有效性进行了详细分析


Gradient norm

11bba89ded11a3739bc0c88cf39a98c7.png


首先,如上图左半部分所示,droput模型产生的梯度的L 2 L_2L

2

范数更小,表明其每次梯度更新时的步长更小

Model distance

由于梯度步长较小,理论上droput模型从其初始点移动的距离比baseline要小。但是如上图左半部分所示,droput模型实际上比baseline移动了更大的距离,这与最初基于梯度规范的预期相反。说明,而步长较大的梯度更新可能是随机的、蜿蜒的,在任何一个特定的方向上都没有太大的进展。

Gradient direction variance

af953a1505bcfb6dabf54651d5714706.png


接着,论文在训练模型checkpoint来收集一组mini-batch梯度G GG,然后计算平均成对余弦距离来测量梯度方向方差(GDV):

517afaf0cbcc5a03764a284f36284ac4.png

可以看到如上图所示,在一定的迭代次数(大约1000次)中,droput模型表现出较低的梯度方差,并朝着更一致的方向移动。


Gradient direction error


e57955b76a97d3030211f17cab80bbbc.png

image.png

93242d9506ad7a7571ea04d0dbcd32fa.png


在训练开始时,dropout模型的mini-batch梯度与整个数据集梯度的距离更小,这表明它正在朝着优化总训练损失的更理想的方向移动(如上图所示)。然而,在大约1000次迭代之后,dropout模型会产生距离更远的梯度。这可能是dropout rate从减少欠拟合过渡到减少过拟合的转折点。


Bias-variance tradeoff

对于no-dropout模型,SGD mini-batch提供了整个数据集梯度的无偏估计,因为mini-batch梯度的期望等于整个数据集梯度。然而,随着dropout,估计变得或多或少有偏差,因为mini-batch梯度是由不同的子网络产生的,其期望的梯度可能或不匹配整个网络的梯度。这就导致梯度方差和梯度误差的减少。这种方差和误差的减少有助于防止模型对特定batch的过拟合,特别是在训练的早期阶段。


论文方案

基于上述分析中,可以知道早期使用dropout可以潜在地提高模型拟合训练数据的能力。基于这一观察结果,论文提出了下述观点:


  1. 重新定义过拟合和欠拟合状
  2. 模型处于欠拟合还是过拟合状态很难精确定义,论文使用以下定义:


如果一个模型使用standard dropout能更好地泛化,认为它处于过拟合状态

如果模型在没有dropout的情况下表现更好,认为它处于欠拟合状态

Early dropout

假如欠拟合的模型未使用dropout,尝试在某次迭代之前使用dropout,然后在之后的训练中禁用它


Late dropout

假如在使用standard dropout后过拟合的模型,在某次迭代之前不使用dropout,然后在后续的训练中使用它。


实验

Early Dropout

f6d855dc7d3a7b0c88e3fc1111de0dd4.png


上图上半部分显示,Early Dropout持续提高了测试的准确性,也减少了训练损失,表明Early Dropout有助于模型更好地拟合数据。


上图下半部分显示,将训练epochs翻倍并减少mixup和cutmix强度,baselines实现了准确性的提高,有时设置大大超过了以前的文献结果。然而,early dropout仍然进一步提高了准确性。

Late Dropout

69fa0dec77c0b77d8c5e663e8401a95b.png


上表显示,与standard s.d(Stochastic depth,dropout的演化版本)相比,Late s.d提升了过拟合模型的测试精度。


消融实验

Scheduling strategies

699a1611e5443b771bd36cc161734971.png

Early dropout优于其他dropout策略或者相关的正则化策略。

Early dropout scheduling

d0b2faf1ed2cf0c95b94120c9ef29fe8.png

Early dropout对各种drop rate变化策略都是鲁棒的。


Model sizes

0fe7c317cb22210453ce8ee4cb9c9ebe.png


Early dropout并对欠拟合模型更加有效,对过拟合模型(模型规模大)效果不佳


Training curves

7d32f7aeed4cc72101dfc27bde84f70f.png


一旦Early dropout阶段结束,其train loss显著下降,test accuracy显著提高,超过no-dropout baseline。


Dropout epochs

0323429ed2113a4c948eb0caa6811ebc.png


Early dropout在不同的epochs设置下都是有效的。


Drop rates

eb715f08ba05c78eeaf9079e92cc7b6b.png


standard dropout(s.d)对dropout rate不是那么敏感,但Early dropout(s.d)的表现高度依赖于它。


Learning rate warmup

0e22d121a47860457ed21742195b4125.png

无论是否使用lr warmup,以及warmup的epoch数量,Early dropout也会提高准确性。


Downstream Tasks


498b92a628a24415626d0017374b49b2.png

0cfd067b0301649d8bbf9883cde04025.png


524778c6ea69272003db6e2cb6ec77b5.png


最后,论文还在下游任务上对预训练的ImageNet-1K模型进行微调,评估Early dropout和Late dropout在目标检测、语义分割、分类等任务上的有效性,结果显示,使用early dropout、s.d和late s.d预训练的模型,能够能够显著提高下游任务的性能和泛化能力


总结

10年来,Dropout在应对过拟合问题上表现出色。在这项工作中,论文揭示了它的潜力,以帮助随机优化和减少欠拟合。论文的关键见解是,Dropout抵消了SGD带来的数据随机性,并在早期训练中减少了梯度方差。这也导致随机mini-batch梯度更符合底层的整个数据集梯度。在此基础上,论文提出了early dropout,以帮助欠拟合模型更好地拟合,而late dropout,以提高过拟合模型的泛化性。论文希望这项发现能激发更多的研究,以理解dropout,为基于梯度的学习设计正则化器,并且论文的方法有助于使用越来越大的数据集进行建模训练。


写在最后

如果您也对人工智能和计算机视觉全栈领域感兴趣,强烈推荐您关注有料、有趣、有爱的公众号『CVHub』,每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案!


同时欢迎添加小编微信: cv_huber,备注CSDN,加入官方学术|技术|招聘交流群,一起探讨更多有趣的话题!


目录
相关文章
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
360 10
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
|
6月前
|
机器学习/深度学习 人工智能 机器人
Meta AI Research:虚拟/可穿戴/机器人三位一体的AI进化路径
本文阐述了我们对具身AI代理的研究——这些代理以视觉、虚拟或物理形式存在,使其能够与用户及环境互动。这些代理包括虚拟化身、可穿戴设备和机器人,旨在感知、学习并在其周围环境中采取行动。与非具身代理相比,这种特性使它们更接近人类的学习与环境交互方式。我们认为,世界模型的构建是具身AI代理推理与规划的核心,这使代理能够理解并预测环境、解析用户意图及社会背景,从而增强其自主完成复杂任务的能力。世界建模涵盖多模态感知的整合、通过推理进行行动规划与控制,以及记忆机制,以形成对物理世界的全面认知。除物理世界外,我们还提出需学习用户的心理世界模型,以优化人机协作。
509 3
|
7月前
|
机器学习/深度学习 人工智能 API
基于昇腾适配Meta AI在Science正刊发表的蛋白质结构预测模型ESMFold
ESMFold是由Meta AI团队开发的一种基于深度学习的高效蛋白质结构预测模型,其核心目标是利用大规模蛋白质语言模型(ESM)直接从氨基酸序列快速推断蛋白质的三维结构。ESMFold通过预训练的语言模型捕捉序列中的进化与结构关联性,结合几何优化模块生成高精度原子坐标,显著降低了传统方法对多重序列比对(MSA)和模板依赖的计算成本。该模型在蛋白质从头预测(de novo prediction)、功能位点解析、突变效应模拟等领域具有重要价值,以高效的推理性能,推动结构预测技术的普惠化应用。
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
这个模型让AI角色会说话还会演!MoCha:Meta联手滑铁卢大学打造对话角色视频生成黑科技
MoCha是由Meta与滑铁卢大学联合开发的端到端对话角色视频生成模型,通过创新的语音-视频窗口注意力机制实现精准的唇语同步和全身动作生成。
524 12
这个模型让AI角色会说话还会演!MoCha:Meta联手滑铁卢大学打造对话角色视频生成黑科技
|
11月前
|
存储 人工智能 编解码
Pippo:Meta放出AI大招!单张照片秒转3D人像多视角视频,AI自动补全身体细节
Pippo 是 Meta 推出的图像到视频生成模型,能够从单张照片生成 1K 分辨率的多视角高清人像视频,支持全身、面部或头部的生成。
1043 9
Pippo:Meta放出AI大招!单张照片秒转3D人像多视角视频,AI自动补全身体细节
|
机器学习/深度学习 人工智能
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
Leffa 是 Meta 开源的图像生成框架,通过引入流场学习在注意力机制中精确控制人物的外观和姿势。该框架不增加额外参数和推理成本,适用于多种扩散模型,展现了良好的模型无关性和泛化能力。
704 11
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
|
12月前
|
机器学习/深度学习 人工智能 算法
Transformer打破三十年数学猜想!Meta研究者用AI给出反例,算法杀手攻克数学难题
《PatternBoost: Constructions in Mathematics with a Little Help from AI》提出了一种结合传统搜索算法和Transformer神经网络的PatternBoost算法,通过局部搜索和全局优化交替进行,成功应用于组合数学问题。该算法在图论中的Ramsey数研究中找到了更小的反例,推翻了一个30年的猜想,展示了AI在数学研究中的巨大潜力,但也面临可解释性和通用性的挑战。论文地址:https://arxiv.org/abs/2411.00566
299 13
|
人工智能 安全 PyTorch
SPDL:Meta AI 推出的开源高性能AI模型数据加载解决方案,兼容主流 AI 框架 PyTorch
SPDL是Meta AI推出的开源高性能AI模型数据加载解决方案,基于多线程技术和异步事件循环,提供高吞吐量、低资源占用的数据加载功能,支持分布式系统和主流AI框架PyTorch。
554 10
SPDL:Meta AI 推出的开源高性能AI模型数据加载解决方案,兼容主流 AI 框架 PyTorch
|
机器学习/深度学习 人工智能 算法
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性
Meta Motivo 是 Meta 公司推出的 AI 模型,旨在控制数字智能体的全身动作,提升元宇宙体验的真实性。该模型通过无监督强化学习算法,能够实现零样本学习、行为模仿与生成、多任务泛化等功能,适用于机器人控制、虚拟助手、游戏角色动画等多个应用场景。
351 4
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性