Cutout
让我们更深入地研究克服相邻像素高度相关这一事实的方法。可以在区域中应用它们,而不是在每个特征图上应用伯努利遮罩。这是T. DeVries和G. W. Taylor提出的Cutout方法。
上一次以猫图像为例:该方法可以通过隐藏图像区域来进行泛化,从而限制过拟合。我们最终得到的图像是猫头掉落的地方。这迫使CNN识别描述猫的不太明显的属性。
同样在本节中没有数学。这种方法在很大程度上取决于我们的想象力:正方形区域,矩形,圆形,所有要素地图,一次或可能多次……取决于您。
Max-Drop
最后,总结本节有关CNN的过程,我必须指出,显然可以组合几种方法。当我们知道不同的方法时,这就是使我们变得强大的原因:我们可以同时利用它们的好处。这就是S. Park和N. Kwak提出的最大下降方法
这种方法在某种程度上是Pooling Dropout和Gaussian Dropout的混合。删除是在最大池化层上执行的,但是使用贝叶斯方法。
在他们的论文中,他们证明了这种方法所产生的结果与使用Spatial Dropout一样有效。除了在每次迭代中,所有神经元都保持激活这一事实之外,这还限制了训练阶段的减速。这些结果是在µ = 0.02和σ²= 0.05的条件下获得的。
RNNDrop
好吧,我们已经看到了DNN和CNN的一些Dropout方法。该研究还试图找出哪种方法对递归神经网络(RNN)可能有效。它们通常依赖于LSTM,因此我将以RNN的这种特殊情况为例。它将可以推广到其他RNN。
问题很简单:在RNN上应用dropout很危险。从某种意义上说,RNN的目的是长期保留事件的记忆。但是经典的丢弃方法效率不高,因为它们会产生噪音,从而阻止这些模型长期保持记忆。将介绍的方法可以长期保留此内存。
T. Moon等人提出的RNNDrop 。是最简单的方法。伯努利遮罩仅应用于隐藏的单元状态。但是此掩码在序列之间彼此相同。这称为Dropout的按顺序采样。这仅表示在每次迭代中我们都会创建一个随机掩码。然后从一个序列到另一个序列,此掩码保持不变。因此,放置的元素仍然保留,而当前的元素仍然存在。而这在所有序列上。
Recurrent Dropout
S. Semeniuta等人提出的递归dropout。是一个有趣的变体。单元状态保持不变。Dropout仅应用于更新单元状态的部分。因此,在每次迭代中,伯努利的遮罩都会使某些元素不再有助于长期记忆。但是内存没有改变。
Variational RNN dropout
最后,由Y. Gal和Z. Ghahramani提出的简单但有效的RNN Dropout 是在内部闸门之前应用基于序列的dropout。
Monte Carlo Dropout
仍然有很多不同的Dropout方法,但本文将在此处停止。最后,我发现了解Dropout方法不仅是正则化方法。
Dropout方法还可以提供模型不确定性的指标。 对于相同的输入,遇到缺失的模型在每次迭代中将具有不同的体系结构。这导致输出差异。如果网络相当笼统,并且共同适应受到限制,那么预测将分布在整个模型中。这会导致在每次迭代中使用相同输入的情况下输出的方差较小。研究此方差可以给出可以分配给模型的置信度的概念。这可以通过Y. Gal和Z. Ghahramani方法看到。
最后,直观地,通过随机地应用丢弃,我们可以看到给定神经元进行预测的效率或效率低下。根据这一观察,我们可以通过减少参数数量同时最小化性能下降来压缩模型。K.Neklyudov等。提出了一种使用变差丢弃DNN和CNN的方法。
引用
[1] G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R. R. Salakhutdinov, Improving neural networks by preventing co-adaptation of feature detectors
[2] L. Wan, M. Zeiler, S. Zhang, Y. LeCun, and R. Fergus, Regularization of neural networks using dropconnect
[3] L. J. Ba and B. Frey, Adaptive dropout for training deep neural networks
[4] S. Wang and C. Manning, Fast dropout training
[5] D. P. Kingma, T. Salimans, and M. Welling, Variational dropout and the local reparameterization trick
[6] Y. Gal, J. Hron, A. Kendall, Concrete Dropout
[7] H. Wu and X. Gu, Towards dropout training for convolutional neural networks
[8] J. Tompson, R. Goroshin, A. Jain, Y. LeCun, and C. Bregler, Efficient object localization using convolutional networks
[9] T. DeVries and G. W. Taylor, Improved regularization of convolutional neural networks with cutout
[10] S. Park and N. Kwak, Analysis on the dropout effect in convolutional neural networks
[11] T. Moon, H. Choi, H. Lee, and I. Song, Rnndrop
[12] S. Semeniuta, A. Severyn, and E. Barth, Recurrent dropout without memory loss
[13] Y. Gal and Z. Ghahramani, A theoretically grounded application of dropout in recurrent neural networks
[14] Y. Gal and Z. Ghahramani, Dropout as a bayesian approximation: Representing model uncertainty in deep learning
[15] K. Neklyudov, D. Molchanov, A. Ashukha, and D. P. Vetrov, Structured bayesian pruning via log-normal multiplicative noise
[16] A. Labach, H. Salehinejad, Survey of Dropout Methods for Deep Neural Networks