1、简介
Dropout正则化已在深度学习中广泛使用,但对卷积神经网络的效果不佳,因为空间相关的特征允许丢弃的信息仍流经网络。已经提出了一些结构化的dropout形式来解决此问题,但是由于特征被随机丢弃,容易导致正则化过度或不足。在本文中提出了一种名为TargetDrop的正则化方法,该方法结合了注意力机制以删除区分特征单元。具体地,其掩盖了与目标通道相对应的特征图的目标区域。与其他方法进行比较或应用于不同网络的实验结果证明了我们方法的正则化效果。
2、本文方法
2.1、Target Channels
这里给出输出的前一层卷积,其中H和W分别表示Feature Map的高度和宽度,C是channel的个数;
第1步:
首先是使用了全局平均池化操作,该向量可视为通过空间维度H*W收缩产生的统计量,该操作F可定义为:
式中,表示向量的第c个元素,为了进一步捕获channel上的依赖关系,向量被转发到共享网络以生成channel attention map M,共享网络由2个FC层和2个激活层,分别由参数为的降维层、ReLU、参数为的增维层与Sigmoid函数交替连接:
这里,r是调整瓶颈的缩减率。
第2步:
对M中的所有值进行排序,根据drop probability(drop probability),以top K的值为目标(标签“1”表示被选中,否则为“0”)。
式中,和表示M和T的第p个元素。在此基础上进一步从原始的H*W特征图中选取目标通道对应的目标区域。
2.2、Target Regions
对于与目标通道对应的每一个feature map,在卷积操作中利用空间注意力机制进一步寻找一个具有较多鉴别信息的区域。如卷积核大小为7×7的卷积操作是不必要的,可能会导致大量的额外计算。考虑到图像像素值的连续性,可以简单地定位到一个最大的像素,而分布在周围连续区域的其他top值最有可能是主要对象的某些关键特征。因此选择位置最大值(a,b),并去掉以其为中心的k×k区域。表示目标区域的边界,TargetDrop掩码可以描述为:
其中和表示s和T的第q个元素。最终输出为,最后对Feature进行mask掩码和NormLize操作:
2.3、TargetDrop
3、实验
文中主要是比较了TargetDrop与其他最先进的基于dropout的方法在CIFAR-10和CIFAR-100上的实验,并将其应用于不同的体系结构。进一步分析了超参数的选择和类激活映射的可视化。
通过以上的2组表格可以看出相较于DropOut、DropBlock、AttentionDrop以及CutOut等方法,TargetDrop错误率更低;
通过类激活映射也可以看出,基于TargetDrop的方法对于检测的区域更加的精准和集中。