4. 实验
4.1、ImageNet上使用ResNet-50进行图像分类
通过以上可以看到,所提出的BGN在不同批处理规模下的性能优于之前所有的方法,包括BN、IN、LN、GN、PN和GBGN。
具体来说,BN在大批量下接近BGN的性能,然而,它的性能在小批量下迅速下降。GBGN是针对小批量尺寸提出的,但在批量尺寸为2时,其性能比BGN低4.24%,说明引入整个通道、高度和宽度尺寸来补偿噪声统计计算的重要性。在ImageNet分类上总体表现不佳。
LN、GN和PN的平均Top1精度分别为75.191%、76.073%和74.167%,而提出的BGN的平均Top1精度更高,为76.594%。
4.2、利用NAS对CIFAR-10进行图像分类
通过上表可以看到IN和LN不收敛,而BGN显著优于GN和PN,同时也优于BN。
通过上表可以看到IN、LN和PN的收敛性不强,而BGN的性能明显优于GN,BGN的性能略逊于BN。
因此,在神经结构搜索阶段使用BN作为归一化层比较具有优势。
4.3、对抗性训练
在对抗网络的训练中,Robust精度比Clean精度更重要。PN存在收敛困难,不能收敛。BGN在一定范围内优于BN和IN,显著优于LN和GN。
4.4、少样本学习
可以看到,BGN略优于BN,但显著优于IN、LN、GN和PN,说明BGN在标签数据非常有限的情况下具有普遍性。
4.5、Office-31无监督领域适应实验
可以看到,BGN在大多数适应任务中优于其他归一化层,特别是wa,准确率提高了1.6%。
参考
[1].Batch Group Normalization