卷积神经网络 (CNN
) 通过堆叠卷积层来增加深度,更深的网络模型在图像识别中表现更好。实验研究表明,简单地堆叠卷积层并不能使网络训练更好,而Shortcut
连接(残差学习)可以提高网络模型性能。
对于图像分类任务,具有全局密集连接架构的模型在
ImageNet
等大型数据集上表现良好,但不适用于CIFAR-10
和SVHN
等小型数据集。与密集连接不同,本文提出了两种新的算法来连接层。Baseline
是一个密集连接的网络,两种新算法连接的网络分别命名为ShortNet1
和ShortNet2
。在CIFAR-10
和SVHN
上进行图像分类的实验结果表明,与Baseline
相比,ShortNet1
的测试错误率降低了 5%,推理时间加快了 25%。ShortNet2
将推理时间加快了 40%,测试精度损失更小。
1、简介
CNN已经成为计算机视觉(CV)任务中的主要网络架构。从各种网络模型在图像分类中的评价结果来看,较深层次的网络模型始终具有较高的测试精度。因此,研究者开始通过叠加更多的卷积层来设计神经网络结构。然而,研究人员发现,当简单地叠加卷积层时,会出现增加深度的瓶颈。ResNet
首先提出了残差学习来解决这一瓶颈,该网络可以训练更深层次的模型以获得更高的精度。在此基础上,DenseNet
继承并改进了Shortcut
连接的概念,使所有图层相互连接,在图像分类中获得了最先进的性能。
实验表明,并非所有层间的连接都是正面的,模型的大内存占用和慢推理时间已经成为DenseNet
的缺点。作者注意到,由于上述缺点,DenseNet
并不能广泛应用于语义分割和目标跟踪等预测任务中。因此,本文提出了两种新的层间连接算法来代替密集连接。
主要贡献:
- 新提出的算法的应用条件并不困难,它们可以完全取代密集的连接。这两种新算法可应用于改进的密度网络,具有更多的实际应用价值;
- 本文证明了
DenseNet
所使用的密集连接对小数据集具有较高的计算成本,适当地减少层间的连接可以提高网络模型的效率。
2、本文方法
2.1、Baseline
为了公平地比较密集连接和使用两种算法方法的连接,作者没有使用任何技巧来设计神经网络架构。网络架构仅由卷积层和过渡层组成。
图 1 表示一个 43 层的神经网络,包括 39 个卷积层和 4 个transition层。作者设计了两个不同深度的网络模型,分别为 43 层和 53 层,如表一所示。
每一层的特征图大小相同,可以在通道维度上连接。Baseline Block
中的非线性组合函数1(∙)采用BN+ReLU+3×3 Conv
的结构。所有Blocks
中的每一层卷积输出k个特征图,即得到的特征图的通道数为k。k 被命名为增长率,它是一个超参数。参考 DenseNet
的增长率设置,我们在图像分类任务中将 k 设置为 32,可以获得更高的性能。
另外,由于后面一层的输入会非常大,DenseNet
使用 bottleneck
层来减少计算量。Bottleneck
采用BN+ReLU+1×1 Conv+BN+ReLU+3×3 Conv
的架构。本文的目的是比较不同连接方式的效率,所以实验中没有使用bottleneck
来优化网络模型。
Baseline
网络中各层之间的连接采用 DenseNet
的密集连接。Baseline
网络中的每一层都将与通道上的所有先前层连接。对于n层的网络,总共有n(n+1)/2个连接,公式如下:
2.2、ShortNet1
提出的第一个新的连接方法不同于SparseNet
中跳过中间部分,只连接最远层和最近层的连接。我们不是从特定的集中部分删除连接,而是在每一层的间隔执行连接减少。如算法 1 所示,所有层都将连接到第一层。而当第n层是奇数层时,它会连接之前所有的偶数层,当n层是偶数层时,它会连接之前所有的奇数层。该算法的连接方式相比DenseNet
使用的密集连接可以减少一半左右的连接。
例如,如图 2 所示,当 n=8 时,第 8 层将只连接第 1、3、5、7 层,删除与第 2、4、6 层的连接。算法一的连接方法如下式所示:
2.3、ShortNet2
提出的第二种新连接方法比第一种更激进,它删除了更多的连接。这种连接方法类似于 HarDNet
使用的谐波密集连接,但算法不相同。如算法2所示,当层数为n时,x表示的所有值。要求X小于n, n层将连接所有n- X层。
例如,如图 2 所示,当 n=8,x=1,3,7,则 n-x=1,5,7。因此,第 8 层将仅连接到第 1、第 5 和第 7 层。通过这种算法连接层设计的模型将比密集连接的网络模型小得多。算法2的连接方法如下式所示:
3、实验结果
4、参考
[1].Connection Reduction Is All You Need
5、推荐阅读
Anchor-Free即插即用标签分配 | 平滑标签分配+动态IoU匹配解决标签分配不一致