《Connection Reduction Is All You Need》台湾学生的工作,您自便!

简介: 《Connection Reduction Is All You Need》台湾学生的工作,您自便!

406a227c2d73313cd62afd79e7913a54.png

卷积神经网络 (CNN) 通过堆叠卷积层来增加深度,更深的网络模型在图像识别中表现更好。实验研究表明,简单地堆叠卷积层并不能使网络训练更好,而Shortcut连接(残差学习)可以提高网络模型性能。

对于图像分类任务,具有全局密集连接架构的模型在 ImageNet 等大型数据集上表现良好,但不适用于 CIFAR-10SVHN 等小型数据集。与密集连接不同,本文提出了两种新的算法来连接层。Baseline 是一个密集连接的网络,两种新算法连接的网络分别命名为ShortNet1ShortNet2。在 CIFAR-10SVHN 上进行图像分类的实验结果表明,与 Baseline 相比,ShortNet1 的测试错误率降低了 5%,推理时间加快了 25%。ShortNet2 将推理时间加快了 40%,测试精度损失更小。

1、简介

CNN已经成为计算机视觉(CV)任务中的主要网络架构。从各种网络模型在图像分类中的评价结果来看,较深层次的网络模型始终具有较高的测试精度。因此,研究者开始通过叠加更多的卷积层来设计神经网络结构。然而,研究人员发现,当简单地叠加卷积层时,会出现增加深度的瓶颈。ResNet 首先提出了残差学习来解决这一瓶颈,该网络可以训练更深层次的模型以获得更高的精度。在此基础上,DenseNet 继承并改进了Shortcut连接的概念,使所有图层相互连接,在图像分类中获得了最先进的性能。

实验表明,并非所有层间的连接都是正面的,模型的大内存占用和慢推理时间已经成为DenseNet的缺点。作者注意到,由于上述缺点,DenseNet并不能广泛应用于语义分割和目标跟踪等预测任务中。因此,本文提出了两种新的层间连接算法来代替密集连接。

主要贡献:

  • 新提出的算法的应用条件并不困难,它们可以完全取代密集的连接。这两种新算法可应用于改进的密度网络,具有更多的实际应用价值;
  • 本文证明了 DenseNet 所使用的密集连接对小数据集具有较高的计算成本,适当地减少层间的连接可以提高网络模型的效率。

2、本文方法

37afa6a5ac9b351eac15e361e2098147.png

2.1、Baseline

为了公平地比较密集连接和使用两种算法方法的连接,作者没有使用任何技巧来设计神经网络架构。网络架构仅由卷积层和过渡层组成。

bfdf5479ac71b56529b1ee5e0515b1da.png

图 1 表示一个 43 层的神经网络,包括 39 个卷积层和 4 个transition层。作者设计了两个不同深度的网络模型,分别为 43 层和 53 层,如表一所示。

3fc8befd70dfcde1d92cb7b3873f07a0.png

每一层的特征图大小相同,可以在通道维度上连接。Baseline Block中的非线性组合函数1(∙)采用BN+ReLU+3×3 Conv的结构。所有Blocks中的每一层卷积输出k个特征图,即得到的特征图的通道数为k。k 被命名为增长率,它是一个超参数。参考 DenseNet 的增长率设置,我们在图像分类任务中将 k 设置为 32,可以获得更高的性能。

另外,由于后面一层的输入会非常大,DenseNet 使用 bottleneck 层来减少计算量。Bottleneck采用BN+ReLU+1×1 Conv+BN+ReLU+3×3 Conv的架构。本文的目的是比较不同连接方式的效率,所以实验中没有使用bottleneck来优化网络模型。

Baseline 网络中各层之间的连接采用 DenseNet 的密集连接。Baseline 网络中的每一层都将与通道上的所有先前层连接。对于n层的网络,总共有n(n+1)/2个连接,公式如下:

54cdcc40c0bfb404f10895a33c524491.png

2.2、ShortNet1

提出的第一个新的连接方法不同于SparseNet中跳过中间部分,只连接最远层和最近层的连接。我们不是从特定的集中部分删除连接,而是在每一层的间隔执行连接减少。如算法 1 所示,所有层都将连接到第一层。而当第n层是奇数层时,它会连接之前所有的偶数层,当n层是偶数层时,它会连接之前所有的奇数层。该算法的连接方式相比DenseNet使用的密集连接可以减少一半左右的连接。

例如,如图 2 所示,当 n=8 时,第 8 层将只连接第 1、3、5、7 层,删除与第 2、4、6 层的连接。算法一的连接方法如下式所示:

302b3176e1ab4bac4a4638fd1e8ca095.png

4ea122655c163fda4f3809aab821998b.png

2.3、ShortNet2

提出的第二种新连接方法比第一种更激进,它删除了更多的连接。这种连接方法类似于 HarDNet 使用的谐波密集连接,但算法不相同。如算法2所示,当层数为n时,x表示的1675238142444.png所有值。要求X小于n, n层将连接所有n- X层。


例如,如图 2 所示,当 n=8,x=1,3,7,则 n-x=1,5,7。因此,第 8 层将仅连接到第 1、第 5 和第 7 层。通过这种算法连接层设计的模型将比密集连接的网络模型小得多。算法2的连接方法如下式所示:

ee9c2cfbf3e2a844fa86528a7b916e2e.png

3effeb6a0b7b6a72d169ec65007a52e5.png

3、实验结果

a6305f0049c0baf7344397fc30b5f5d4.png

4、参考

[1].Connection Reduction Is All You Need

5、推荐阅读

Anchor-Free即插即用标签分配 | 平滑标签分配+动态IoU匹配解决标签分配不一致

432.4 FPS 快STDC 2.84倍 | LPS-Net 结合内存、FLOPs、CUDA实现超快语义分割模型

YOLOU开源 | 汇集YOLO系列所有算法,集算法学习、科研改进、落地于一身!

相关文章
|
5月前
|
存储 机器学习/深度学习 算法
【博士每天一篇文献-算法】A biologically inspired dual-network memory model for reduction of catastrophic
本文介绍了一种受生物学启发的双网络记忆模型,由海马网络和新皮层网络组成,通过模拟海马CA3区的混沌行为和齿状回区的神经元更替,以及新皮层网络中的伪模式学习,有效减少了神经网络在学习新任务时的灾难性遗忘问题。
36 4
codeforces 327 B. Hungry Sequence
题目就是让你输出n个数的序列,要保证该序列是递增的,并且第i个数的前面不能保护它的约数,我直接先对前100000的素数打表,然后输出前n个,so easy。
47 0
|
机器学习/深度学习 并行计算 算法
《Connection Reduction Is All You Need》台湾学生的工作,您自便!
《Connection Reduction Is All You Need》台湾学生的工作,您自便!
75 0
|
机器学习/深度学习 自然语言处理 计算机视觉
极品Trick | 在ResNet与Transformer均适用的Skip Connection解读
极品Trick | 在ResNet与Transformer均适用的Skip Connection解读
303 0
|
机器学习/深度学习 人工智能 BI
Educational Codeforces Round 115 (Rated for Div. 2) D. Training Session(组合数学 思维)
Educational Codeforces Round 115 (Rated for Div. 2) D. Training Session(组合数学 思维)
117 0
ICPC North Central NA Contest 2018 G . Tima goes to Xentopia(最短路 空间优化 剪枝)
ICPC North Central NA Contest 2018 G . Tima goes to Xentopia(最短路 空间优化 剪枝)
82 0
ICPC North Central NA Contest 2018 C . Rational Ratio(结论 模拟 gcd)
ICPC North Central NA Contest 2018 C . Rational Ratio(结论 模拟 gcd)
118 0
|
数据库
LeetCode(数据库)- Hopper Company Queries II
LeetCode(数据库)- Hopper Company Queries II
100 0
LeetCode(数据库)- Hopper Company Queries II
|
数据库
LeetCode(数据库)- Hopper Company Queries III
LeetCode(数据库)- Hopper Company Queries III
98 0
Contest Print Server组队第四场J
问题 J:Contest Print Server 时间限制: 1 Sec 内存限制: 128 MB 题目描述 In ACM/ICPC on-site contests ,3 students share 1 computer,so you can print your source code any time. Here you need to write a contest print server to handle all the requests.
96 0