《Connection Reduction Is All You Need》台湾学生的工作,您自便!

简介: 《Connection Reduction Is All You Need》台湾学生的工作,您自便!

406a227c2d73313cd62afd79e7913a54.png

卷积神经网络 (CNN) 通过堆叠卷积层来增加深度,更深的网络模型在图像识别中表现更好。实验研究表明,简单地堆叠卷积层并不能使网络训练更好,而Shortcut连接(残差学习)可以提高网络模型性能。

对于图像分类任务,具有全局密集连接架构的模型在 ImageNet 等大型数据集上表现良好,但不适用于 CIFAR-10SVHN 等小型数据集。与密集连接不同,本文提出了两种新的算法来连接层。Baseline 是一个密集连接的网络,两种新算法连接的网络分别命名为ShortNet1ShortNet2。在 CIFAR-10SVHN 上进行图像分类的实验结果表明,与 Baseline 相比,ShortNet1 的测试错误率降低了 5%,推理时间加快了 25%。ShortNet2 将推理时间加快了 40%,测试精度损失更小。

1、简介

CNN已经成为计算机视觉(CV)任务中的主要网络架构。从各种网络模型在图像分类中的评价结果来看,较深层次的网络模型始终具有较高的测试精度。因此,研究者开始通过叠加更多的卷积层来设计神经网络结构。然而,研究人员发现,当简单地叠加卷积层时,会出现增加深度的瓶颈。ResNet 首先提出了残差学习来解决这一瓶颈,该网络可以训练更深层次的模型以获得更高的精度。在此基础上,DenseNet 继承并改进了Shortcut连接的概念,使所有图层相互连接,在图像分类中获得了最先进的性能。

实验表明,并非所有层间的连接都是正面的,模型的大内存占用和慢推理时间已经成为DenseNet的缺点。作者注意到,由于上述缺点,DenseNet并不能广泛应用于语义分割和目标跟踪等预测任务中。因此,本文提出了两种新的层间连接算法来代替密集连接。

主要贡献:

  • 新提出的算法的应用条件并不困难,它们可以完全取代密集的连接。这两种新算法可应用于改进的密度网络,具有更多的实际应用价值;
  • 本文证明了 DenseNet 所使用的密集连接对小数据集具有较高的计算成本,适当地减少层间的连接可以提高网络模型的效率。

2、本文方法

37afa6a5ac9b351eac15e361e2098147.png

2.1、Baseline

为了公平地比较密集连接和使用两种算法方法的连接,作者没有使用任何技巧来设计神经网络架构。网络架构仅由卷积层和过渡层组成。

bfdf5479ac71b56529b1ee5e0515b1da.png

图 1 表示一个 43 层的神经网络,包括 39 个卷积层和 4 个transition层。作者设计了两个不同深度的网络模型,分别为 43 层和 53 层,如表一所示。

3fc8befd70dfcde1d92cb7b3873f07a0.png

每一层的特征图大小相同,可以在通道维度上连接。Baseline Block中的非线性组合函数1(∙)采用BN+ReLU+3×3 Conv的结构。所有Blocks中的每一层卷积输出k个特征图,即得到的特征图的通道数为k。k 被命名为增长率,它是一个超参数。参考 DenseNet 的增长率设置,我们在图像分类任务中将 k 设置为 32,可以获得更高的性能。

另外,由于后面一层的输入会非常大,DenseNet 使用 bottleneck 层来减少计算量。Bottleneck采用BN+ReLU+1×1 Conv+BN+ReLU+3×3 Conv的架构。本文的目的是比较不同连接方式的效率,所以实验中没有使用bottleneck来优化网络模型。

Baseline 网络中各层之间的连接采用 DenseNet 的密集连接。Baseline 网络中的每一层都将与通道上的所有先前层连接。对于n层的网络,总共有n(n+1)/2个连接,公式如下:

54cdcc40c0bfb404f10895a33c524491.png

2.2、ShortNet1

提出的第一个新的连接方法不同于SparseNet中跳过中间部分,只连接最远层和最近层的连接。我们不是从特定的集中部分删除连接,而是在每一层的间隔执行连接减少。如算法 1 所示,所有层都将连接到第一层。而当第n层是奇数层时,它会连接之前所有的偶数层,当n层是偶数层时,它会连接之前所有的奇数层。该算法的连接方式相比DenseNet使用的密集连接可以减少一半左右的连接。

例如,如图 2 所示,当 n=8 时,第 8 层将只连接第 1、3、5、7 层,删除与第 2、4、6 层的连接。算法一的连接方法如下式所示:

302b3176e1ab4bac4a4638fd1e8ca095.png

4ea122655c163fda4f3809aab821998b.png

2.3、ShortNet2

提出的第二种新连接方法比第一种更激进,它删除了更多的连接。这种连接方法类似于 HarDNet 使用的谐波密集连接,但算法不相同。如算法2所示,当层数为n时,x表示的1675238142444.png所有值。要求X小于n, n层将连接所有n- X层。


例如,如图 2 所示,当 n=8,x=1,3,7,则 n-x=1,5,7。因此,第 8 层将仅连接到第 1、第 5 和第 7 层。通过这种算法连接层设计的模型将比密集连接的网络模型小得多。算法2的连接方法如下式所示:

ee9c2cfbf3e2a844fa86528a7b916e2e.png

3effeb6a0b7b6a72d169ec65007a52e5.png

3、实验结果

a6305f0049c0baf7344397fc30b5f5d4.png

4、参考

[1].Connection Reduction Is All You Need

5、推荐阅读

Anchor-Free即插即用标签分配 | 平滑标签分配+动态IoU匹配解决标签分配不一致

432.4 FPS 快STDC 2.84倍 | LPS-Net 结合内存、FLOPs、CUDA实现超快语义分割模型

YOLOU开源 | 汇集YOLO系列所有算法,集算法学习、科研改进、落地于一身!

相关文章
|
11月前
|
机器学习/深度学习 数据挖掘 数据库
7 Papers & Radios | ICLR 2022杰出论文奖;MIT将热光伏发电效率提到40%(1)
7 Papers & Radios | ICLR 2022杰出论文奖;MIT将热光伏发电效率提到40%
125 0
|
1月前
|
UED
首批类Sora竞争对手出现,Snap Video效果优于Pika、不输Gen-2
【2月更文挑战第13天】首批类Sora竞争对手出现,Snap Video效果优于Pika、不输Gen-2
43 3
首批类Sora竞争对手出现,Snap Video效果优于Pika、不输Gen-2
|
2月前
|
网络安全
【网络安全 | XCTF】simple_transfer
【网络安全 | XCTF】simple_transfer
24 0
|
11月前
|
机器学习/深度学习 并行计算 算法
《Connection Reduction Is All You Need》台湾学生的工作,您自便!
《Connection Reduction Is All You Need》台湾学生的工作,您自便!
43 0
|
10月前
|
存储
【PAT甲级】1122 Hamiltonian Cycle
【PAT甲级】1122 Hamiltonian Cycle
36 0
|
11月前
|
数据可视化 算法 流计算
ICLR 2023 Oral | Batch Norm层等暴露TTA短板,开放环境下解决方案来了(2)
ICLR 2023 Oral | Batch Norm层等暴露TTA短板,开放环境下解决方案来了
108 0
|
11月前
|
机器学习/深度学习 数据挖掘 数据库
7 Papers & Radios | ICLR 2022杰出论文奖;MIT将热光伏发电效率提到40%(2)
7 Papers & Radios | ICLR 2022杰出论文奖;MIT将热光伏发电效率提到40%
109 0
|
11月前
|
人工智能 达摩院 语音技术
M2MeT2.0新赛道报名启动|ASRU 2023 Special Session Challenge多通道多方会议转录挑战赛
多人对话的会议场景,由于其复杂多样的空间和声学条件,以及说话人不同的讲话风格,容易出现重叠讲话、不同数量的发言者、大会议室的远场信号以及环境噪声和混响等声音处理任务,这在语音AI技术迅速发展的当下仍是一项颇具挑战的技术难题。 为探寻更优技术解决方案,今年达摩院再次融聚产学研界专家智识,在上一届多通道多方会议转录挑战赛(M2MET)的基础上,达摩院语音实验室联合希尔贝壳和多位国内外颇具影响力的行业专家在ASRU2023上举办M2MET2.0挑战赛。
651 0
|
11月前
|
机器学习/深度学习 Web App开发 自然语言处理
7 Papers & Radios | DeepMind推出2800亿参数模型;剑桥团队首次检测到量子自旋液体(2)
7 Papers & Radios | DeepMind推出2800亿参数模型;剑桥团队首次检测到量子自旋液体
|
11月前
|
存储 机器学习/深度学习 人工智能
7 Papers & Radios | DeepMind推出2800亿参数模型;剑桥团队首次检测到量子自旋液体
7 Papers & Radios | DeepMind推出2800亿参数模型;剑桥团队首次检测到量子自旋液体