综述：DenseNet—Dense卷积网络（图像分类）-阿里云开发者社区

综述：DenseNet—Dense卷积网络（图像分类）

2018-11-27 19538

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 与 ResNet 和 Pre-Activation ResNet 相比，DenseNet 具有较少的参数和较高的精度。那么，让我们看看它是如何工作的。

●   Dense Block
●   DenseNet 结构
●   DenseNet 的优势
●   CIFAR & SVHN 小规模数据集结果
●   ImageNet 大规模数据集结果

● 特征复用的进一步分析

Dense Block

在Standard ConvNet中，输入图像经过多次卷积，得到高层次特征。

21cd3f4dbe1934c248e85b905f95dd745fa17a99

在ResNet中，提出了恒等映射（identity mapping）来促进梯度传播，同时使用使用 element 级的加法。它可以看作是将状态从一个ResNet 模块传递到另一个ResNet 模块的算法。

cb73b9ea9850c3fe9c1f9896e1802fe7293ee6cf

在 DenseNet 中，每个层从前面的所有层获得额外的输入，并将自己的特征映射传递到后续的所有层，使用级联方式，每一层都在接受来自前几层的“集体知识（collective knowledge）”。

dbf5dd7ccb58fe9777b52398bdc1dd78ba0c3d3d

由于每个层从前面的所有层接收特征映射，所以网络可以更薄、更紧凑，即信道数可以更少。增长速率k是每个层的附加信道数。

因此，它具有较高的计算效率和存储效率。下图显示了前向传播中级联的概念：

d9d6875bc1e62bb97db00f11581fcafded60afae

DenseNet 结构

1. 基础 DenseNet 组成层

对于每个组成层使用 Pre-Activation Batch Norm (BN) 和 ReLU，然后用k通道的输出特征映射进行 3×3 卷积，例如，将x0、x1、x2、x3转换为x4。这是 Pre-Activation ResNet 的想法。

2. DenseNet-B (Bottleneck 层)

为了降低模型的复杂度和规模，在BN-ReLU-3×3 conv之前进行了BN-ReLU-1×1 conv.

3. 具有转换层（transition layer）的多Dense块

采用1×1 Conv和2×2平均池化作为相邻 dense block 之间的转换层。

特征映射大小在 dense block 中是相同的，因此它们可以很容易地连接在一起。

在最后一个 dense block 的末尾，执行一个全局平均池化，然后附加一个Softmax分类器。

4. DenseNet-BC (进一步压缩)

如果 Dense Block 包含m个特征映射，则转换层（transition layer）生成 θm 输出特征映射，其中 0<θ≤1 称为压缩因子。

当θ=1时，跨转换层的特征映射数保持不变。在实验中，θ<1的 DenseNet 称为 DenseNet-C，θ=0.5。

当同时使用 bottleneck 和 θ<1 时的转换层时，该模型称为 DenseNet-BC 模型。

最后，训练 with/without B/C 和不同L层和k生长速率的 DenseNet。

DenseNet的优势

1.强梯度流

误差信号可以更直接地传播到早期的层中。这是一种隐含的深度监督，因为早期的层可以从最终的分类层直接获得监督。

2. 参数和计算效率

对于每个层，RetNet 中的参数与c×c成正比，而 DenseNet 中的参数与1×k×k成正比。

由于 k<<C, 所以 DenseNet 比 ResNet 的size更小。

3. 更加多样化的特征

由于 DenseNet 中的每一层都接收前面的所有层作为输入，因此特征更加多样化，并且倾向于有更丰富的模式。

4. 保持低复杂度特征

在标准ConvNet中，分类器使用最复杂的特征。

d2e8ae131c2bf3b685a11367f3a228ad63b79ec3

在 DenseNet 中，分类器使用所有复杂级别的特征。它倾向于给出更平滑的决策边界。它还解释了为什么 DenseNet 在训练数据不足时表现良好。

CIFAR & SVHN 小规模数据集结果

1. CIFAR-10

详细比较Pre-Activation ResNet。

数据增强（C10+），测试误差：

●  Small-size ResNet-110: 6.41%
●  Large-size ResNet-1001 (10.2M parameters): 4.62%
●  State-of-the-art (SOTA) 4.2%
●  Small-size DenseNet-BC ( L =100, k =12) (Only 0.8M parameters): 4.5%
●  Large-size DenseNet ( L =250, k =24): 3.6%

无数据增强（C10），测试误差：

●  Small-size ResNet-110: 11.26%
●  Large-size ResNet-1001 (10.2M parameters): 10.56%
●  State-of-the-art (SOTA) 7.3%
●  Small-size DenseNet-BC ( L =100, k =12) (Only 0.8M parameters): 5.9%
●  Large-size DenseNet ( L =250, k =24): 4.2%

在 Pre-Activation ResNet 中出现严重的过拟合，而 DenseNet 在训练数据不足时表现良好，因为DenseNet 使用了复杂的特征。

0e5212b218910ff6a7af8999363700f9a89c91bd