SSD没有错付 | SSD改进版本来啦！PSSD携实时性与高精度归来！-阿里云开发者社区

背景和目标：深度学习在各种任务中表现出色。其中，单阶段目标检测器（SSD）主要依靠分类网络来提取特征，多个特征图来预测，以及分类置信度来指导对重叠预测框的过滤。然而，仍有两个问题导致一些不准确的结果：

在特征提取过程中，随着语义信息的逐层获取，局部信息逐渐丢失，导致具有代表性的特征图较少；

在非最大抑制（NMS）算法中，由于分类和回归任务的不一致性，分类置信度和预测检测位置不能准确指示预测框的位置。

方法：为了解决上述问题本文提出了一种新的架构，即SSD的改进版本，称为精确单阶段检测器（PSSD）。首先，通过向SSD添加额外的层来改进特征。其次，构造了一个简单有效的特征增强模块，以逐步扩展每一层的感受野，并增强其局部和语义信息。最后，设计了一个更有效的损失函数来预测预测框和GT框之间的IOU，阈值IOU指导分类训练并衰减NMS算法使用的分数。

主要结果：得益于上述优化，所提出的模型PSSD实现了令人兴奋的实时性能。具体而言，使用Titan Xp的硬件和320像素的输入大小，PSSD在MS COCO基准测试中以45 FPS的速度达到33.8 mAP，在Pascal VOC 2007中以66 FPS的速率达到81.28 mAP。

此外，所提出的模型在较大的输入量下表现良好。在512像素下，PSSD可以在MS COCO上以27 FPS获得37.2 mAP，在Pascal VOC 2007上以40 FPS获得82.82 mAP。

1、简介

近年来，深度学习算法已成为一种强大的工具，可以自动捕获非线性和分层特征，并在各种应用中取得了巨大成功，尤其是在图像领域，如分类、分割、检测等。此外，它还扩展到了不同的分类任务，包括音频分类、文本分类、各种信号分类、多模态对象分类、事件检测和各种其他应用。其中，目标检测一直是绝大多数研究人员的兴趣。

为此，有各种算法，如YOLO、Fast RCNN、Faster RCNN等，多年来已成功用于目标检测。在过去几十年中，用于目标检测的深度学习算法得到了极大的关注。目标检测旨在从自然图像中的大量预定义类别中定位目标实例，是计算机视觉中最基本和最具挑战性的问题之一。

随着CNN的快速发展，目标检测取得了令人瞩目的进展，并逐渐演变为两阶段和单阶段两种主要结构。两阶段算法，如快速递归神经网络（FRCNN），其中第一阶段仅区分大量背景区域，并在不考虑目标的特定类别的情况下获得粗糙目标proposals。接下来是第二阶段，根据从CNN网络提取的特征对每个proposals进行分类并优化位置。

由于存在第二阶段进行的细化，两阶段算法无法实现实时性能。因此，由于实时检测，单阶段算法已成为各种目标检测应用的主要优先事项，因此，这是当前工作的特别兴趣。单阶段算法基于默认框直接执行分类和位置优化。例如，You Look Only Once（YOLO）和SSD实现了快速的实时检测速度，但同时牺牲了检测精度。近年来，单阶段检测器正在提高其精度，但仍然无法在速度和精度之间取得更好的平衡。

在本文中，在保证模型实时性能的前提下，在原始SSD的基础上提出了一种新的架构，称为精确单阶段检测器（PSSD），该架构为以下两个关键问题提供了解决方案：

如何在不依赖像ResNet-101这样的模型深层骨干的情况下，丰富预测器使用的特征信息？
在NMS算法的过程中，依靠分类置信度来确定重叠框的过滤是否合理？

1.1、Feature richness

考虑到图像金字塔造成的巨大开销，SSD提出了一种特征金字塔来解决多尺度检测问题。分类网络中的深层特征包含更多的语义信息，适合识别大目标，而浅层特征更适合识别小目标。然而，浅层特征中缺少语义信息以及深层特征中局部细节的丢失会降低SSD的精度。特征金字塔网络（FPN）能够将深度语义信息添加到浅层特征中，以获得更有效的特征金字塔，这提高了小目标检测的效果。

DetNet结合了空洞卷积，通过减少下采样步长来减少局部信息损失，从而提高大目标的定位精度。从上述网络可以看出，每个尺度预测器中使用的特征不仅需要合适的语义信息，还需要局部纹理信息，以实现更准确的定位。每个层次特征的信息丰富度对检测效果有重要影响。但问题是如何以尽可能少的开销构建一个高性能的特征金字塔。

1.2、Filtration of overlapping boxes

通常，为了防止结果重叠，将NMS设置为目标检测的最终操作。在NMS算法中，当两者之间的IOU大于阈值时，保留具有最高分类置信度的预测框，并过滤其他框。如图1所示，这可能导致不准确的结果。IOUNet指导NMS通过预测回归框和它们的GT之间的IOU来缓解这个问题。在此，关键问题出现了——如何使其在单阶段算法中更有效？

1.3、贡献

为了提高检测效果，作者基于SSD模型缓解了上述问题。首先，通过在SSD中引入额外的层来改进特征，使基本特征金字塔更适合于特征融合。其次，将这些特征发送到特征增强模块（FEM）。FEM由两个子模块组成，即感受野扩展模块（RFM）和双向FPN。RFM用于逐步扩展每个特征的感受野，双向FPN用于补充更多的局部和语义信息。最后，设计了一个新的损失函数来预测回归框和它们的GT之间的IOU。然后使用IOU标签来指导分类训练，以提高分类和回归任务的一致性，并使用预测IOU来指导推理，以衰减低质量框的得分。

作者也已经在MS COCO和Pascal VOC基准上验证了本文所提的方法。在输入尺寸为320像素的Titan Xp硬件下，所提出的PSSD可以在COC上以45 FPS获得33.8 mAP，在Pascal VOC 2007上以66 FPS获得81.28 mAP。此外，模型在较大的输入量下也表现得非常好。在512像素下，PSSD可以在MS COCO上以27 FPS获得37.2 mAP，在Pascal VOC 2007上以40 FPS获得82.82 mAP。

2、本文方法

2.1、SSD backbone optimization

SSD的主干由VGG16和额外的层组成，如图3所示，为每个卷积层添加BatchNorm，并用平衡l1损失函数替换平滑l1。为了提高小目标检测的效果，作者尝试了4层FPN结构。然而，实验结果表明，改进并不像预期的那么显著。

因此，定义了从SSD主干获得并由预测器使用的特征图作为基本特征图。SSD主干的一部分如图3（a）所示。基本特征图是。为了获得，执行三次3×3卷积和一次空洞率为6的3×3空洞卷积。大的空洞率导致从的一些对象语义和局部信息丢失。

同时，FPN使用的基本特征图的感受野扩展是不均匀的。的空洞率远大于的空洞率。因此，FPN的效果不如预期明显。

因此，在以下条件下重新设计额外的层。

基本特征图的接受范围应均匀扩展。
没有预训练模型的额外层的参数不应急剧增加。
应适当扩大每个特征图的感受野覆盖范围。

图3（b）显示了拟议模型中引入的新额外层。使用空洞率为2的3×3卷积，而不是两个3×3的标准卷积。这样，的感受野的延伸率与从的相似，但网络参数的数量减少。

考虑到第三个方面，使用FEM模块来扩展每个特征图的感受野，而不会影响其他特征图。总体而言，通过这种优化，基本特征图的感受野分布现在更加均匀，适合于多尺度特征融合结构，如FPN。

2.2、Feature Enhancement Module

2.2.1、Receptive field expansion module

RFBNet的成功表明，使用空洞卷积来扩大感受野是有效的。考虑到更大感受野的有效性，作者设计了一个简单但有效的感受野扩展模块（RFM）。

如图4所示，为了防止大的空洞率影响计算速度，作者采用了分离残差结构。首先，使用1×1卷积对原始特征图X进行特征转换，然后将X划分为4个块：、。其中X1直接映射到最终特征Y1以防止信息丢失；Y2是通过对X3进行3×3，d=1卷积得到的，然后将其与相加，并将其和发送到3×3、d=3卷积获得3。类似地，对Y3和X4的和进行3×3，d=5卷积得到Y4。最后，使用1×1卷积对扩展特征进行跨通道信息集成和降维。