近年来,压缩高精度卷积神经网络(CNNs)在实时目标检测方面取得了显著进展。为了加快检测速度,轻量级检测器采用单路径主干,卷积层数较少。然而,在连续的池化和下采样操作中,单路径架构总是带来粗糙和不准确的特征图,这很不利于定位目标。另一方面,由于网络容量有限,目前的轻量级网络在表示大规模数据时往往表现得较差。
针对这些问题,本文提出了一种双路径网络
DPNet
,该网络具有轻量级的实时目标检测注意力方案。双路径体系结构能够并行提取High-Level
语义特征和Low-Level
目标细节。虽然DPNet
的形状与单路径检测器几乎相同,但计算成本和模型尺寸没有显著增加。为了增强表示能力,设计了一个轻量级的自相关模块(LSCM
)来捕获全局交互,只有很少的计算开销和网络参数。在Neck
LSCM
被扩展为轻量级的交叉相关模块(LCCM
),捕获相邻尺度特征之间的相互依赖性。对
MS COCO
和Pascal VOC 2007
数据集进行了详尽的实验。实验结果表明DPNet
在检测精度和实现效率之间实现了最先进的平衡。具体而言,DPNet
在MS COCO
测试开发平台上实现了30.5% AP,在Pascal VOC 2007
测试集上实现了81.5% mAP,模型尺寸接近2.5M, GFLOPs 1.04,对两个数据集的320 × 320输入图像实现了164 FPS和196 FPS。
1、简介
目标检测是计算机视觉领域的一项基本且具有挑战性的任务。它旨在检测覆盖输入图像中感兴趣的目标的最小边界框,并同步分配相关的语义标签。通常,基于卷积神经网络(CNN)的最新方法可以大致分为两阶段和一个阶段检测器。两阶段检测往往是先使用区域提案网络生产候选框,随后将在下一阶段进行完善。因此,由于它们的多阶段性质,这些检测器性能始终不高。
相反,一阶段检测器直接预测目标类别并在卷积特征图上回归边界框。由于整个管道被简化,因此,一阶段检测器总是比两阶段检测器具有更快地推理速度。尽管取得了显著的进展,但绝大多数基于CNN的检测器涉及数百次甚至数千个卷积层和特征通道,其中模型大小和推理效率对于需要在线估算和实时预测的现实世界应用程序是不可接受的,例如自动驾驶,机器人和虚拟现实。
为了适应现实世界的情况,已经提出了大量的轻型网络以进行实时目标检测。这些轻量级网络源自用于图像分类的使用,更喜欢在其 Backbone
中使用轻量级卷积直接继承单路径体系结构。例如,Mobilenet-SSD
将 Mobilenet
与 SSD Head
组合在一起。 ThunerNet
通过用 5×5 深度卷积代替 3×3 深度卷积,并采用 ShuffleNetV2
作为 Backbone
。 PeleeNet
使用具有 Dense
结构的轻量化 Backbone
,减少了 SSD Head
的输出尺度以节省计算成本。 Tiny-DSOD
在 Backbone
和特征金字塔网络(FPN
)中引入深度卷积。Tiny-Yolo
系列减少了卷积层的数量或去除 Neck
的多尺度输出。尽管这些高级和高效的网络已取得了令人印象深刻的检测结果,但它们依然有以下局限性:
- 采用积极的下采样策略(例如,
pooling
和stride convolution
),单路径体系结构在Backbone
设计中占主导地位,以实现实时目标检测。由于细节从浅层到深卷积层逐步丢弃,因此产生的高级特征对准确定位目标无济于事。图1给出了两个视觉示例。第一行显示ShuffleNetV2
更喜欢从输入图像的周围区域提取特征。尽管轻量化的检测器遵循采用FPN
来缓解此问题,但只需通过元素相加或拼接来整合从浅层到深层的此类不准确的特征可能对检测物体有害。 - 由于网络容量有限,最近的轻量化检测器可能具有较弱的视觉数据表示能力。例如,在图1的第2行中,高通滤波器响应有时会分布在混乱的背景(例如树木和海洋)上,而包含感兴趣目标的区域则较少激活。根本的原因主要在于,由于受欢迎的领域有限,轻量化的卷积在编码全局依赖性方面非常有限。一些网络更喜欢利用大卷积核(例如31×31)或自注意力,但是它们始终涉及巨大的计算成本和不适合实时目标检测。
为了解决这些缺点,本文设计了一个名为 DPNet
的双路径网络,并具有轻量化的注意力设计用于实时目标检测。如图2所示,DPNet
由3个组成部分组成:Backbone
,Neck
和检测 Head
。为了纠正丢失目标细节的问题,与以前的轻量化检测网络始终采用单路结构,DPNet
采用了平行路径架构,从而得到双分辨率 Backbone
。
更具体地说,低分辨率路径(LRP
)的分辨率像往常一样逐渐减少,其中 High-Level
语义信息被编码。相反,高分辨率路径(HRP
)的分辨率保持不变,并在其中提取了 Low-Level
的空间细节。这两条路径对于轻量化目标检测都很重要。考虑到两个子网络的互补性,构建了双向融合模块(Bi-FM
),以增强两条路径之间的通信,从而促进可变分辨率特征之间的信息流。尽管 DPNet
的 Backbone
相对于单路径结构几乎具有重复的形状,但计算复杂性和网络大小并未显著增加。
另一方面,为了提高整个 DPNet
的表示能力,开发了带有轻量化自相关模块(LSCM
)的 ShuffleNetV2 UNit
,从而产生了基于注意力的 shuffle unit
(ASU
)。类似于 CBAM
,LSCM
也分别在空间和通道的注意力图中产生。但是,LSCM
采用了一种模仿自注意力的结构,而不是采用全局合并来代表元素的依赖性。
此外,LSCM
不用探索涉及大量计算的 pixel-to-pixel
/channel-to-channel
相关性,而是研究了低维嵌入中的 pixel-to-region
/channel-to-group-channel
依赖性,从而节省了大量的计算成本,同时仍保持强大的表示能力。在图2中,为了充分利用 Neck
不同分辨率的特征,LSCM
进一步扩展到轻量化交互相关模块(LCCM
)。 LCCM
以双向方式工作:自上而下(LCCM-TD
)和自下而上(LCCM-BU
)。 LCCM-TD
引入了 High-Level
语义以指导 Low-Level
特征。相反,LCCM-BU
利用 Low-Level
细节来完善 High-Level
信息。
本文的主要贡献是 3 个方面:
- 与使用单路径的主流轻型检测器相反,
DPNet
采用了双路径体系结构,该架构可以同步提取High-Level
语义并保持Low-Level
细节。此外,两条路径相互补充以进一步提高性能。 - 设计了一个基于注意力的模块
LSCM
,该模块同时具有推理效率和表示能力。LSCM
在计算上很便宜,因为其计算复杂性与输入特征分辨率呈线性关系。即便如此,它仍然通过研究全局空间和通道相互作用来实现强大的表示能力。作者还将LSCM
扩展到Neck
的LCCM
,在与不同分辨率不同的相邻尺度特征之间很好地探索了相关的依赖关系。
2、本文方法
DPNet
的整体结构如图2所示。具体来说,DPNet
由 3 个组成部分:Backbone
,Neck
和检测Head
组成。
2.1、Backbone
表I中给出了 DPNet
Backbone
的详细结构。更具体地,DPNet
采用双分辨率 Backbone
,分别使用并行路径体系结构:LRP和 HRP。这两条路径主要由一系列 ASUs 构建。与传统的单路径检测器相似,LRP
采用了 Stem
+ 多个 ASUS
Stride=2,逐渐生成卷积特征图,其分辨率为1/2、1/4、1/8、1/16和1/32。注意 Stem
包括 Stride
为2的 3×3 卷积和最大池化,直接收缩输入分辨率的4倍。
另一方面,为了获得高质量的目标详细信息,HRP
保持了相对较高的 LRP
分辨率,维持未改变的特征分辨率,即输入图像大小的1/8。在2条路径中,使用2个 Bi-FM
来增强跨分辨率的特征集成和交互。
最后,如图2所示,组合特征,表示为{C1,C2,C3},其形状为{40×40×128,20×20×20×256,10×10×512},用作多个输入到 Neck
部分,这有助于信息的交互。
1、ASU
如图3(a)所示,ASU
采用了 split-transform-merge
结构,该结构利用残差连接和轻量化特征提取。在每个ASU
的开头,输入特征首先分为2个低维特征,即 transform
和 identity
分支,其中每个分支都有输入的一半通道。transform
后的分支充当残差特征,而 identity
分支则用于促进模型训练。transform
的分支不使用3×3深度卷积,而是依次采用较大的kernel-size
(例如5×5)和提出的 LSCM
,这两者都用于获得更强大的特征。
此后,使用拼接合并了2个分支的输出,以使通道的数量相对于输入保持相同。最后,将特征通道Shuflle
为启用两个分支之间的信息交互。 Shuflle
后,下一个ASU
开始。 图3(b)还展示了ASU
的 stride
版本,用于减少特征分辨率,其中5×5步长深度卷积分别用于 transform
和 identity
分支
2、bi-fm
Bi-FM
充当桥梁在 Backbone
中进行 HRP
和 LRP
之间的通信。 Bi-FM
的详细结构如图3(c)所示。令和,是Bi-fm的输入,和分别为BI-FM的输出,其中H×W代表输入分辨率,C表示通道号。更具体地说,首先通过1×1卷积,然后以相等的尺寸进行更新,以遵循与融合。另一方面,为了产生,被馈入5×5 stride 卷积,然后以相等的尺寸降采样,以与集成下一个特征。
2.2、Neck
Neck
(也称为FPN)是最先进的检测器中的基本组件,可汇总多尺度特征。先前的方法利用了简单的融合策略,该策略采用双线性插值和元素添加,通常忽略了具有不同分辨率的特征之间的相互依赖性。为此,LCCM
在 DPNet
的 Neck
部分采用,用于汇总不同卷积层的跨分辨率特征。
Neck
的详细体系结构如图2所示。注意 LCCM
以双向方式工作:自上而下和自下而上的方向,分别表示为 LCCM-TD
和 LCCM-BU
。 LCCM-TD
旨在提取 High-Level
语义来进行类识别,而LCCM-BU
希望加强目标定位的 Low-Level
细节。
更具体地说,接收由 Backbone
作为输入产生的{C1,C2,C3},Neck
以1×1的卷积开始,产生具有相同通道数和各种分辨率的特征。这些中间特征(表示为{M1,M2,M3})首先通过2个 LCCM-TDS
融合在自上而下的路径中,然后通过2个 LCCM-BUS
融合在自下而上的路径。最后,所产生的输出表示为{F1,F2,F3},其中相邻刻度特征图之间相关的相互作用被很好地集成到轻量化检测head。
2.3、Head
检测head会学习将特征映射到最终估计的预测。 一些检测网络采用轻量化Backbone
,但涉及SSD head
太重而无法做出预测。 替代方法设计了轻量化检测头,以降低模型尺寸。 同样,DPNet
还采用了轻量化的检测头来加速推理速度。 如图3(d)所示,DPNet
不使用3×3深度卷积,而是利用具有较大核大小(例如5×5)的紧凑型卷积来扩大感受野,从而增加了非常有限的模型尺寸。 检测头的详细体系结构如图2所示。 从 Neck
部分产生的输入特征{F1,F2,F3},经历了2个连续的交互。 然后,使用1×1卷积来产生最终输出,从相关的 GT
中获得其监督。