涨点Trick | 超越CWD、FGD和MGD，AMD蒸馏让目标检测对小目标更有效（一）-阿里云开发者社区

作为一种通用的模型压缩范式，基于特征的知识蒸馏允许学生模型从教师模型中学习表达特征。在本文中主要致力于设计一个有效的特征提取框架，并提出了一种用于目标检测的空间通道自适应Mask提取（AMD）网络。

更具体地说，为了准确地重构重要特征区域，首先在学生网络的特征图上执行注意力引导的特征Mask，以便可以通过空间自适应特征Mask而不是之前方法中的随机Mask来识别重要特征。此外，还使用了一个简单而有效的模块来允许学生网络通道自适应，提高了其在目标感知和检测方面的模型能力。

与之前的方法相比，可以从所提出的网络中重建和学习更关键的目标感知特征，这有助于精确的目标检测。经验实验证明了本文方法的优越性：在提出的蒸馏方法的帮助下，当RetinaNet、Cascade Mask RCNN和RepPoints分别用作目标检测的教师框架时，学生网络得到了41.3%、42.4%和42.7%的mAP分数，这优于之前最先进的蒸馏方法，包括FGD和MGD。

1、简介

近年来，深度卷积神经网络（CNN）在各种计算机视觉任务中得到了成功和广泛的应用。然而，为了追求更高的性能，深度神经网络通常需要耗费大量的计算资源，这会对其在实际应用中的部署产生不利影响，并导致严重的参数冗余。因此，有必要将在复杂网络（教师）中学习的隐藏知识转移到另一个轻量级网络（学生）。这也被称为知识蒸馏，它允许学生模型生成从教师模型学习的表达特征。因此，更可取的做法是使用紧凑的网络架构部署学生模型，以最小化的模型性能损失。

最早的蒸馏算法主要作用于输出头。代表性的例子包括用于分类的logit-based蒸馏和用于检测的head-based蒸馏。最近，一种更常见的蒸馏策略出现了，即基于特征的蒸馏机制。由于在生成的特征之后，只有Head或projector在不同的网络中发生变化，因此基于特征的蒸馏方法可以潜在地用于各种任务。因此，由于其简单性和有效性，它已成为模型压缩和性能改进的一个突出研究方向。特别是在目标检测中，已经开发了各种基于特征的蒸馏方法。

早期的研究，如FitNet，在全局范围内进行蒸馏。FGFI通过提取GT和Anchor之间的高IoU特征来操作。FGD被开发用于分离前景和背景的蒸馏。最近的研究表明，学生模型最好首先从教师模型中重构和学习表达特征，而不是跟随教师生成竞争性表达。例如，提出了MGD来随机Mask学生网络特征图中的像素，从而通过简单块重建教师模型的特征。

尽管MGD通过重建掩蔽区域的特征进一步改进了特征提取，但Mask区域是以随机方式生成的。这种随机操作无法识别区域特定的重要性，并且可能导致学生模型在不重要的区域中生成教师的特征。如图1所示，教师模型的特征图中不同区域的重要性可以使用区域特定注意力得分来量化。只有得分较高的区域在特征Mask中起关键作用，而得分较低的区域应该被淡化。

为了缓解上述缺点，本文提出了一种自适应Mask蒸馏（AMD）框架，该框架具有目标感知空间和通道自适应性。一方面，在学生网络的特征图上执行注意力引导的空间Mask，而不是随机Mask。

更具体地说，首先从教师模型的特征图中学习空间注意力图，生成区域特定的Mask。然后，通过使用该注意力图自适应地Mask学生网络的特征。受益于这种选择性的特征Mask，它允许后续生成块聚焦于那些自适应Mask的重要区域，从而产生健壮和表达的表示。另一方面，为了进一步探索对象感知能力，作者利用简单有效的SE层来建模教师模型的结果特征的通道注意力。学习到的线索和学生生成块的输出将通过Hadamard乘积进行融合，实现理想的目标感知通道自适应。

综上所述，本文的贡献有3方面：

首先，为学生模型开发了一种空间自适应的特征Mask机制，从而将区域特定的重要性编码在从教师网络中重构和学习的特征中。
其次，通过引入一个简单而有效的SE模块来进一步探索通道的自适应性，以提高学生模型的目标感知能力。
最后，使用各种检测框架（包括RetinaNet、Faster RCNN和RepPoint）来评估提出的特征提取网络AMD。广泛的实验结果表明，本文的方法可以帮助学习具有足够描述能力的特征，并比以前的最先进的方法获得显著的性能提高。

2、相关工作

2.1、目标检测

作为一项基本的视觉任务，目标检测旨在确定图像中物体的类别和位置。近年来，神经网络的成功极大地推动了目标检测的研究。通常，基于深度神经网络的检测器可分为三类，包括Anchor-Based检测器、Anchor-Free检测器和端到端检测器。特别是，Anchor-Based的检测模型分为两阶段和单阶段检测器。

前一种检测方法，由类似R-CNN的算法表示，具有更高的检测精度，而其推理速度通常不令人满意，因为区域建议网络（RPN）产生了昂贵的计算成本。因此，对于某些实时场景来说，这是不切实际的。相比之下，单阶段检测器直接对Anchor进行分类和回归，而无需事先生成区域建议。因此，它们运行速度更快，检测性能得到保证。

虽然最近的深度网络实现了高检测精度，但它们通常依赖于复杂的主干结构和大量的计算资源。从这个意义上讲，设计轻量级和高效的骨干网络已经成为目标检测领域的一个主要研究方向。特别是，知识蒸馏可以将足够的描述能力从大网络转移到小网络，有利于设计性能接近大网络的轻量级骨干网络。

2.2、知识蒸馏

最近，知识蒸馏在模型压缩中得到了越来越多的关注，因为它能够保持紧凑的模型结构并提高性能。Hinton等人首先提出了知识蒸馏的概念，通过引入教师网络的软标签作为学生网络损失的一部分，允许学生网络学习分类任务的教师模型的概率分布拟合。

此外，Romero等人证明，中间层的语义信息也可以作为隐藏知识被学生网络学习。因此，知识蒸馏可以广泛应用于广泛的下游任务。Chen等人通过分别设置三个损失函数来提取Neck特征、分类头和回归头。Tang等人仔细设计了蒸馏权重和蒸馏损失函数，以便在单阶段目标检测器的样品之间自动调整。Li等人使用较大网络的区域建议来帮助较小网络学习更高的语义信息。Zheng等人将分类头的知识蒸馏转移到目标检测的位置头，带来了一种新的蒸馏机制，称为定位蒸馏（LD）。LD使逻辑模仿成为特征模仿的更好选择，并揭示了目标类别和目标位置的知识应分别处理。

Dai等人开发了GID框架，该框架基于学生和教师网络之间的差异来选择蒸馏区域。Yang等人提出了FGD，它将前景和背景分开，使学生模型能够分别通过局部和全局蒸馏从教师网络感兴趣的领域和全局知识中学习。此外，MGD对学生模型的特征图施加随机Mask，然后生成从教师网络重建的特征图。然而，随机Mask的不确定性可能会引入额外的噪声，从而产生具有折衷表示能力的偏置特征图。

3、本文方法

近年来，针对各种模型体系结构和任务精心设计了大量的精馏方法。通常，用于蒸馏的特征映射通常具有关于相邻像素的高级语义和空间信息。因此，从教师模型中学习这些特征可以显著提高学生模型的表现。在数学上，基本特征蒸馏可以表述为：

其中，C、H、W分别表示特征图的通道、高度和宽度。和表示教师模型和学生模型对应的特征。表示排列和形状的适应层。

最近的研究表明，学习和重建教师模型的特征是特征模仿的理想选择。更具体地，可以从学生网络的特征图上的Mask区域生成表达特征。然而，先前的状态方法主要执行随机特征Mask，而不识别特征图上不同区域的重要性。

在本文中试图使学生模型生成与教师网络特征图上的重要区域相对应的特征。为此，提出了一种称为AMD的Spatial-channel adaptive masked distillati策略。与先前方法中的随机Mask策略相比，本文通过region-aware attention来执行特征Mask，以识别教师网络特征图中的重要区域。

为了提高目标感知能力，进一步引入了一个简单而高效的SE模块，使得生成的特征是通道自适应的。本文提出的方法的框架如图2所示。

3.1、空间自适应特征Mask

MGD利用随机像素恢复完整的特征图，MGD模型允许学生模型的Mask特征生成教师模型的特征。因此，它有利于学生网络获得更好的代表性。然而，由于MGD中的随机Mask，区域特异性的重要性被丢弃了。为了缓解这一缺陷，作者在空间注意力的帮助下仔细设计了区域感知特征Mask。

首先，计算了教师网络沿通道维度的绝对平均值：

其中，为该特征的通道号。是教师模型的特点。是空间表征图。然后，由教师模型产生的空间注意Mask可以表述为：

其中是引入的超参数，用于改变概率分布，从而使所得的形状为。每个点的注意力得分代表对教师网络的兴趣程度。此外，当注意力得分大于时，Mask值设置为0，其余值设置为1。这可以表示为：

式中，为教师网络特征图上具有坐标的点上的空间注意力得分。是一个超参数来控制Mask中的像素数。接下来，用Mask 覆盖学生模型的特征图，可以表述如下：

简而言之，借助这种注意力引导的特征Mask，可以根据教师对应的重要兴趣区域Mask学生特征图，得到的特征将包含更重要的语义信息。

3.2、Channel adaptive clues generation

与图像分类等单目标识别任务不同，目标检测是一项专注于检测多个目标的密集预测任务。除了有效感受野（ERF）外，在不同尺度上捕获目标信息的能力也会给检测器带来显著的性能波动，这在之前的工作中没有考虑到。因此，利用一个简单而轻量级的SE层从教师特征中学习通道自适应通道。所得到的通道自适应通道将用于增强学生的特征，并进一步提高目标感知能力：

其中，表示学生特征的学习通道自适应通道。它通过Hadamard product生成块的输出相融合，并表示为。和分别是SE和生成模块的线性投影和卷积层的权重矩阵。

受益于这一设计，本文的模型进一步探索了目标感知潜力，从而显著改善了那些普通模型，即没有通道自适应设计的模型。更有趣的是，作者观察到AMD在检测小目标的情况下可以实现显著的mAP改进，证明了提出的方法的有效性。还提供了从不同蒸馏模型导出的特征图的可视化结果，如图3所示。可以很容易地观察到，AMD生成的目标特征比方法的目标特征更易于区分。

3.3、损失函数

基于所提出的蒸馏方法，作者还设计了以下AMD的蒸馏损失：

其中，C、H、W分别表示特征图的通道号、高度和宽度。表示被Mask的学生特征图。因此，总体损失函数如下：

其中，为平衡蒸馏损失和原始损失的超参数，为检测任务的原始损失。

涨点Trick | 超越CWD、FGD和MGD，AMD蒸馏让目标检测对小目标更有效（一）

1、简介