4、实验
4.1、对比实验
在消融研究中,进行了3组实验来评估不同的蒸馏方法,其中所涉及的3种流行的检测器。相应实验结果见表一。
在第一组实验中,RetinaNet被用作教师和学生的检测框架。相应的实验结果表明,本文的蒸馏方法通过报告41.3%的最高准确率,在mAP方面比基准学生网络提供了3.9%的显著性能提升。该结果始终优于最先进的方法FGD和MGD,分别为0.6%和0.3%,甚至超过了教师模型,达到了41.0%的mAP。
第二组的实验设置与第一组相似,只是RetinaNet框架被RepPoints取代。与第一组的结果一致,报道了mAP和mAR的显著性能提高4.1%和3.7%,并且还证明了与竞争蒸馏方法类似的性能优势。结果表明,本文的方法可以自适应地从教师那里学习更多重要信息,并对学生模型的改进做出了显著贡献。
为了进一步评估提出的方法的泛化能力,对教师和学生模型使用了不同的检测框架。具体而言,更强大的检测器Cascade Mask-RCNN用作教师网络,而Faster-RCNN用于学生模型。如表1所示,本文的方法将mAP中的基线学生模型从38.4%提高到42.4%,mAR中的基线模型从52.0%提高到55.8%,在mAP和mAR中均优于MGD 0.3%。这充分表明本文的方法独立于特定检测器,并在跨框架场景中显示出一致的优势。
4.3、消融实验
如表II所示,当RetinaNet用于教师和学生的检测框架时,探索了AMD模型中的两个主要模块,即空间自适应Mask(Ada Mask)和通道自适应通道生成(Ada channel)。据观察,包括Ada Mask和Ada Channel组件的完整AMD模型可获得最佳结果。此外,当移除任一组件时,性能明显下降,特别是在小目标检测场景中(0.3%↓ 不含Ada mask和0.5%↓ w/o Ada Channel)。这意味着AMD方法可以提高对密集预测任务至关重要的目标感知能力。
当将“RetinaNet”替换为“RepPoint”时,也可以得到类似的结果。如表3所示,Ada-Mask和ada-通道组件在AMD模型中都发挥着关键作用。具体来说,单个Ada-Mask模块报告的APS、APM和APL评分分别为24.4%、46.3%和56.0%。在额外的通道自适应通道的帮助下,各指标分别进一步提高了0.4%、0.2%和0.3%。
此外,还对交叉框架场景进行了消融研究。具体而言,Cascade Mask-RCNN用作教师网络,而Faster-RCNN用作学生对应网络。如表IV所示,完整的AMD模型实现了最高的精度。特别是,APS得分最高为24.1%,优于其他设置(无Ada Mask或Ada Channel)。这表明,AMD模型有利于小目标检测,提高了目标感知能力。
除了上述消融研究,还讨论了不同的代块对方法性能的影响。如表V所示,在RetinaNet框架内比较了3个不同的生成块。结果显示,先进的MBConv 报告的性能略差。相比之下,通过简单地叠加两个标准卷积层,就可以获得更好的结果。假设从教师网络中学习到的通道自适应通道与MBConv块不兼容,因为MBConv在一定程度上编码了学生模型中的通道信息。这种不兼容性是由于教师和学生网络之间的通道信息的差异造成的。
为了更深入地了解Ada通道模块对特征生成的影响,作者探索了以下两个案例,分别将Cascade Mask-RCNN和Faster-RCNN用作教师和学生。在第一种情况下,Ada通道遵循生成块,两个组件分别起作用。在另一种情况下,Ada Channel嵌入在生成块的两个连续卷积层中,这意味着两个模块是耦合的。如表VI所示,将这两种成分分离后,mAP提高了0.2%,这表明研究学生Mask特征的生成过程与其他通道(甚至是信息性线索)相排斥。
4.4、参数分析
在AMD方法中,方程4中的超参数控制特征Mask的覆盖范围。值越大,表示只有教师模型中注意力得分越高的点被Mask,并且大多数像素点位于目标特定的GT区域中。相反,当减小时,背景区域中可能会出现Mask点。在实验中,使用RepPoints作为检测框架来讨论的影响。从图4中可以观察到,当时,报告了最高的mAP 42.7%和mAR 58.8%,这表明这有助于模型更好地在编码低得分区域和高得分区域之间进行折衷。
5、参考
[1]. AMD: Adaptive Masked Distillation for Object Detection.