3、实验
3.1 性能对比
3.2 消融实验
1、PixSF head and SlimFPN
首先探讨了4个Head结构对YOLOX的影响。以4个Head结构YOLOX-S为例,如表IV(第2行)所示,mAP和AP50分别显著提高了1.89%和4.59%,验证了4个Head结构的有效性。然而,添加一个检测Head使GFLOPs从26.8变化到60.14,Jetson Nano的延迟从52.52 ms变化到238.22 ms,Jetson NX的延迟从14.70 ms变化到27.26 ms。
为了缓解这种情况,在Head用DS Conv代替卷积算子是轻量级模型的可行设计。如表IV所示(FasterX-S部分,第1行和FasterX-很小的部分,第1行)所示,用DS Conv代替了一般的卷积,尽管mAP和AP50略有减少,但延迟显著降低。实验结果表明了DS Conv算子的有效性。
为了证明PixSF-Head方法的有效性能,比较了一般的卷积算子,DW Conv算子和PixSF算子。为了展示PixSF-Head的灵活嵌入性,还将DW Conv嵌入到PixSF-Head中,设计了一个更轻的Head。如表IV(FasterX-S部分,第2和第4行,FasterX-small部分,第2和第4行,FasterX-Nano部分,第1和第3行)可以看出,DW+PixSF方法在延迟和检测精度方面优于一般卷积算子和DW算子。以FasterXS为例,与使用DW操作符的4个Head结构相比,不仅mAP和AP50分别降低了0.62%和0.57%,而且Jetson Nano和NX的推理时间也分别降低了12.8%和9.8%以上。这些结果表明,所提出的PixSF-Head不仅能提高检测精度,而且还能提高推理速度。
将在特征聚合部分中说明精度和速度之间的权衡。如Tabel IV(FasterXS部分,第2行,FasterX-Small部分,第2行和FasterX-Nano部分,第1行)所示,以FasterX-S为例,与PANet(FasterX-S部分,第1行)相比,尽管SlimFPN方法的mAP和AP50分别下降了0.66%和1.23%,参数从7.61下降到4.96,GFLOPs从24.88下降到22.87。这些结果表明,SlimFPN不仅可以减少网络的大小,而且可以保持检测精度。这是因为自顶向下的结构可以确保深层语义信息被转移到浅层特征图中,从而为小目标提供语义支持。
为了进一步验证PixSF-head的通用性,在VOC2012数据集上进行了实验,实验目标的数量比无人机数据集更大。表V中的实验结果表明,DS Conv和PixSF-head的组合可以进一步实现模型容量和精度之间的权衡。
2、Attention mechanism
为了提高目标检测的头部层的解耦性能,采用CBAM来改进Head层的特征表示。如Tabel IV(FasterX-S部分,第5行,FasterX-很小的部分,第5行和FasterX-Nano部分,第4行)所示,可以看出CBAM对精度有积极的影响。因为它不仅监督通道,而且还通过使用空间概率图来提取兴趣区域。
3、Improved SimOTA
为了验证所提出的动态标签分配策略的有效性,将改进后的SimOTA与基本的标签分配机制进行了比较。如表四所示,用改进后的SimOTA替换了原来的SimOTA。实验结果表明,改进后的SimOTA在三种模型中都能取得良好的效果。以FasterX-S为例(FasterX-S部分,第6行),在没有额外的计算资源的情况下,mAP和AP50分别增加了0.42%和1.39%。
4、Auxiliary Head
此外,为了说明辅助Head在线蒸馏的效率,探讨了辅助Head对FasteX的效果。为了提高辅助Head的提取能力,采用了具有大量参数的YOLOX-X Head进行训练监督。在训练过程中,采用了网络预热策略。首先,对PixSF-Head和辅助Head进行联合训练50个Epoch。然后,使用辅助Head的标签结果来引导PixSF-Head。从表四可以看出,mAP和AP50在使用辅助Head进行在线蒸馏后有了显著的改善。
5、Backbone
在本文中,使用CSPDarknet53作为FasterX的主干。没有从理论上建模骨干和推理速度之间的关系,而是直接报告了Jetson设备下当前流行的轻量级骨干(如MobileNetV2、GhostNet和Effificientnet-Lite)的FPS和延迟。如表六所示,Effificientnet-Lite4的检测精度最好。同时,延迟在所有骨干中最高。CSPDarknet53骨干能够在不牺牲更多计算时间的情况下以更高的检测精度操作。因此,在CSPDarknet53主干中实现了检测精度和推理速度之间的平衡。
4、参考
[1].FasterX: Real-Time Object Detection Based on Edge GPUs for UAV Applications.
5、推荐阅读
量化部署篇 | Vision Transformer应该如何进行PTQ量化?这个方法或许可以参考!