3、实验
3.1、消融实验
1、在CESC和AMM上
如表2所示,通过使用CESC组件,基础检测器节省了约70%的GFLOPs,运行速度快1.43倍,而精度没有任何下降,因为SC降低了复杂性,CE-GN层和残差结构补偿了上下文的损失。
通过采用动态掩模比获得紧凑的前景覆盖,AMM组件进一步提高了精度,提高了11.9%,同时节省了5.1%的GFLOPs。
需要注意的是,当直接应用没有CESC的SC时,GFL V1的训练过程变得非常不稳定,因此没有通过单独评估GFL V1上的AMM来提供结果。
2、关于在CESC中的详细设计
作者分别评估了残差结构,CE-GN和等式中的归一化损失关于CESC的性能。直接将SC应用于GFL V1会使训练过程不稳定。如表3所示,当使用残差结构时,带有SC的GFL V1变得稳定,需要的gflop要少得多,但由于上下文的丢失,mAP急剧下降。通过CE-GN添加上下文信息,GFLOPs略有增加,从而显著提高了准确性。进一步提高了准确性和效率,因为它隐式地加强了特征的稀疏性。
进一步评估了CE-GN的性能,并将其与未使用归一化的方法进行了比较,如QueryDet、GN、动态头,BN和IN。还报告了原始GFL V1的结果,表示为“Dense Conv.”。
如表4所示,CE-GN在未归一化的情况下显著提高了2.6%。与其他归一化方案相比,CE-GN的精度最好,分别比GN、BN和IN高出0.7%、2.6%和0.8%。值得注意的是,CE-GN在GFLOPs和FPS方面的效率也最好。
为了突出CE-GN的优点,我们将密集卷积和稀疏卷积产生的特征之间的余弦相似性可视化,其中CE-GN和GN分别对SC进行归一化。如图3所示,使用CE-GN的特征比使用GN的特征表现出更高的相关性,这表明CE-GN在增强SC的全局上下文方面的优越性。
为了对全局上下文进行编码,利用了point-wise卷积,并与现有的技术进行了比较,包括普通的3×3卷积、GhostModule,以及一些基于注意力的方法,如CBAM和Criss-Cross注意力。
如表5所示,point-wise卷积在检测精度上优于对应卷积。同时,在基于卷积的方法中,GFLOPs最低,在所有方法中FPS最高,明显显示了其在平衡精度和效率方面的优势。
3、关于AMM的详细分析
比较了AMM模块在VisDrone上的固定屏蔽比分别为0.50到0.95,在UAVDT上分别为0.50到0.975。如图5所示,在降低掩模比时,卷积中涉及的特征更多,导致计算成本更高,FPS更低。在此同时,可以看到检测精度对掩模比值很敏感,而掩模比值并没有随着比值的增加而持续提高。
此外,最优固定掩模比在不同的数据集上有所不同,例如VisDrone为0.9,UAVDT为0.95。相比之下,AMM自适应地确定了一个适当的掩模比,使基础检测器达到最佳的精度和最高的推理速度,证明了其必要性。
请注意,AMM以“逐层”的方式分别计算不同层的掩模比率。将其与“全局”版本进行了比较,后者估计了所有层的全局掩模比率。如表6所示,在mAP和FPS方面,“层级”方法明显优于“全局”方法。
原因在于,如图4所示,FPN不同层的最优掩模比不同,“层”方法比“全局”方法估计掩模比更准确,从而提高了精度和效率。
作者还在表7中评估了其在不同FPN层中的影响。通过较少的FPN层,GFLOPs和FPS得到了改进。放弃P6-P7的影响不大,因为它们的信息较少。去除P4会导致mAP的急剧下降,表明P4至关重要,这与可视化一致。
3.2、SOTA对比
4、参考
[1].Adaptive Sparse Convolutional Networks with Global Context Enhancement for Faster Object Detection on Drone Images.
[2].https://github.com/Cuogeihong/CEASC.