4、实验
4.1、Ablation Study
透过上图可以看出估计误差随着L的增大和r的减小而减小,与前面分析一致。同时,当r大于6时,继续增大r对估计误差和FLOPs影响不大。当r是小于或等于6,继续降低r失败将导致更大的增加而较小的减少错误;因此最终论文选择了r=8来进行实验。
4.2、Final Performance
透过下图可以看出K-mean对于原始DERT的性能损失太大,而本文提出的ACT在L=32是基本可以达到DERT的性能,而基于知识蒸馏的ACT-MTKD在精度和速度上又有了进一步的提升:
从下表可以看出,基于知识蒸馏的ACT在L=32时与原始DERT-DC5相当,但是其GFLOPs比DERT-DC5更低:
4.2、自适应聚类的可视化结果
参考
[1] End-to-End Object Detection with Adaptive Clustering Transformer