3实验
3.1 与ResNet对比
1、Feature fusion
从表1可以看出,与基于concat的融合相比,基于交叉注意力的融合不仅表现不如基于concat的融合,而且具有更多的参数。
2、解码器
受DETR启发,SwinTrack采用了Transformer解码器。通过对预训练目标query token进行交叉注意力计算,模型可以在特征中找到潜在的目标对象。理想情况下,它可以直接生成目标对象的边界框,而不需要任何后处理步骤。然而,在表1中的经验结果显示,带有Transformer解码器的跟踪器在大多数数据集中的性能很差。
3、位置编码
比较了Transformer中采用的统一位置编码和原始的since编码。如表1所示,在不同的数据集上,采用联合位置编码的SwinTrack-T比采用正弦编码的SwinTrack-T获得了更好的精度,大约提高了1%,同时仍然在98帧/秒左右运行。
4、损失函数
从表1中可以观察到,在不损失的情况下,具有varifocal loss的SwinTrack-T显著优于具有binary entropy loss(BCS)的SwinTrack-T。
5、Positional Augmentations
表1中的“Weak august”行显示的是训练阶段生成搜索图像时推导随机尺度和随机翻译的数据集评估结果。与微调超参数相比,LaSOT中评估的成功得分下降了5.3%,LaSOText中甚至下降了8.5%。
6、Post processing
通过删除后处理中的hanning penalty window,如表1所示,性能显著下降。这表明,即使有一个强大的backbone ,hanning penalty window仍然有效。
3.2 SOTA对比
1、LaSOT
2、LaSOText
3、TrackingNet
4、GOT-10k
4参考阅读
[1].SwinTrack: A Simple and Strong Baseline for Transformer Tracking