Swin-Transformer又又又下一城 | 看SwinTrack目标跟踪领域独领风骚（二）-阿里云开发者社区

Swin-Transformer又又又下一城 | 看SwinTrack目标跟踪领域独领风骚（二）

2023-05-23 326

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Swin-Transformer又又又下一城 | 看SwinTrack目标跟踪领域独领风骚（二）

3实验

3.1 与ResNet对比

1、Feature fusion

从表1可以看出，与基于concat的融合相比，基于交叉注意力的融合不仅表现不如基于concat的融合，而且具有更多的参数。

2、解码器

受DETR启发，SwinTrack采用了Transformer解码器。通过对预训练目标query token进行交叉注意力计算，模型可以在特征中找到潜在的目标对象。理想情况下，它可以直接生成目标对象的边界框，而不需要任何后处理步骤。然而，在表1中的经验结果显示，带有Transformer解码器的跟踪器在大多数数据集中的性能很差。

3、位置编码

比较了Transformer中采用的统一位置编码和原始的since编码。如表1所示，在不同的数据集上，采用联合位置编码的SwinTrack-T比采用正弦编码的SwinTrack-T获得了更好的精度，大约提高了1%，同时仍然在98帧/秒左右运行。

4、损失函数

从表1中可以观察到，在不损失的情况下，具有varifocal loss的SwinTrack-T显著优于具有binary entropy loss(BCS)的SwinTrack-T。

5、Positional Augmentations

表1中的“Weak august”行显示的是训练阶段生成搜索图像时推导随机尺度和随机翻译的数据集评估结果。与微调超参数相比，LaSOT中评估的成功得分下降了5.3%，LaSOText中甚至下降了8.5%。

6、Post processing

通过删除后处理中的hanning penalty window，如表1所示，性能显著下降。这表明，即使有一个强大的backbone ，hanning penalty window仍然有效。

3.2 SOTA对比

1、LaSOT

2、LaSOText

3、TrackingNet

4、GOT-10k

4参考阅读

[1].SwinTrack: A Simple and Strong Baseline for Transformer Tracking

Swin-Transformer又又又下一城 | 看SwinTrack目标跟踪领域独领风骚（二）