Swin-Transformer又又又下一城 | 看SwinTrack目标跟踪领域独领风骚(二)

简介: Swin-Transformer又又又下一城 | 看SwinTrack目标跟踪领域独领风骚(二)

3实验


image.png

3.1 与ResNet对比

image.png

1、Feature fusion

从表1可以看出,与基于concat的融合相比,基于交叉注意力的融合不仅表现不如基于concat的融合,而且具有更多的参数。

2、解码器

受DETR启发,SwinTrack采用了Transformer解码器。通过对预训练目标query token进行交叉注意力计算,模型可以在特征中找到潜在的目标对象。理想情况下,它可以直接生成目标对象的边界框,而不需要任何后处理步骤。然而,在表1中的经验结果显示,带有Transformer解码器的跟踪器在大多数数据集中的性能很差。

3、位置编码

比较了Transformer中采用的统一位置编码和原始的since编码。如表1所示,在不同的数据集上,采用联合位置编码的SwinTrack-T比采用正弦编码的SwinTrack-T获得了更好的精度,大约提高了1%,同时仍然在98帧/秒左右运行。

4、损失函数

从表1中可以观察到,在不损失的情况下,具有varifocal loss的SwinTrack-T显著优于具有binary entropy loss(BCS)的SwinTrack-T。

5、Positional Augmentations

表1中的“Weak august”行显示的是训练阶段生成搜索图像时推导随机尺度和随机翻译的数据集评估结果。与微调超参数相比,LaSOT中评估的成功得分下降了5.3%,LaSOText中甚至下降了8.5%。

6、Post processing

通过删除后处理中的hanning penalty window,如表1所示,性能显著下降。这表明,即使有一个强大的backbone ,hanning penalty window仍然有效。

3.2 SOTA对比

1、LaSOT

2、LaSOText

image.png

3、TrackingNet

image.png

4、GOT-10k


4参考阅读


[1].SwinTrack: A Simple and Strong Baseline for Transformer Tracking

相关文章
|
机器学习/深度学习 编解码 计算机视觉
Transformer又一城 | Swin-Unet:首个纯Transformer的医学图像分割模型解读
Transformer又一城 | Swin-Unet:首个纯Transformer的医学图像分割模型解读
1264 0
|
7月前
|
机器学习/深度学习
YOLOv8改进 | 2023主干篇 | RepViT从视觉变换器(ViT)的视角重新审视CNN
YOLOv8改进 | 2023主干篇 | RepViT从视觉变换器(ViT)的视角重新审视CNN
423 1
YOLOv8改进 | 2023主干篇 | RepViT从视觉变换器(ViT)的视角重新审视CNN
|
机器学习/深度学习 测试技术 计算机视觉
【计算机视觉 | ViT-G】谷歌大脑提出 ViT-G:缩放视觉 Transformer,高达 90.45% 准确率
谷歌大脑提出 ViT-G:缩放视觉 Transformer,高达 90.45% 准确率
|
7月前
|
机器学习/深度学习 编解码 算法
助力目标检测涨点 | 可以这样把Vision Transformer知识蒸馏到CNN模型之中
助力目标检测涨点 | 可以这样把Vision Transformer知识蒸馏到CNN模型之中
269 0
|
7月前
|
机器学习/深度学习 编解码
YOLOv5改进 | 2023主干篇 | RepViT从视觉变换器(ViT)的视角重新审视CNN
YOLOv5改进 | 2023主干篇 | RepViT从视觉变换器(ViT)的视角重新审视CNN
334 0
|
7月前
|
机器学习/深度学习 数据挖掘 网络安全
【论文速递】CVPR2022 - 用于半监督物体检测的尺度等效蒸馏
【论文速递】CVPR2022 - 用于半监督物体检测的尺度等效蒸馏
|
机器学习/深度学习 编解码 算法
论文阅读笔记 | 目标检测算法——DCN(可变形卷积网络)
论文阅读笔记 | 目标检测算法——DCN(可变形卷积网络)
770 0
论文阅读笔记 | 目标检测算法——DCN(可变形卷积网络)
|
7月前
|
机器学习/深度学习 自然语言处理 算法
从滑动窗口到YOLO、Transformer:目标检测的技术革新
从滑动窗口到YOLO、Transformer:目标检测的技术革新
199 0
|
机器学习/深度学习 自然语言处理 算法
涨点技巧 | 旷视孙剑等人提出i-FPN:用于目标检测的隐式特征金字塔网络(文末获取论文)(一)
涨点技巧 | 旷视孙剑等人提出i-FPN:用于目标检测的隐式特征金字塔网络(文末获取论文)(一)
309 0
涨点技巧 | 旷视孙剑等人提出i-FPN:用于目标检测的隐式特征金字塔网络(文末获取论文)(一)
|
机器学习/深度学习 编解码 数据挖掘
Swin-Transformer又又又下一城 | 看SwinTrack目标跟踪领域独领风骚(一)
Swin-Transformer又又又下一城 | 看SwinTrack目标跟踪领域独领风骚(一)
349 0

相关实验场景

更多