清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花？？？（二）-阿里云开发者社区

清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花？？？（二）

2023-05-24 163

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花？？？（二）

4实验

4.1 ImageNet-1K 图像分类

在表2中报告了的结果，有300个训练周期。与其他最先进的ViT相比，DAT在类似的计算复杂性上实现了Top-1精度的显著改进。我们的DAT方法在所有三个尺度上都优于Swin Transformer、PVT、DPT和DeiT。在没有在Transformer Block中插入卷积，或在Patch嵌入中使用重叠卷积的情况下，比Swin Transformer对应的数据获得了+0.7、+0.7和+0.5的提升。当在384×384分辨率下进行微调时，比Swin Transformer表现好0.3%。

4.2 COCO目标检测

如表3所示，DAT在小型模型中的性能分别超过Swin变压器1.1和1.2mAP。

当在两阶段检测器中实现时，如Mask R-CNN和Cascade Mask R-CNN，模型比不同尺寸的Swin Transformer模型实现了一致的改进，如表4所示。可以看到，由于建模随机依赖关系的灵活性，DAT在大型目标上实现了对其（高达+2.1）的改进。小目标检测和实例分割的差距也很明显（高达+2.1），这表明DATs也具有在局部区域建模关系的能力。

4.3 ADE20K语义分割

在表5中，所有方法中mIoU得分最高的验证集上的结果。与PVT相比，小模型在参数更少的情况下也超过PVT-S 0.5 mIoU，并且在+3.1和+2.5中实现了显著的提升。DAT在3个模型尺度上都比Swin Transformer有显著的改进，在mIoU中的分别提升了+1.0、+0.7和+1.2，显示了方法的有效性。

4.4 消融实验

1、几何信息开发

首先评估了提出的可变形偏移量和可变形相对位置嵌入的有效性，如表6所示。无论是在特征采样中采用偏移量，还是使用可变形的相对位置嵌入，都提供了+0.3的提升。作者还尝试了其他类型的位置嵌入，包括固定的可学习位置偏差中的深度卷积。但在没有位置嵌入的情况下，只提升了0.1，这表明变形相对位置偏差更符合Deformable attention。从表6中的第6行和第7行也可以看出，模型可以在前两个阶段适应不同的注意力模块，并取得有竞争的结果。SRA在前两个阶段的模型在65%的FLOPs上比PVT-M高出0.5倍。

2、不同Stage使用Deformable attention

用不同阶段的Deformable attention取代了Swin Transformer shift window attention。如表7所示，只有替换最后一个阶段的注意力才能提高0.1，替换最后两个阶段的性能才能提高0.7（总体精度达到82.0）。然而，在早期阶段用更多Deformable attention代替，会略微降低精度。

4.5 可视化结果

如图所示，采样点被描述在目标检测框和实例分割Mask的顶部，从中可以看到这些点被移到了目标上。

在左边一列中，变形的点被收缩成两个目标长颈鹿，而其他的点则是保持一个几乎均匀的网格和较小的偏移量。

在中间的一列中，变形点密集地分布在人的身体和冲浪板中。

右边的一列显示了变形点对六个甜甜圈的每个焦点，这表明本文的模型有能力更好地建模几何形状，即使有多个目标。

上述可视化表明，DAT可以学习到有意义的偏移量，以采样更好的注意力key，以提高各种视觉任务的表现。

5参考

[1].Vision Transformer with Deformable Attention.

清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花？？？（二）

4实验

4.1 ImageNet-1K 图像分类

4.2 COCO目标检测

4.3 ADE20K语义分割

4.4 消融实验

1、几何信息开发

2、不同Stage使用Deformable attention

4.5 可视化结果

5参考

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站

技术资料

清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花？？？（二）

4实验

4.1 ImageNet-1K 图像分类

4.2 COCO目标检测

4.3 ADE20K语义分割

4.4 消融实验

1、几何信息开发

2、不同Stage使用Deformable attention

4.5 可视化结果

5参考

热门文章

最新文章

相关课程

相关电子书