清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花???(二)

简介: 清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花???(二)

4实验


4.1 ImageNet-1K 图像分类

在表2中报告了的结果,有300个训练周期。与其他最先进的ViT相比,DAT在类似的计算复杂性上实现了Top-1精度的显著改进。我们的DAT方法在所有三个尺度上都优于Swin Transformer、PVT、DPT和DeiT。在没有在Transformer Block中插入卷积,或在Patch嵌入中使用重叠卷积的情况下,比Swin Transformer对应的数据获得了+0.7、+0.7和+0.5的提升。当在384×384分辨率下进行微调时,比Swin Transformer表现好0.3%。

4.2 COCO目标检测

如表3所示,DAT在小型模型中的性能分别超过Swin变压器1.1和1.2mAP。

当在两阶段检测器中实现时,如Mask R-CNN和Cascade Mask R-CNN,模型比不同尺寸的Swin Transformer模型实现了一致的改进,如表4所示。可以看到,由于建模随机依赖关系的灵活性,DAT在大型目标上实现了对其(高达+2.1)的改进。小目标检测和实例分割的差距也很明显(高达+2.1),这表明DATs也具有在局部区域建模关系的能力。

4.3 ADE20K语义分割

在表5中,所有方法中mIoU得分最高的验证集上的结果。与PVT相比,小模型在参数更少的情况下也超过PVT-S 0.5 mIoU,并且在+3.1和+2.5中实现了显著的提升。DAT在3个模型尺度上都比Swin Transformer有显著的改进,在mIoU中的分别提升了+1.0、+0.7和+1.2,显示了方法的有效性。

4.4 消融实验

1、几何信息开发

image.png

首先评估了提出的可变形偏移量和可变形相对位置嵌入的有效性,如表6所示。无论是在特征采样中采用偏移量,还是使用可变形的相对位置嵌入,都提供了+0.3的提升。作者还尝试了其他类型的位置嵌入,包括固定的可学习位置偏差中的深度卷积。但在没有位置嵌入的情况下,只提升了0.1,这表明变形相对位置偏差更符合Deformable attention。从表6中的第6行和第7行也可以看出,模型可以在前两个阶段适应不同的注意力模块,并取得有竞争的结果。SRA在前两个阶段的模型在65%的FLOPs上比PVT-M高出0.5倍。

2、不同Stage使用Deformable attention

image.png

用不同阶段的Deformable attention取代了Swin Transformer shift window attention。如表7所示,只有替换最后一个阶段的注意力才能提高0.1,替换最后两个阶段的性能才能提高0.7(总体精度达到82.0)。然而,在早期阶段用更多Deformable attention代替,会略微降低精度。

4.5 可视化结果

如图所示,采样点被描述在目标检测框和实例分割Mask的顶部,从中可以看到这些点被移到了目标上。

在左边一列中,变形的点被收缩成两个目标长颈鹿,而其他的点则是保持一个几乎均匀的网格和较小的偏移量。

在中间的一列中,变形点密集地分布在人的身体和冲浪板中。

右边的一列显示了变形点对六个甜甜圈的每个焦点,这表明本文的模型有能力更好地建模几何形状,即使有多个目标。

上述可视化表明,DAT可以学习到有意义的偏移量,以采样更好的注意力key,以提高各种视觉任务的表现。


5参考


[1].Vision Transformer with Deformable Attention.

相关文章
|
机器学习/深度学习 编解码 计算机视觉
Transformer又一城 | Swin-Unet:首个纯Transformer的医学图像分割模型解读
Transformer又一城 | Swin-Unet:首个纯Transformer的医学图像分割模型解读
1608 0
|
10月前
|
机器学习/深度学习 编解码 运维
在12个视频理解任务中,Mamba先打败了Transformer
【5月更文挑战第13天】Mamba,一种状态空间模型,在12个视频理解任务中超越Transformer,显示其在视频编码、解码、生成和分类等角色上的高效性能。研究发现Mamba在视频分类任务中的准确率超出Transformer 2%,并在视频描述生成和问答任务中表现出色。然而,Mamba的训练复杂,需要更多资源,且在处理复杂场景时效果不佳。[查看论文:https://arxiv.org/abs/2403.09626]
170 2
|
10月前
|
机器学习/深度学习 自然语言处理
Transformer奠基之作《Attention Is All You Need》
Transformer模型,由Google Brain和Google Research在2017年的论文中提出,颠覆了传统NLP依赖RNN和CNN的局面。该模型基于完全的注意力机制,解决了RNN的并行化难题,通过编码器和解码器中的多头自注意力机制捕捉全局依赖。训练策略结合Adam优化器、标签平滑和dropout,使其在机器翻译任务中表现卓越。尽管面临长序列处理的挑战和可能的上下文忽略问题,Transformer仍展示了注意力机制的巨大潜力,对NLP领域产生了深远影响。
202 3
Transformer奠基之作《Attention Is All You Need》
|
10月前
|
机器学习/深度学习 计算机视觉
Backbone创新 | 中科大联合百度提出全新Transformer Backbone
Backbone创新 | 中科大联合百度提出全新Transformer Backbone
169 1
Backbone创新 | 中科大联合百度提出全新Transformer Backbone
|
10月前
|
机器学习/深度学习 网络架构 计算机视觉
YOLOv5改进 | 主干篇 | 利用SENetV1改进网络结构 (ILSVRC冠军得主)
YOLOv5改进 | 主干篇 | 利用SENetV1改进网络结构 (ILSVRC冠军得主)
101 0
YOLOv5改进 | 主干篇 | 利用SENetV1改进网络结构 (ILSVRC冠军得主)
|
10月前
|
机器学习/深度学习 数据可视化 调度
英伟达开源新Backbone涨点方法STL | 让FAN Backbone直接登顶ImageNet-1K等数据集榜单
英伟达开源新Backbone涨点方法STL | 让FAN Backbone直接登顶ImageNet-1K等数据集榜单
178 0
|
10月前
|
机器学习/深度学习 网络架构 计算机视觉
YOLOv8改进 | 主干篇 | 利用SENetV1改进网络结构 (ILSVRC冠军得主)
YOLOv8改进 | 主干篇 | 利用SENetV1改进网络结构 (ILSVRC冠军得主)
159 0
|
机器学习/深度学习 编解码 自然语言处理
论文阅读笔记 | Transformer系列——Swin Transformer
论文阅读笔记 | Transformer系列——Swin Transformer
1402 0
论文阅读笔记 | Transformer系列——Swin Transformer
|
10月前
|
机器学习/深度学习 自然语言处理 计算机视觉
【论文泛读】ConvNeXt:A ConvNet for the 2020s(新时代的卷积)
【论文泛读】ConvNeXt:A ConvNet for the 2020s(新时代的卷积)
|
机器学习/深度学习 编解码 自然语言处理
清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花???(一)
清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花???(一)
254 0