大道至简 | 设计 ViT 到底怎么配置Self-Attention才是最合理的?(二)

简介: 大道至简 | 设计 ViT 到底怎么配置Self-Attention才是最合理的?(二)

3实验


3.1 消融实验

1、Effect of the architecture design

表 2

结果如表 2 所示。总的来说,LIT在使用更少的 FLOP(3.6G 与 3.8G)的同时,将PVT-S的Top-1精度提高了0.6%。对于Swin-Ti将 FLOPs 减少了0.4G,同时实现了同等性能。

还值得注意的是,PVT-SSwin-Ti 的参数总数都减少了。整体性能证明了所提出架构的有效性,这也强调了早期MSAPVTSwin中的微小优势。

2、Effect of deformable token merging

表 3

结果如表 3 所示。对于这2个模型,DTM 引入了可忽略的 FLOP 和参数,同时在 Top-1 精度方面分别将 PVT-S 和 Swin-Ti 提高了 0.7% 和 0.3%。

图 2

此外,在图 2 中可视化了学习到的偏移量。如图所示,与之前的统一Patch Merge策略不同,之前的统一Patch Merge策略将采样位置限制在绿色矩形内,DTM 根据对象的比例和形状(例如,考拉腿、猫尾巴)。这再次强调了LIT适应各种几何变换的能力。

3、Effect of MSA in each stage

结果如表4所示。首先,在用标准MSA层替换PVT-S中的SRA层后,观察到 Top-1 准确度提高了1.1%,而FLOPs几乎翻了一番。这表明PVT在性能和效率之间进行了权衡。

接下来,通过在前2个阶段逐步去除MSA层,Top-1准确率仅分别下降了0.1%、0.5%。这意味着 PVT 早期阶段的self-attention层对最终性能的贡献低于预期,并且它们的性能并不比纯MLP层好多少。这可以归因于浅层更多地关注编码局部信息的事实。

然而,可以观察到在最后2个阶段移除self-attention时性能大幅下降。结果表明,self-attention层在后期发挥着重要作用,捕获长距离依赖对于表现良好的分层视觉Transformer至关重要。

图 3

为了更好地理解这一现象,在不移除任何MSA层的情况下可视化PVT-S的注意力概率,如图3所示。首先,第1阶段的注意力图显示query像素几乎不注意其他位置。

在第2阶段,query像素的感受野略有扩大,但与第1阶段相似。考虑到PVT-S在第1阶段只有1个head,在第2阶段只有2个head,这有力地支持了作者的假设:MSA层中过少的head会导致较小的感受野,此时self-attention几乎等同于FC层。

此外,从最后2个阶段的注意力图中观察到相对较大的感受野。由于大的感受野通常有助于对更长的依赖关系进行建模,这解释了在最后2个阶段移除MSA层后表4中的巨大性能下降。

3.2 分类

3.3 目标检测

3.4 实例分割

3.5 语义分割


4参考


[1].Less is More: Pay Less Attention in Vision Transformers


5推荐阅读


分割冠军 | 超越Swin v2、PvT v2等模型,ViT-Adaptiver实现ADE20K冠军60.5mIoU

DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作

Sparse R-CNN升级版 | Dynamic Sparse R-CNN使用ResNet50也能达到47.2AP

相关文章
|
机器学习/深度学习 编解码 数据可视化
【即插即用】涨点神器AFF:注意力特征融合(已经开源,附论文和源码链接)
【即插即用】涨点神器AFF:注意力特征融合(已经开源,附论文和源码链接)
3546 1
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
人人都能读懂的大模型入门指南 - Transformer与Attention机制
人人都能读懂的大模型入门指南 - Transformer与Attention机制
人人都能读懂的大模型入门指南 - Transformer与Attention机制
|
8月前
|
机器学习/深度学习 计算机视觉
YOLOv10实战:SPPF原创自研 | SPPF_attention,重新设计加入注意力机制 | NEU-DET为案列进行展开
【7月更文挑战第1天】 优点:为了利用不同的池化核尺寸提取特征的方式可以获得更多的特征信息,提高网络的识别精度; 如何优化:在此基础上加入注意力机制,能够在不同尺度上更好的、更多的获取特征信息,从而获取全局视角信息并减轻不同尺度大小所带来的影响; SPPF_attention,重新设计加入注意力机制 ,在NEU-DEU任务中mAP50从0.683提升至0.703;
805 3
|
10月前
|
机器学习/深度学习 Python
【初窥CBAM】实操版即插即用的注意力机制模块
【初窥CBAM】实操版即插即用的注意力机制模块
320 0
【初窥CBAM】实操版即插即用的注意力机制模块
|
10月前
|
机器学习/深度学习 编解码 自然语言处理
【VIT】小白入门篇:从各个角度认识Vision Transformer
【VIT】小白入门篇:从各个角度认识Vision Transformer
560 0
【VIT】小白入门篇:从各个角度认识Vision Transformer
|
机器学习/深度学习 编解码 自然语言处理
Transformer 系列| Transformer又搞事情!TransReID首次在ReID中应用,结果喜人(文末获取论文)(一)
Transformer 系列| Transformer又搞事情!TransReID首次在ReID中应用,结果喜人(文末获取论文)(一)
514 0
Transformer 系列| Transformer又搞事情!TransReID首次在ReID中应用,结果喜人(文末获取论文)(一)
|
机器学习/深度学习 编解码 自然语言处理
大道至简 | 设计 ViT 到底怎么配置Self-Attention才是最合理的?(一)
大道至简 | 设计 ViT 到底怎么配置Self-Attention才是最合理的?(一)
149 0
|
计算机视觉
Transformer 系列| Transformer又搞事情!TransReID首次在ReID中应用,结果喜人(文末获取论文)(二)
Transformer 系列| Transformer又搞事情!TransReID首次在ReID中应用,结果喜人(文末获取论文)(二)
173 0
|
编解码 并行计算 计算机视觉
最佳Backbone | RepVGG重镇VGG雄风,各大任务独占鳌头(附源码和论文下载)(二)
最佳Backbone | RepVGG重镇VGG雄风,各大任务独占鳌头(附源码和论文下载)(二)
126 0
|
算法 文件存储 计算机视觉
最佳Backbone | RepVGG重镇VGG雄风,各大任务独占鳌头(附源码和论文下载)(一)
最佳Backbone | RepVGG重镇VGG雄风,各大任务独占鳌头(附源码和论文下载)(一)
163 0