大道至简 | 设计 ViT 到底怎么配置Self-Attention才是最合理的?(二)

简介: 大道至简 | 设计 ViT 到底怎么配置Self-Attention才是最合理的?(二)

3实验


3.1 消融实验

1、Effect of the architecture design

表 2

结果如表 2 所示。总的来说,LIT在使用更少的 FLOP(3.6G 与 3.8G)的同时,将PVT-S的Top-1精度提高了0.6%。对于Swin-Ti将 FLOPs 减少了0.4G,同时实现了同等性能。

还值得注意的是,PVT-SSwin-Ti 的参数总数都减少了。整体性能证明了所提出架构的有效性,这也强调了早期MSAPVTSwin中的微小优势。

2、Effect of deformable token merging

表 3

结果如表 3 所示。对于这2个模型,DTM 引入了可忽略的 FLOP 和参数,同时在 Top-1 精度方面分别将 PVT-S 和 Swin-Ti 提高了 0.7% 和 0.3%。

图 2

此外,在图 2 中可视化了学习到的偏移量。如图所示,与之前的统一Patch Merge策略不同,之前的统一Patch Merge策略将采样位置限制在绿色矩形内,DTM 根据对象的比例和形状(例如,考拉腿、猫尾巴)。这再次强调了LIT适应各种几何变换的能力。

3、Effect of MSA in each stage

结果如表4所示。首先,在用标准MSA层替换PVT-S中的SRA层后,观察到 Top-1 准确度提高了1.1%,而FLOPs几乎翻了一番。这表明PVT在性能和效率之间进行了权衡。

接下来,通过在前2个阶段逐步去除MSA层,Top-1准确率仅分别下降了0.1%、0.5%。这意味着 PVT 早期阶段的self-attention层对最终性能的贡献低于预期,并且它们的性能并不比纯MLP层好多少。这可以归因于浅层更多地关注编码局部信息的事实。

然而,可以观察到在最后2个阶段移除self-attention时性能大幅下降。结果表明,self-attention层在后期发挥着重要作用,捕获长距离依赖对于表现良好的分层视觉Transformer至关重要。

图 3

为了更好地理解这一现象,在不移除任何MSA层的情况下可视化PVT-S的注意力概率,如图3所示。首先,第1阶段的注意力图显示query像素几乎不注意其他位置。

在第2阶段,query像素的感受野略有扩大,但与第1阶段相似。考虑到PVT-S在第1阶段只有1个head,在第2阶段只有2个head,这有力地支持了作者的假设:MSA层中过少的head会导致较小的感受野,此时self-attention几乎等同于FC层。

此外,从最后2个阶段的注意力图中观察到相对较大的感受野。由于大的感受野通常有助于对更长的依赖关系进行建模,这解释了在最后2个阶段移除MSA层后表4中的巨大性能下降。

3.2 分类

3.3 目标检测

3.4 实例分割

3.5 语义分割


4参考


[1].Less is More: Pay Less Attention in Vision Transformers


5推荐阅读


分割冠军 | 超越Swin v2、PvT v2等模型,ViT-Adaptiver实现ADE20K冠军60.5mIoU

DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作

Sparse R-CNN升级版 | Dynamic Sparse R-CNN使用ResNet50也能达到47.2AP

相关文章
|
机器学习/深度学习 编解码 数据可视化
【即插即用】涨点神器AFF:注意力特征融合(已经开源,附论文和源码链接)
【即插即用】涨点神器AFF:注意力特征融合(已经开源,附论文和源码链接)
3062 1
|
机器学习/深度学习 网络架构 计算机视觉
UNet详细解读(一)论文技术要点归纳
UNet详细解读(一)论文技术要点归纳
284 0
|
4月前
|
机器学习/深度学习 算法 网络架构
神经网络架构殊途同归?ICML 2024论文:模型不同,但学习内容相同
【8月更文挑战第3天】《神经语言模型的缩放定律》由OpenAI研究人员完成并在ICML 2024发表。研究揭示了模型性能与大小、数据集及计算资源间的幂律关系,表明增大任一资源均可预测地提升性能。此外,论文指出模型宽度与深度对性能影响较小,较大模型在更多数据上训练能更好泛化,且能高效利用计算资源。研究提供了训练策略建议,对于神经语言模型优化意义重大,但也存在局限性,需进一步探索。论文链接:[https://arxiv.org/abs/2001.08361]。
55 1
|
5月前
|
机器学习/深度学习 计算机视觉
YOLOv10实战:SPPF原创自研 | SPPF_attention,重新设计加入注意力机制 | NEU-DET为案列进行展开
【7月更文挑战第1天】 优点:为了利用不同的池化核尺寸提取特征的方式可以获得更多的特征信息,提高网络的识别精度; 如何优化:在此基础上加入注意力机制,能够在不同尺度上更好的、更多的获取特征信息,从而获取全局视角信息并减轻不同尺度大小所带来的影响; SPPF_attention,重新设计加入注意力机制 ,在NEU-DEU任务中mAP50从0.683提升至0.703;
690 3
|
机器学习/深度学习 自然语言处理
深度剖析Transformer核心思想 "Attention Is All You Need"
深度剖析Transformer核心思想 "Attention Is All You Need"
265 1
|
7月前
|
机器学习/深度学习 编解码 自然语言处理
【VIT】小白入门篇:从各个角度认识Vision Transformer
【VIT】小白入门篇:从各个角度认识Vision Transformer
455 0
【VIT】小白入门篇:从各个角度认识Vision Transformer
|
机器学习/深度学习 算法 大数据
Vision Transformer 必读系列之图像分类综述(三): MLP、ConvMixer 和架构分析(下)
在 Vision Transformer 大行其道碾压万物的同时,也有人在尝试非注意力的 Transformer 架构(如果没有注意力模块,那还能称为 Transformer 吗)。这是一个好的现象,总有人要去开拓新方向。相比 Attention-based 结构,MLP-based 顾名思义就是不需要注意力了,将 Transformer 内部的注意力计算模块简单替换为 MLP 全连接结构,也可以达到同样性能。典型代表是 MLP-Mixer 和后续的 ResMLP。
1171 0
Vision Transformer 必读系列之图像分类综述(三): MLP、ConvMixer 和架构分析(下)
|
机器学习/深度学习 编解码 自然语言处理
Transformer 系列| Transformer又搞事情!TransReID首次在ReID中应用,结果喜人(文末获取论文)(一)
Transformer 系列| Transformer又搞事情!TransReID首次在ReID中应用,结果喜人(文末获取论文)(一)
438 0
Transformer 系列| Transformer又搞事情!TransReID首次在ReID中应用,结果喜人(文末获取论文)(一)
|
网络架构 计算机视觉
UNet++详细解读(一)论文技术要点归纳
UNet++详细解读(一)论文技术要点归纳
364 0
|
机器学习/深度学习 编解码 自然语言处理
大道至简 | 设计 ViT 到底怎么配置Self-Attention才是最合理的?(一)
大道至简 | 设计 ViT 到底怎么配置Self-Attention才是最合理的?(一)
136 0