全新数据增强 | TransMix 超越Mix-up、Cut-mix方法让模型更加鲁棒、精度更高(二)

简介: 全新数据增强 | TransMix 超越Mix-up、Cut-mix方法让模型更加鲁棒、精度更高(二)

4实验与分析


4.1 分类实验

image.png表1

如表1所示,对于所有列出的模型,TransMix可以稳步提高ImageNet上的top-1精度。无论模型有多复杂,TransMix总是可以帮助提高基准性能。

请注意,这些模型具有广泛的模型复杂性,并且Baseline都经过各种数据增强技术(如RandAug, Mixup和CutMix)的仔细调整。

其中,TransMix可以将DeiT-S的top-1准确率提高0.9%。得益于更高的关注质量,TransMix还可以将XCiT-L的top-1精度提高0.9%。

与模型上的结构修改相比,这些仅在数据增强上进行微小调整的系统改进是重要的。例如,CrossViT-B相比DeiT-B只提高了0.4%但是却带来了额外的20.9%的参数开销,而TransMix在无参数的情况下就可以达到。

特别是,TransMix的base/large变体的增幅在0.6%至0.9%之间,这比设计新的架构(如PiT-B、T2T-24、crossvitb)的增幅(分别为0.2%、0.5%和0.4%)更为惊人。

4.2 下游任务的提升

1、语义分割

image.png表2

根据表2,TransMix预训练DeiT-SLinear和DeiT-S-Segmenter比预训练Baseline分别提高0.6%和0.9%的mIoU。在多尺度测试方面有了持续的改进。

2、目标检测和实例分割

image.png表3

如表3所示,在不引入额外参数的情况下,使用Transmix预训练Backbone初始化的检测器比Cutmix预训练Backbone提高了0.5% Box AP和0.6% Mask AP。

请注意,基于正则化的Backbone预训练对改善下游目标检测的能力有限。例如,最近的Mixup变体Saliency-Mix在更小的检测数据集上仅比Cutmix预先训练的模型提高了0.16%的Box AP。

4.3 鲁棒性分析

1、遮挡鲁棒性

Naseer等人研究了ViT是否在部分或大部分图像内容缺失的闭塞场景下表现强劲。具体来说,vision transformer将一幅图像划分为M=196个patch,这些patch属于一个14×14的空间网格;即一幅大小为224×224×3的图像被分割成196个16×16×3大小的patch。Patch Dropping是指用空白的0值patch替换原来的图像patch。

例如,从输入中删除100个这样的patch相当于丢失51%的图像内容。作者展示了ImageNet-1k验证集上的分类精度,使用3个操作:

  1. Random Patch Dropping:随机选取M个Patch中的一个子集进行dropped;
  2. Salient (foreground) Patch Dropping:研究vit对高度显著区域遮挡的鲁棒性。Naseer等人通过阈值来获取DINO的注意力图中显著patch,显著patch被比率降低;
  3. Non-salient (background) Patch Dropping:用同样的方法对图像中最不显著的区域进行选择和删除。

图3

如图3所示,使用TransMix的DeiT-S在所有遮挡水平上都优于普通DeiT-S,特别是在极端遮挡(信息丢失率>0.7)。

2、空间结构Shuffle的敏感性

作者通过对输入图像块进行变换来研究模型对空间结构的灵敏度。具体来说,随机打乱不同网格大小的图像patch。注意,Shuffle Grid大小为1表示没有shuffle,Shuffle Grid大小为196表示所有patch token都进行了shuffle。

图4

图4显示了相对于Baseline的一致改进,TransMix-DeiT-S和DeiT-S在所有打乱网格尺寸上的平均准确率分别为62.8%和58.4%。优越的4.2%增益表明,TransMix使transformer能够更少地依赖位置嵌入来保存信息最丰富的分类上下文。

3、自然对抗的例子

image.png

4.4 TransMix和Attention的相互作用

1、TransMix是否有利于Attention?

为了评价注意力矩阵的质量,直接对DeiT-S的分类注意力A进行阈值划分,得到二元注意力掩码,然后进行两项任务:

  1. 在基于Pascal VOC 2012上进行弱监督自动分割。
  2. 在ImageNet-1k验证集上进行弱监督对象定位(WOSL),其中边界框仅用于求值。

对于任务(1),在PASCAL-VOC12标记集上计算GT和二元注意力掩模之间的Jaccard相似性。

对于task(2),与基于cam的cnn方法不同,作者直接从二元注意力掩模生成一个BBox,并与之进行比较ImageNet-1k上的ground-truth边界框。这两个任务都是弱监督的,因为训练模型只使用类级别的ImageNet标签(即既不使用Box监督目标定位,也不使用逐像素监督分割)。

将由TransMix-DeiT-S或香草DeiT-S生成的注意力Mask与这两个的ground-truth进行比较。评估的分数可以定量的帮助了解TransMix是否对注意力图的质量有积极的影响。

2、更好的Attention能滋养TransMix吗?

以上实验证明,TransMix对注意力图有一定的益处,那不禁要问,更好的注意力图是否也能滋养TransMix?

假设使用的注意力图越好,TransMix对混合目标分配的调整就越准确。例如,Dino证实,通过自监督训练从模型中获得的注意力图保留了更高的质量。

为了验证更好的注意力图是否有助于TransMix,作者设计了一个实验,用从参数冻结的外部模型生成的注意力图代替注意力图。外部参数冻结模型可以是:

  1. Dino自监督预训练DeiT-S
  2. 在ImageNet-1k上监督训练的DeiT-S
  3. Deit-S,通过ImageNet-1k上的知识蒸馏设置进行监督训练

然而,表6显示的结果与假设相反。

image.png

4.5 泛化性研究

image.png

以上的3个模型均为相同的28.3M参数。TransMix-CA-Swin-T和CA-Swin-T的FLOPs比baseline Swin-T低7%。Swin-T、CASwin-T和TransMix-CA-Swin-T的top-1验证精度分别提升到了81.3%、81.6%和81.8%。在Swin-S上的TransMix提高了性能,同时也减少了FLOPs。初步的研究证明了TransMix的可推泛化性。

4.6 Mixup变体的对比

image.png表8

表8显示TransMix显著优于所有其他Mixup变体。与传统的CutMix相比,基于显著性的方法(如Saliency-Mix和Puzzle-Mix)并没有显示出Vision Transformer的优势。作者分析说,这些方法是笨重的调整和面临困难的转移到新的架构。

例如,Attentive-CutMix不仅带来了额外的时间,还带来了参数开销,因为它引入了一个外部模型来提取显著性映射。Puzzle-Mix在一次训练迭代中前进和后退两次的速度是最低的。相比之下,TransMix以最高的训练吞吐量和无参数开销获得了惊人的2.1%的性能提升。

4.7 消融实验研究

image.png表10

DeiT-S作为Backbone,其参数数量与ResNet-50相似。从表10中可以看出,Saliency-Mix和Puzzle-Mix在ResNet-50上最多只比CutMix提高了0.2%,而在DeiT-S上却没有任何进步。

4.8 可视化


5参考


[1].TransMix: Attend to Mix for Vision Transformers

相关文章
|
6月前
|
自然语言处理 异构计算
ICLR 2024 Poster:精确且高效的大语言模型低比特量化方法 QLLM
【2月更文挑战第24天】ICLR 2024 Poster:精确且高效的大语言模型低比特量化方法 QLLM
164 3
ICLR 2024 Poster:精确且高效的大语言模型低比特量化方法 QLLM
|
6月前
|
算法
基于R语言混合效应模型(mixed model)案例研究
基于R语言混合效应模型(mixed model)案例研究
|
6月前
|
人工智能
【Mixup】探索数据增强技术:深入了解Mixup操作
【Mixup】探索数据增强技术:深入了解Mixup操作
631 0
|
机器学习/深度学习 编解码 固态存储
超轻目标检测 | 超越 NanoDet-Plus、YOLOv4-Tiny实时性、高精度都是你想要的!
超轻目标检测 | 超越 NanoDet-Plus、YOLOv4-Tiny实时性、高精度都是你想要的!
755 0
超轻目标检测 | 超越 NanoDet-Plus、YOLOv4-Tiny实时性、高精度都是你想要的!
|
3月前
|
机器人 人机交互 语音技术
语音情感基座模型emotion3vec 问题之什么是帧级别损失,如何计算
语音情感基座模型emotion3vec 问题之什么是帧级别损失,如何计算
|
6月前
基于R语言混合效应模型(mixed model)案例研究-1
基于R语言混合效应模型(mixed model)案例研究
|
6月前
|
算法
基于R语言混合效应模型(mixed model)案例研究-2
基于R语言混合效应模型(mixed model)案例研究
|
6月前
【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例(二)
【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例
|
6月前
【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例(四)
【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例
|
6月前
|
机器学习/深度学习 数据可视化 数据挖掘
【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例(一)
【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例
下一篇
无影云桌面