- MixMo[18]
MixMo
侧重于通过子网络学习多输入多输出。该方法的主要动机是采用更可靠的机制代替直接的隐藏求和操作。MixMo 的具体做法是将 M 个输入嵌入到共享空间中,将它们混合并将它们传递到更深的层进行分类。
This image shows the overview of MixMo augmentation
- StyleMix[19]
StyleMix
针对以前的方法问题,即不区分内容和样式特征。为了解决这个问题提出了两种方法 styleMix 和 StyleCutMix,这是第一个非常详细地分别处理图像的内容和样式特征的工作,并且它在流行的基准数据集上显示出令人印象深刻的性能。
A Visual comparison of StyleMix and StyleCutMix with Mixup and CutMix
- RandomMix[20]
RandomMix
可用于提高模型的泛化能力,它从一组增强中随机选择混合增强并将其应用于图像,使模型能够查看不同的样本。整体演示如下图所示:
An illustrative example of RandomMix
- MixMatch[21]
MixMatch
是一种应用于半监督学习的数据增强技术,其将单个图像增加 K 次并将所有 K 个图像传递给分类器,对它们的预测进行平均,最后,通过调整它们的分布温度项来增强它们的预测。
Diagram of the label guessing process used in MixMatch
- ReMixMatch[22]
ReMixMatch
是混合匹配的扩展,通过引入分布对齐和增强锚定使先前的工作变得高效。分布对齐任务是使未标记数据的预测边缘分布接近 ground truth 的边缘分布,并鼓励未标记数据的预测边缘分布接近 ground truth 标签的边缘分布。增强锚定将输入的多个强增强版本提供给模型,并鼓励每个输出接近同一输入的弱增强版本的预测。
ReMixMatch
ReMixMatch 使用弱增强图像(中间绿色部分)的预测来预测同一图像(图中蓝色部分)的强增强。
- FixMatch[23]
FixMatch
通过在有限的标记数据上进行训练,然后使用经过训练的模型将标签分配给未标记数据。Fixmatch 首先将伪标签分配给概率高于某个阈值的未标记图像。该模型被迫对未标记图像的强增强版本进行预测,以使用交叉熵损失将其预测与伪标签相匹配。
FixMatch
- AugMix[24]
AugMix
是一种简单有效的数据增强,可减少训练和测试(未见)数据分布之间的差距。AugMix 操作以相应的随机增强幅度执行,最后,所有这些图像被合并以生成一个新图像,该图像广泛探索图像周围语义等效的输入空间。
AugMix
如上图所示,在三个分支中分别进行了三个操作,最后,将所有图像混合生成新图像,这有利于提升模型的鲁棒性。
- Copy-Paste[25]
Copy-Paste]
只是将一个图像的掩码实例复制并粘贴到另一个图像,其实现起来非常简单,但效果出众,特别是对于小目标检测来说。当然,我们也可以采用 BBox 级的实例来实现。
Copy-Paste
上图展示了两个图像的实例以不同的比例相互粘贴。
- Mixed-Example[26]
如今,最先进的非标签保留数据增强技术已经使用两个示例的线性组合显示出有希望的结果。Mixed-Example
集中讨论两个问题:
- 为什么这些方法有效?
- 若通过提出新的增强,这种线性组合重要吗?
Mixed-Example
上图给出了改进的混合示例执行的线性方法和广义增强的视觉比较。
- RICAP[27]
RICAP
,即随机图像裁剪和修补,是一种新的数据增强技术,它切割和混合四张图像而不是两张图像,并且图像的标签也被混合。
A conceptual explanation of the RICAP data augmentation
- CutBlur[28]
CutBlur
探索和分析了现有的超分辨率数据增强技术,并提出了另一种新的数据增强技术,通过切割高分辨率图像块并粘贴到相应的低分辨率图像,反之亦然。Cutblur 在超分辨率方面表现出色。
A visual comparison between High resolution, low resolution and CutBlur
下面是它的实现原理示意图:
An Schematic illustration of CutBlur operation
- ResizeMix[29]
ResizeMix
是一种将数据与保留的对象信息和真实标签混合的数据增强方法,其通过直接以四种不同的方式剪切和粘贴源数据以针对图像。这里,四种不同的方式,包括显着部分、非部分、随机部分或调整源图像大小来修补,它主要解决了两个问题: • 如何从源图像中获取补丁? • 将源图像的补丁粘贴到目标图像的什么位置?
ResizeMix
此外,ResizeMix 发现显着性信息对于促进混合数据扩充并不重要。
- ClassMix[30]
ClassMix
是一种用于半监督学习的基于分割的数据增强方法。传统的数据增强对语义分割并不像图像分类那样有效。ClassMix 通过在考虑对象边界的同时利用网络预测,通过混合未标记样本来扩充训练样本。
ClassMix
- CDA[31]
CDA
,即 Context Decoupling Augmentation
,是一种用于弱监督语义分割的上下文解耦增强技术,从而解决 WSSS 领域传统数据技术性能不佳的问题,这些通过增加相同上下文数据语义样本不会在对象区分中贡献太多价值。例如,对于图像分类任务来说,目标识别是由于目标本身及其周围环境,这不鼓励模型只关注当前目标,而要结合上下文。
为了打破这一点,CAD 使特定对象出现的位置多样化,并引导网络打破对象和上下文信息之间的依赖关系。在这种情况下,它还提供增强和网络焦点到对象实例而不是对象实例和上下文信息的方式。
CDA
- ObjectAug[32]
ObjectAug
是一种用于语义分割的对象级增强,解决了混合图像级数据增强策略的问题,以前的策略无法用于分割,因为对象和背景是耦合的,其次对象的边界由于它们与背景的固定语义联系而没有被增强。为了缓解这个问题,首先,它借助语义标签将对象和背景从图像中分离出来,然后使用翻转和旋转等流行的数据增强技术对每个对象进行增强。由于这些数据增强而导致的像素变化可以使用图像修复来恢复。最后,对象和背景耦合以创建增强图像,从而有效的提升分割的性能。
ObjectAug
高级数据增强
高级数据增强的一个典型代表便是自动数据增强,其目标是从训练数据中找到数据增强策略。它将寻找最佳增强策略的问题转化为离散搜索问题,由搜索算法和搜索空间组成,主要包含四部分:
- 基于强化学习的数据增强(
Reinforcement learning data augmentation
) - 基于非强化学习的数据增强(
Non-Reinforcement learning data augmentation
) - 基于风格迁移的数据增强(
Neural Style Transfer
) - 基于特征空间的数据增强(
Feature space data augmentations
)
下面简单介绍下这两部分。
基于强化学习的数据增强
- AutoAugment[33]
AutoAugment
的目标是通过自动搜索策略找到最好的数据扩充而不是通过手动进行数据扩充。为了解决这个限制,其设计了搜索空间并具有由许多子策略组成的策略。每个子策略都有两个参数,一个是图像处理函数,第二个是概率和大小。这些子策略是使用强化学习作为搜索算法找到的,整体流程如下所示:
AutoAugment
- Fast Autoaugment[34]
Fast Autoaugment
解决了 AutoAugment 需要花费大量时间才能找到最佳的数据增强策略的问题。该方法的解决方案是通过利用基于密度匹配的高效搜索策略找到更优的数据扩充,从而减少了高阶训练时间。
An overall procedure of augmentation search by Fast AutoAugment algorithm
- Faster AutoAugment[35]
Faster AutoAugment
旨在非常高效地找到有效的数据增强策略,其基于可区分的增强搜索策略。此外,它不仅为许多具有离散参数的转换操作估计梯度,而且还提供了一种有效选择操作的机制。最终,它引入了一个训练目标函数,旨在最小化原始分布和增广分布之间的距离,该函数也是可微的。需要注意的是,其增强的参数是在反向传播期间更新的,整体流程图定义如下:
An Overview of the Faster AutoAugment augmentation