4. 方法对比
4.1 与Mixup对比
正如在以前的工作中所讨论的,异常的特征可以是相关的,可能不是线性可分的。换句话说,异常的内在相关性可能与Mixup的线性约束相冲突。因此,用Mixup正则化训练多标签图像分类器可能会导致性能下降。
如图3所示,在将数据流形映射到满足Mixup线性约束的低维空间后,由于2类的边界不能处理这2类的数据,就会发生“Correlation conflicts”现象。与此相反,在Flow-Mixup中,异常的相关特征可以首先被非线性函数解耦为异常特有的特征,这些特征存在于线性可分空间中。
4.2 与Maniflod Mixup对比
Maniflod Mixup允许在训练过程中应用Mixup操作几个隐藏的状态。然而,这种Mixup操作不能同时进行。Maniflod Mixup在每次训练迭代中随机选择其中一种隐藏状态进行Mixing操作,因此存在以下2个缺点:
- 1、每次迭代的参数更新都会影响最终的参数。因此,很难确切地知道数据混合应用到一个隐藏状态的程度,由于Mixing操作是用概率来融合的。因此,也很难确定Mixing操作的超参数。
- 2、由于训练条件到隐藏状态(是否使用混合操作)是多变的,因此训练过程是不稳定的,存在“Distribution shift”现象。
“Distribution shift”是指客观特征分布发生变化。理想情况下,在隐藏状态上使用Mixing操作将限制特征存在于线性可分空间。然而,Maniflod Mixup不断将约束改变为隐藏状态,导致训练过程不稳定,性能下降。
为了观察模型训练中出现的“Distribution shift”现象,作者比较CIFAR-10训练集上的特征分布,如图所示:
在CIFAR-10的训练集上使用Mixing和不Mixing训练PreAct-ResNet-32模型。然后收集每个残差块的输出和模型输出。为了避免对分类结果的影响,对每个块输出和模型输出的收集特征使用k-means聚类算法(划分为k=10个类)。然后计算的平均值(类似于方差分析中的)来观察特征分布。,其中SSI为簇内平方和,SST为总平方和。表示来自群间方差的总方差的百分比。越高,簇的边界越清晰。定义如下:
其中C为簇个数,N为图像个数,为属于第C个簇的图像个数。是第j幅图像在第隐藏状态下的特征。表示一个数据在第i个隐藏状态下的特征尺寸,即,其中D、H、W分别为通道、高和宽。和分别表示第个隐藏状态下的数据平均特征和第个簇在第个隐藏状态下的数据平均特征。
从图4可以看出,使用Mixup学习到的特征的明显高于没有进行任何Mixing操作的特征。因此,在使用Manifold Mixup时,由于Mixing和不Mixing的客观特征分布有很大的不同,因此会产生“Distribution shift”现象。
5 实验
作者在ChestX-ray14数据集和阿里巴巴天池云大赛的2个心电图记录数据集上进行实验。
实验结论:
在CXR分类中最好表现、ECG分类的最佳表现。可以看出,Flow-Mixup在处理不同程度的标签损坏方面优于其他正则化方法。同时与其他正则化方法相比,Flow-Mixup方法的性能验证了Flow-Mixup方法的性能。
6 参考
[1].https://blog.csdn.net/sinat_36618660/article/details/101633504
[2].Manifold Mixup: Better Representations by Interpolating Hidden States
[3].Flow-Mixup: Classifying Multi-labeled Medical Images with Corrupted Labels