方法
针对上述问题和相关工作,本文从概率视角出发,对分类损失函数中的温度调节因子和不确定度之间的关联进行分析,提出了 RTS 训练框架。
基于概率视角对温度调节因子进行分析
首先对温度调节因子和不确定度之间的关联进行分析。
设不确定度是符合标准 Gumbel 分布的随机变量,则概率密度函数可以写为,累积分布函数为,分类为 k 类的概率值为:
将 带入上式可以得到:
可以看到,分类为 k 类的概率值就是符合 softmax 函数的分值,同时我们可以用一个 t 来调节不确定度的尺度,即,则符合标准 Gumbel 分布:
可以看到,此时分类为 k 类的概率值就是符合带温度调节值为 t 的 softmax 函数的分值。
对温度进行建模
为了减少不确定度估计对分类的影响,温度 t 需要在 1 附近,因此我们把温度 t 建模为个独立 gamma 分布变量的和:
式中,这样 t 服从,\beta = \frac {\alpha - 1}{v})$ 分布。v 和对分布的影响如下图。
对温度建模的约束在训练中用下述的正则项实现
训练方式
整体的算法整理为:
更多详细的分析和理论证明请参见论文。
结果
在训练阶段,训练数据只包含 face 训练数据的。误检测的猫脸和狗脸的 OOD 数据,用来在测试时验证对 OOD 数据的识别效果和测试说明 OOD 样本不确定度在训练过程中不同阶段的动态过程。
训练阶段
我们画出了 in-distribution 数据(face)和 out-of-distribution 数据(误检测为 face 的猫脸和狗脸)在不同 epoch 数的不确定度分值,从下图可以看到初始阶段所有样本的不确定度分值都分布在较大值的附近,随着训练的进行,OOD 样本的不确定性逐渐升高,face 数据的不确定度逐渐降低,且 face 质量越好,不确定度就越低。通过设置阈值可以区分 ID 数据和 OOD 数据,且通过不确定度的分值反应图像质量。
为了说明在训练阶段对噪声训练数据的鲁棒性。本文对训练集施加不同比例的噪声,基于不同比例噪声训练数据的模型识别效果如下表,可以看到 RTS 对基于噪声数据的训练也能得到较好的识别效果。