【让模型更加谦虚】Adaptive Label Smoothing方法让模型结果更加鲁棒

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 【让模型更加谦虚】Adaptive Label Smoothing方法让模型结果更加鲁棒

1、简介


本文讨论了利用客观度量的方法来提高卷积神经网络(CNN)的校准性能。客观性是指在给定图像中存在来自任何类别的物体的可能性度量。大家应该都知道CNN是一个已经被证明是非常好用的分类器,它可以做到很好地定位目标对象。但是,就目前的研究进展来看,用于训练分类CNN的损失函数不会惩罚无法定位对象的问题,也不会考虑给定图像中对象的相对大小。

本位币提出了一种新颖的物体定位方法,该方法结合了训练时的客观性和标签平滑化的思想。并可以根据图像内的相对物体大小计算自适应的平滑因子。文中使用ImageNet和OpenImages数据集做了多组实验并给出对比结果以证明与使用hard targets训练的CNN相比,使用自适应标签平滑训练的CNN模型在预测中不太可能过于自信。同时还使用类激活图来显示定性结果,以说明这些改进的有效性。


2、本文方法


2.1、问题分析

现代cnn对自己的预测过于自信,而且由于校准的错误存在,模型都面临着可靠性问题。为了提高泛化性能,对带标记数据的需求越来越大,因为在神经网络中增加参数的数量常常会导致训练数据过拟合,同时获得一个基数大同时带标记数据集非常昂贵。很多研究者也提出了很多对应的方案,比如正则化、标签平滑等;这里正则化是为了提高网络神经网络泛化和最小化过拟合特性。标签平滑,在训练期间提供硬目标的加权平均和均匀分布的软标签,以提高学习速度和泛化性能。

在分类CNN的情况下,Ground-Truth通常作为类概率的One-Hot表示提供。这些标签由0和1组成。1表示给定标签向量中相关类别,0则表示不是该类别。然而软目标不提供硬目标来计算交叉熵损失,而是使用一个固定的平滑因子在所有类上均匀分布的加权平均来改善训练信号。标签平滑可以最小化类间的Gap,提升了学习速度和泛化性;相反,Hard Targets往往会增加对数的值,并产生过于自信的预测。

image.png

2.2、Proposed Method

这里给出软标签Sotf Label的公式如下:

image.png

上式中,表示标签的One-Hot编码,这里的image.png,表示模型的参数权重;image.png,K表示K个类别。

本文的方法的新颖之处在于使其自适应,根据给定训练图像中物体的相对大小来计算值。使用数据集中图像可用的边界框生成对象Mask。还探索了自适应标签平滑和硬标签的加权组合。为了做到这一点引入参数来确定应用自适应标签平滑的程度。具体公式如下:

image.png

从上式可以看出,当时,为Hard Label;当时,为Soft Label;image.png


3、实验结果


作者针对不同的任务和数据集分别给出了激活图和表格进行说明:

image.png


4、总结


实验证明了方法的有效性,同时得出增加的值可以帮助减少模型的过度自信,并产生与标签平滑和硬标签设置相比较少“峰值”的预测。通过改变超参数的值可以观察到另一个有趣的趋势。随着value值的降低,过度自信率也随之增加到1。

更为详细内容可以参见论文中的描述。

相关文章
|
8月前
|
算法
基于R语言混合效应模型(mixed model)案例研究
基于R语言混合效应模型(mixed model)案例研究
|
6月前
|
Python
Fama-French模型,特别是三因子模型(Fama-French Three-Factor Model)
Fama-French模型,特别是三因子模型(Fama-French Three-Factor Model)
|
8月前
基于R语言混合效应模型(mixed model)案例研究-1
基于R语言混合效应模型(mixed model)案例研究
|
8月前
|
算法
基于R语言混合效应模型(mixed model)案例研究-2
基于R语言混合效应模型(mixed model)案例研究
|
8月前
|
机器学习/深度学习 数据可视化 数据挖掘
【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例(一)
【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例
|
8月前
|
数据可视化 测试技术
【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例(三)
【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例
|
8月前
|
机器学习/深度学习 5G 知识图谱
视觉Backbone怎么使用1/8的FLOPs实现比Baseline更高的精度?
视觉Backbone怎么使用1/8的FLOPs实现比Baseline更高的精度?
82 0
|
算法 数据挖掘
简单涨点 | Flow-Mixup: 对含有损坏标签的多标签医学图像进行分类(优于Mixup和Maniflod Mixup)(二)
简单涨点 | Flow-Mixup: 对含有损坏标签的多标签医学图像进行分类(优于Mixup和Maniflod Mixup)(二)
186 1
|
机器学习/深度学习 算法 前端开发
简单涨点 | Flow-Mixup: 对含有损坏标签的多标签医学图像进行分类(优于Mixup和Maniflod Mixup)(一)
简单涨点 | Flow-Mixup: 对含有损坏标签的多标签医学图像进行分类(优于Mixup和Maniflod Mixup)(一)
253 1
|
机器学习/深度学习 算法 自动驾驶
改进YOLOX | Push-IOU+Dynamic Anchor进一步提升YOLOX性能
改进YOLOX | Push-IOU+Dynamic Anchor进一步提升YOLOX性能
202 0

热门文章

最新文章