【让模型更加谦虚】Adaptive Label Smoothing方法让模型结果更加鲁棒

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 【让模型更加谦虚】Adaptive Label Smoothing方法让模型结果更加鲁棒

1、简介


本文讨论了利用客观度量的方法来提高卷积神经网络(CNN)的校准性能。客观性是指在给定图像中存在来自任何类别的物体的可能性度量。大家应该都知道CNN是一个已经被证明是非常好用的分类器,它可以做到很好地定位目标对象。但是,就目前的研究进展来看,用于训练分类CNN的损失函数不会惩罚无法定位对象的问题,也不会考虑给定图像中对象的相对大小。

本位币提出了一种新颖的物体定位方法,该方法结合了训练时的客观性和标签平滑化的思想。并可以根据图像内的相对物体大小计算自适应的平滑因子。文中使用ImageNet和OpenImages数据集做了多组实验并给出对比结果以证明与使用hard targets训练的CNN相比,使用自适应标签平滑训练的CNN模型在预测中不太可能过于自信。同时还使用类激活图来显示定性结果,以说明这些改进的有效性。


2、本文方法


2.1、问题分析

现代cnn对自己的预测过于自信,而且由于校准的错误存在,模型都面临着可靠性问题。为了提高泛化性能,对带标记数据的需求越来越大,因为在神经网络中增加参数的数量常常会导致训练数据过拟合,同时获得一个基数大同时带标记数据集非常昂贵。很多研究者也提出了很多对应的方案,比如正则化、标签平滑等;这里正则化是为了提高网络神经网络泛化和最小化过拟合特性。标签平滑,在训练期间提供硬目标的加权平均和均匀分布的软标签,以提高学习速度和泛化性能。

在分类CNN的情况下,Ground-Truth通常作为类概率的One-Hot表示提供。这些标签由0和1组成。1表示给定标签向量中相关类别,0则表示不是该类别。然而软目标不提供硬目标来计算交叉熵损失,而是使用一个固定的平滑因子在所有类上均匀分布的加权平均来改善训练信号。标签平滑可以最小化类间的Gap,提升了学习速度和泛化性;相反,Hard Targets往往会增加对数的值,并产生过于自信的预测。

image.png

2.2、Proposed Method

这里给出软标签Sotf Label的公式如下:

image.png

上式中,表示标签的One-Hot编码,这里的image.png,表示模型的参数权重;image.png,K表示K个类别。

本文的方法的新颖之处在于使其自适应,根据给定训练图像中物体的相对大小来计算值。使用数据集中图像可用的边界框生成对象Mask。还探索了自适应标签平滑和硬标签的加权组合。为了做到这一点引入参数来确定应用自适应标签平滑的程度。具体公式如下:

image.png

从上式可以看出,当时,为Hard Label;当时,为Soft Label;image.png


3、实验结果


作者针对不同的任务和数据集分别给出了激活图和表格进行说明:

image.png


4、总结


实验证明了方法的有效性,同时得出增加的值可以帮助减少模型的过度自信,并产生与标签平滑和硬标签设置相比较少“峰值”的预测。通过改变超参数的值可以观察到另一个有趣的趋势。随着value值的降低,过度自信率也随之增加到1。

更为详细内容可以参见论文中的描述。

相关文章
|
6天前
|
人工智能
【Mixup】探索数据增强技术:深入了解Mixup操作
【Mixup】探索数据增强技术:深入了解Mixup操作
111 0
|
机器学习/深度学习 PyTorch Go
YOLOv5的Tricks | 【Trick4】参数重结构化(融合Conv+BatchNorm2d)
这篇文章是想要记录yolov5在模型搭建过程中的一个融合模块,就是把卷积与批归一化的参数进行融合,想卷积带有批归一化的性质,使得推理过程中可以加快模型推理速度,简化整个模型结构,实现训练与推理两个阶段的解耦。
739 0
YOLOv5的Tricks | 【Trick4】参数重结构化(融合Conv+BatchNorm2d)
|
机器学习/深度学习 资源调度 监控
深度学习基础入门篇[六]:模型调优,学习率设置(Warm Up、loss自适应衰减等),batch size调优技巧,基于方差放缩初始化方法。
深度学习基础入门篇[六]:模型调优,学习率设置(Warm Up、loss自适应衰减等),batch size调优技巧,基于方差放缩初始化方法。
|
6天前
|
机器学习/深度学习 并行计算 数据可视化
Batch Size 对神经网络训练的影响
Batch Size 对神经网络训练的影响
17 0
|
6天前
|
机器学习/深度学习 缓存 测试技术
Nice Trick | 不想标注数据了!有伪标签何必呢,Mixup+Mosaic让DINO方法再继续涨点
Nice Trick | 不想标注数据了!有伪标签何必呢,Mixup+Mosaic让DINO方法再继续涨点
85 0
|
12月前
|
机器学习/深度学习 算法 自动驾驶
改进YOLOX | Push-IOU+Dynamic Anchor进一步提升YOLOX性能
改进YOLOX | Push-IOU+Dynamic Anchor进一步提升YOLOX性能
124 0
|
12月前
|
算法 数据挖掘
简单涨点 | Flow-Mixup: 对含有损坏标签的多标签医学图像进行分类(优于Mixup和Maniflod Mixup)(二)
简单涨点 | Flow-Mixup: 对含有损坏标签的多标签医学图像进行分类(优于Mixup和Maniflod Mixup)(二)
99 1
|
12月前
|
机器学习/深度学习 算法 前端开发
简单涨点 | Flow-Mixup: 对含有损坏标签的多标签医学图像进行分类(优于Mixup和Maniflod Mixup)(一)
简单涨点 | Flow-Mixup: 对含有损坏标签的多标签医学图像进行分类(优于Mixup和Maniflod Mixup)(一)
180 1
|
12月前
|
机器学习/深度学习 并行计算 计算机视觉
Shunted Self-Attention | 源于 PvT又高于PvT,解决小目标问题的ViT方法(一)
Shunted Self-Attention | 源于 PvT又高于PvT,解决小目标问题的ViT方法(一)
169 0
|
12月前
|
计算机视觉
Shunted Self-Attention | 源于 PvT又高于PvT,解决小目标问题的ViT方法(二)
Shunted Self-Attention | 源于 PvT又高于PvT,解决小目标问题的ViT方法(二)
64 0

相关实验场景

更多