【让模型更加谦虚】Adaptive Label Smoothing方法让模型结果更加鲁棒

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 【让模型更加谦虚】Adaptive Label Smoothing方法让模型结果更加鲁棒

1、简介


本文讨论了利用客观度量的方法来提高卷积神经网络(CNN)的校准性能。客观性是指在给定图像中存在来自任何类别的物体的可能性度量。大家应该都知道CNN是一个已经被证明是非常好用的分类器,它可以做到很好地定位目标对象。但是,就目前的研究进展来看,用于训练分类CNN的损失函数不会惩罚无法定位对象的问题,也不会考虑给定图像中对象的相对大小。

本位币提出了一种新颖的物体定位方法,该方法结合了训练时的客观性和标签平滑化的思想。并可以根据图像内的相对物体大小计算自适应的平滑因子。文中使用ImageNet和OpenImages数据集做了多组实验并给出对比结果以证明与使用hard targets训练的CNN相比,使用自适应标签平滑训练的CNN模型在预测中不太可能过于自信。同时还使用类激活图来显示定性结果,以说明这些改进的有效性。


2、本文方法


2.1、问题分析

现代cnn对自己的预测过于自信,而且由于校准的错误存在,模型都面临着可靠性问题。为了提高泛化性能,对带标记数据的需求越来越大,因为在神经网络中增加参数的数量常常会导致训练数据过拟合,同时获得一个基数大同时带标记数据集非常昂贵。很多研究者也提出了很多对应的方案,比如正则化、标签平滑等;这里正则化是为了提高网络神经网络泛化和最小化过拟合特性。标签平滑,在训练期间提供硬目标的加权平均和均匀分布的软标签,以提高学习速度和泛化性能。

在分类CNN的情况下,Ground-Truth通常作为类概率的One-Hot表示提供。这些标签由0和1组成。1表示给定标签向量中相关类别,0则表示不是该类别。然而软目标不提供硬目标来计算交叉熵损失,而是使用一个固定的平滑因子在所有类上均匀分布的加权平均来改善训练信号。标签平滑可以最小化类间的Gap,提升了学习速度和泛化性;相反,Hard Targets往往会增加对数的值,并产生过于自信的预测。

image.png

2.2、Proposed Method

这里给出软标签Sotf Label的公式如下:

image.png

上式中,表示标签的One-Hot编码,这里的image.png,表示模型的参数权重;image.png,K表示K个类别。

本文的方法的新颖之处在于使其自适应,根据给定训练图像中物体的相对大小来计算值。使用数据集中图像可用的边界框生成对象Mask。还探索了自适应标签平滑和硬标签的加权组合。为了做到这一点引入参数来确定应用自适应标签平滑的程度。具体公式如下:

image.png

从上式可以看出,当时,为Hard Label;当时,为Soft Label;image.png


3、实验结果


作者针对不同的任务和数据集分别给出了激活图和表格进行说明:

image.png


4、总结


实验证明了方法的有效性,同时得出增加的值可以帮助减少模型的过度自信,并产生与标签平滑和硬标签设置相比较少“峰值”的预测。通过改变超参数的值可以观察到另一个有趣的趋势。随着value值的降低,过度自信率也随之增加到1。

更为详细内容可以参见论文中的描述。

相关文章
|
19天前
|
机器学习/深度学习 计算机视觉 Python
【YOLOv11改进 - 注意力机制】EMA(Efficient Multi-Scale Attention):基于跨空间学习的高效多尺度注意力
【YOLOv11改进 - 注意力机制】EMA(Efficient Multi-Scale Attention):基于跨空间学习的高效多尺度注意力.EMA(Efficient Multi-Scale Attention)模块是一种高效多尺度注意力机制,旨在提高计算机视觉任务中的特征表示效果。该模块通过结合通道和空间信息、采用多尺度并行子网络结构以及优化坐标注意力机制,实现了更高效和有效的特征表示。EMA模块在图像分类和目标检测任务中表现出色,使用CIFAR-100、ImageNet-1k、MS COCO和VisDrone2019等数据集进行了广泛测试。
【YOLOv11改进 - 注意力机制】EMA(Efficient Multi-Scale Attention):基于跨空间学习的高效多尺度注意力
|
5月前
|
机器学习/深度学习 计算机视觉
【YOLOv8改进】EMA(Efficient Multi-Scale Attention):基于跨空间学习的高效多尺度注意力 (论文笔记+引入代码)
YOLO目标检测专栏介绍了创新的多尺度注意力模块EMA,它强化通道和空间信息处理,同时降低计算负担。EMA模块通过通道重塑和并行子网络优化特征表示,增强长距离依赖建模,在保持效率的同时提升模型性能。适用于图像分类和目标检测任务,尤其在YOLOv8中表现出色。代码实现和详细配置可在文中链接找到。
|
6月前
|
数据可视化
R语言nlme、nlmer、lme4用(非)线性混合模型non-linear mixed model分析藻类数据实例(上)
R语言nlme、nlmer、lme4用(非)线性混合模型non-linear mixed model分析藻类数据实例
|
6月前
|
资源调度 安全
R语言nlme、nlmer、lme4用(非)线性混合模型non-linear mixed model分析藻类数据实例(下)
R语言nlme、nlmer、lme4用(非)线性混合模型non-linear mixed model分析藻类数据实例
|
6月前
【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例(二)
【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例
|
6月前
【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例(四)
【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例
|
6月前
|
数据可视化 测试技术
【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例(三)
【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例
|
6月前
|
机器学习/深度学习 数据可视化 数据挖掘
【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例(一)
【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例
|
6月前
|
机器学习/深度学习 5G 知识图谱
视觉Backbone怎么使用1/8的FLOPs实现比Baseline更高的精度?
视觉Backbone怎么使用1/8的FLOPs实现比Baseline更高的精度?
70 0
|
6月前
|
机器学习/深度学习 缓存 测试技术
Nice Trick | 不想标注数据了!有伪标签何必呢,Mixup+Mosaic让DINO方法再继续涨点
Nice Trick | 不想标注数据了!有伪标签何必呢,Mixup+Mosaic让DINO方法再继续涨点
209 0

热门文章

最新文章