【让模型更加谦虚】Adaptive Label Smoothing方法让模型结果更加鲁棒-阿里云开发者社区

【让模型更加谦虚】Adaptive Label Smoothing方法让模型结果更加鲁棒

2023-05-18 236

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

交互式建模 PAI-DSW，每月250计算时 3个月

模型训练 PAI-DLC，100CU*H 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

简介： 【让模型更加谦虚】Adaptive Label Smoothing方法让模型结果更加鲁棒

1、简介

本文讨论了利用客观度量的方法来提高卷积神经网络(CNN)的校准性能。客观性是指在给定图像中存在来自任何类别的物体的可能性度量。大家应该都知道CNN是一个已经被证明是非常好用的分类器，它可以做到很好地定位目标对象。但是，就目前的研究进展来看，用于训练分类CNN的损失函数不会惩罚无法定位对象的问题，也不会考虑给定图像中对象的相对大小。

本位币提出了一种新颖的物体定位方法，该方法结合了训练时的客观性和标签平滑化的思想。并可以根据图像内的相对物体大小计算自适应的平滑因子。文中使用ImageNet和OpenImages数据集做了多组实验并给出对比结果以证明与使用hard targets训练的CNN相比，使用自适应标签平滑训练的CNN模型在预测中不太可能过于自信。同时还使用类激活图来显示定性结果，以说明这些改进的有效性。

2、本文方法

2.1、问题分析

现代cnn对自己的预测过于自信，而且由于校准的错误存在，模型都面临着可靠性问题。为了提高泛化性能，对带标记数据的需求越来越大，因为在神经网络中增加参数的数量常常会导致训练数据过拟合，同时获得一个基数大同时带标记数据集非常昂贵。很多研究者也提出了很多对应的方案，比如正则化、标签平滑等；这里正则化是为了提高网络神经网络泛化和最小化过拟合特性。标签平滑，在训练期间提供硬目标的加权平均和均匀分布的软标签，以提高学习速度和泛化性能。

在分类CNN的情况下，Ground-Truth通常作为类概率的One-Hot表示提供。这些标签由0和1组成。1表示给定标签向量中相关类别，0则表示不是该类别。然而软目标不提供硬目标来计算交叉熵损失，而是使用一个固定的平滑因子在所有类上均匀分布的加权平均来改善训练信号。标签平滑可以最小化类间的Gap，提升了学习速度和泛化性；相反，Hard Targets往往会增加对数的值，并产生过于自信的预测。