带你理解对比学习损失函数的性质以及温度系数的作用(二)

简介: 带你理解对比学习损失函数的性质以及温度系数的作用(二)

三、均匀性-容忍性困境



基于对温度系数作用的探索,作者进而指出了对比学习存在的潜在问题,即均匀性-容忍性的困境。


对于温度系数来说,更小的温度系数更加关注困难样本,因此更容易形成均匀的表示空间,均匀的特征对于表示学习是十分重要的,具体可以见ICML2020的论文 <> 。但是另一方面,由于无监督学习中没有真正的类别标签,对比学习普遍将除本样本以外的所有其他样本作为负样本。


在这种情况下,与正样本相似度极高的负样本往往很可能是潜在的正样本。例如,与当前的苹果图片相似度最高的图片往往是另一个苹果,此时如果太注重困难负样本则会破坏网络经过一定训练后已经学到的语义信息,这种情况在训练后期尤其明显。随着训练的进行,网络获取到的信息越来越接近真实语义特性,那么此时的负样本更有可能是潜在的正样本,因此一个启示是可以随着迭代的次数增多而增大温度系数,这可能是作者以后的工作。于是作者认为,一个好的温度系数,应该是均匀性和容忍性的折衷。


34f60807e219b824ed6938be3d4fef63.png


作者对不同温度系数下的均匀性-容忍性进行了量化并可视化如上图。


四、实验验证



下图是实验对温度系数的验证,红色的box是正样本的相似度,而横坐标往右依次是与相似度最大的10个样本的相似度分布。可以发现,温度系数越小,正样本和最困难的负样本之间的相似度gap越大,这说明了越小的温度系数越倾向于把最困难的负样本分开。该实验支撑了之前的理论分析。


0b40d76a94c1505d805c80570754d156.png


另一方面,作者也对不同的数据集的最优温度系数进行了验证,下图绿色的柱子为对比损失随着温度系数的性能表现。此外,作者也验证了采取显式困难样本发现的对比损失,采取了显示的困难样本挖掘算法后,性能表现与温度系数的关联弱化,当温度系数高于一个合适的值时,该损失产生的模型性能基本保持稳定。


b05dc31b12438ab5349460d8ca91d732.png


五、总结



在本文中,作者试图了解无监督对比损失的一些具体的性质和行为。作者们首先分析出了对比损失是一种困难样本感知的损失函数。并且验证了困难样本感知的性质是对比损失的不可或缺的性质。不具备这种性质的损失函数,即使负样本非常多,性能还是会退化严重。此外作者们也深入研究了温度系数的作用,发现温度系数控制着对负样本感知程度。并接着提出了Uniformity-Tolerance Dilemma。总体来说,论文揭示了一些对比学习有用的性质和现象,相信本文会启发更多的研究者设计更好的损失以及算法。


相关文章
|
6月前
【视频】什么是非线性模型与R语言多项式回归、局部平滑样条、 广义相加GAM分析工资数据|数据分享(上)
【视频】什么是非线性模型与R语言多项式回归、局部平滑样条、 广义相加GAM分析工资数据|数据分享
|
1天前
|
算法
基于改进自适应分段线性近似(IAPLA)的微分方程数值解法研究: 从简单动力系统到混沌系统的应用分析
IAPLA方法为复杂动力系统的数值模拟提供了一个灵活、高效且易于实现的框架,在众多实际应用中可以作为现有数值求解器的有效替代方案。
10 2
基于改进自适应分段线性近似(IAPLA)的微分方程数值解法研究: 从简单动力系统到混沌系统的应用分析
|
6月前
R语言非线性方程数值分析生物降解、植物生长数据:多项式、渐近回归、米氏方程、逻辑曲线、Gompertz、Weibull曲线(下)
R语言非线性方程数值分析生物降解、植物生长数据:多项式、渐近回归、米氏方程、逻辑曲线、Gompertz、Weibull曲线
|
6月前
|
算法
R语言非线性方程数值分析生物降解、植物生长数据:多项式、渐近回归、米氏方程、逻辑曲线、Gompertz、Weibull曲线(上)
R语言非线性方程数值分析生物降解、植物生长数据:多项式、渐近回归、米氏方程、逻辑曲线、Gompertz、Weibull曲线
|
6月前
【视频】什么是非线性模型与R语言多项式回归、局部平滑样条、 广义相加GAM分析工资数据|数据分享(下)
【视频】什么是非线性模型与R语言多项式回归、局部平滑样条、 广义相加GAM分析工资数据|数据分享
|
6月前
|
Windows
R语言有状态依赖强度的非线性、多变量跳跃扩散过程模型似然推断分析股票价格波动
R语言有状态依赖强度的非线性、多变量跳跃扩散过程模型似然推断分析股票价格波动
|
6月前
|
算法 Windows
R语言广义二次跳跃、非线性跳跃扩散过程转移函数密度的估计及其应用
R语言广义二次跳跃、非线性跳跃扩散过程转移函数密度的估计及其应用
|
6月前
|
算法 定位技术
插值、平稳假设、本征假设、变异函数、基台、块金、克里格、线性无偏最优…地学计算概念及公式推导
插值、平稳假设、本征假设、变异函数、基台、块金、克里格、线性无偏最优…地学计算概念及公式推导
161 2
|
6月前
|
存储 Serverless 定位技术
基于MATLAB的全局多项式插值法(趋势面法)与逆距离加权(IDW)法插值与结果分析
基于MATLAB的全局多项式插值法(趋势面法)与逆距离加权(IDW)法插值与结果分析
18 误差分布曲线的建立 - 拉普拉斯的研究
18 误差分布曲线的建立 - 拉普拉斯的研究
57 0