1简介
图像质量是一个属性的组合,表明一个图像如何如实地捕获原始场景。影响图像质量的因素包括亮度、对比度、锐度、噪声、色彩一致性、分辨率、色调再现等。
这里人脸图像是本文的重点,可以在各种灯光、姿势和面部表情的设置下捕捉到的图像,有时也可以在极端的视觉变化下捕捉,如对象的年龄或妆容。这些参数的设置使得学习过的人脸识别模型很难完成识别任务。尽管如此,这项任务还是可以完成的,因为人类或模型通常可以在这些困难的环境下识别人脸。
图1
然而,当人脸图像质量较低时,根据质量程度的不同,识别任务变得不可行。图1显示了高质量和低质量的人脸图像的例子。不可能识别出图1最后1列中的对象。
像图1最下面一行这样的低质量图像正越来越成为人脸识别数据集的重要组成部分,因为它们会在监控视频和无人机镜头中遇到。鉴于SoTA FR方法能够在相对较高质量的数据集,如LFW
或CFP-FP
中获得超过98%的验证精度,最近的FR挑战已经转向了较低质量的数据集,如IJB-B
、IJB-C
和IJB-S
。虽然挑战是在低质量的数据集上获得较高的准确性,但大多数流行的训练数据集仍然由高质量的图像组成。由于只有一小部分训练数据质量较低,因此在训练期间适当地利用它是很重要的。
低质量的人脸图像的一个问题是,它们往往无法辨认。当图像退化过大时,相关的身份信息从图像中消失,导致图像无法识别。
这些无法识别的图像对训练过程有害的,因为模型将试图利用图像中的其他视觉特征,如服装颜色或图像分辨率,进而会影响训练损失。如果这些图像在低质量图像的分布中占主导地位,那么该模型在测试期间很可能在低质量的数据集上表现不佳。
由于无法识别的面部图像的存在,于是作者便想设计一个损失函数,根据图像质量对不同困难的样本赋予不同的重要性。作者的目标是强调高质量图像的困难样本和低质量图像的简单样本。通常,对样本的不同困难是通过观察训练进展(课程学习)来分配不同的重要性的。然而,作者实验表明,样本的重要性应该通过观察难度和图像质量来调整。
应该根据图像质量不同地设置重要性的原因是,直接强调困难样本总是强烈强调不可识别的图像。这是因为人们只能对无法识别的图像进行随机猜测,因此,它们总是在困难样本中。在将图像质量引入到目标中方面存在着一些挑战。这是因为图像质量是难以量化的,因为它的广泛定义和基于困难的缩放样本经常引入本质上是启发式。
在本工作中,作者提出了一个损失函数,以无缝的方式实现上述目标。作者还发现,
- 特征范数可以很好地代表图像质量;
- 不同的裕度函数对不同的样本困难具有不同的重要性。
这2个发现结合在一个统一的损失函数AdaFace
中,该函数根据图像质量自适应地改变边缘函数,对不同的样本困难赋予不同的重要性。
主要贡献
- 提出了一个损失函数,
AdaFace
,它根据样本的图像质量对不同的困难样本赋予不同的权重。通过结合图像质量,避免强调难以识别的图像,专注于困难但可识别的样本; - 通过实验表明,角边缘尺度的学习梯度与训练样本的难度相关。这一观察结果促使作者通过自适应地改变边缘函数来强调困难样本,如果图像质量较低,则忽略非常困难的样本(无法识别的图像)。
- 证明了
feature norms
可以作为图像质量的代理。它绕过了需要一个额外的模块来估计图像质量。因此,自适应边际函数不需要额外的复杂度。 - 通过对9个不同质量的数据集(LFW、CFP-FP、CPLFW、AgeDB、CALFW、IJB-B、IJB-C、IJB-S和TinyFace)的广泛评估,验证了该方法的有效性。实验表明,
AdaFace
在低质量数据集上的识别性能可以大大提高,同时保持在高质量数据集上的性能。
2相关工作
2.1 Margin Based Loss Function
基于Margin的softmax损失函数被广泛应用于人脸识别训练中(FR)。在Softmax损失中加入了Margin,是因为加入Margin后模型可以学习到更好的类间表征和类内表征,特征也就更具有可判别性。典型的形式有:SphereFace
、CosFace
和ArcFace
引入了不同形式的Margin函数
。具体来说,它可以t同意写成:
式中,θ为特征向量与第个分类器权值向量之间的夹角,为Ground Truth(GT)的索引,m为Margin
是一个标量超参数。是一个边际函数,其中,SphereFace
、CosFace
和ArcFace
可以用一下3中不同的Margin函数
表达:
有时,ArcFace
被称为angular margin
,而CosFace被称为additive margin
。这里,是一个用于缩放的超参数。P2SGrad
中注意到m
和s
是敏感的超参数,并建议直接修改梯度,使其没有m
和s
超参数。
AdaFace
旨在将Margin
建模为图像质量的函数,因为影响在训练过程中哪些样本贡献了更多的梯度(即学习信号)。
2.2 Adaptive Loss Functions
许多研究在训练目标中引入了适应性元素,用于hard sample mining
、训练期间的调度困难或寻找最优超参数。例如,CurricularFace
将课程学习
的思想引入到损失函数中。在训练的最初阶段,(负余弦相似度)的Margin
被设置为很小,以便容易样本的学习,在后期阶段,Margin
被增加,以便Hard样本
可以学习。具体来说,它被写成:
其中,
而是一个随着训练的进展而增加的参数。因此,在CurricularFace
中,Margin
的适应性是基于训练的进展(Curricular)。
相反,作者认为Margin
的适应性应该基于图像质量。在高质量的图像,如果样本是很困难的(对模型),网络应该学会利用图像中的信息;但在低质量的图像,如果样本是很困难的,它更有可能是缺乏适当的身份的线索,那么网络不应该去学习相关的特征。
MagFace
探索了基于可识别性应用不同Margin
的想法。它在high norm features
易于识别的前提下,对high norm features
应用大角度Margin
。大Margin
推动high norm features
更接近class中心
。然而,它并没有强调困难的训练样本,但是这些困难样本对学习鉴别特征也很重要。
同样值得一提的是,DDL
使用蒸馏损失来最小化简单和困难样本特征之间的差距。
2.3 低质量图像的人脸识别
最近的FR模型
在人脸属性可识别的数据集上取得了较高性能,例如LFW
、CFP-FP
、CPLFW
、AgeDB
和CALFW
。当FR模型
学习不受光照
、年龄
或姿态变化
影响的鉴别特征时,可以在这些数据集上获得良好的性能。
然而,在不受约束的情况下,如监控或低质量的视频,FR便会带来很多的问题。这种配置下的数据集包括IJB-B
、IJB-C
和IJB-S
,其中大多数图像质量很低,有些甚至不包含足够的身份信息,即使是对人工检查人员来说。良好表现的关键包括:
- 学习低质量图像的可鉴别特征;
- 学习丢弃包含少量识别线索的图像(质量感知融合)。
为了进行质量感知融合,人们提出了概率方法来预测FR表示中的不确定性。假设特征是分布,其中方差可以用来计算预测的确定性。然而,由于训练目标的不稳定性,概率方法会分别采用学习均值
和方差
,这在训练过程中并不简单,因为方差
是用一个固定的均值
来优化的。然而,AdaFace
是对传统的softmax损失
的一个修改,使框架易于使用。此外,AdaFace
使用feature norms
作为质量感知融合
过程中预测质量的代理。
合成数据
或数据扩充
可以用来模拟低质量的数据。有方法通过训练人脸属性标记器生成训练数据的伪标签。这些辅助步骤只会使训练过程复杂化,并使其难以推广到其他数据集或领域。AdaFace
方法只涉及简单的裁剪
、模糊
和光照增强
,这也适用于其他数据集和域。
3本文方法
样本的Cross entropy softmax loss
可以表述为:
其中是的特征嵌入,属于第类。为最后一个FC层权值矩阵的第列,,为对应的偏置项。C表示类的数量。
在测试时间内,对于任意一对图像,和,使用余弦相似度度量来寻找最接近的匹配恒等式。为了使训练目标直接优化余弦距离,使用normalized softmax
,其中偏差项设置为零,然后特征通过归一化和缩放参数进行了转换:
其中,对应于和之间的夹角。并引入了Margin
来减少类内的变化。通常,它可以被写成ArcFace
等的统一表达式,其中Margin
函数在方程式中定义。
3.1 Margin Form and the Gradient
先前关于基于Margin
的Softmax
的工作主要集中在Margin
如何改变决策边界以及它们的几何解释。在本节中,作者展示了在反向传播过程中,由于Margin
而引起的梯度变化会影响到一个样本相对于其他样本的重要性的影响。换句话说,angular margin
可以在梯度方程中引入一个附加项,根据样本的难度对信号进行缩放。为了证明这一点,作者将研究梯度方程
如何随Margin
函数而变化。
设为对输入进行softmax
后在第类上的概率。通过推导的梯度方程和,可以得到如下:
在等式中,和是标量。此外,这两个项是唯一受参数到影响的项。没有m,这里可以把前2个标量项看作是一个梯度尺度项
(GST
),并表示为:
为了GST
分析的目的,将考虑类指数
,因为所有负类指数在方程中没有Margin
。于是normalized softmax loss
的GST为:
因为和=s。所以CosFace
的GST
同样也是:
通过定义和=s。所以ArcFace
的GST
如下:
因为GST
是和m
的函数,就像在等式中一样、可以用它根据样本的困难成都来控制对样本的强调,即训练期间的。
图2
为了了解GST
的效果,图3为GST
在特征空间中的颜色。需要注意的是,对于angular margin
,GST
在决策边界
达到峰值,但随着它向移动而逐渐减小,而较困难的样本得到的强调较少。如果改变angular margin
的符号,会看到相反的效果。
请注意,在第6列中,MagFace
是ArcFace
的扩展,具有更大的Margin
分配给高范数特征。ArcFace
和MagFace
都没有高度重视困难样本(附近的绿色区域)。结合所有的Margin
函数,以在必要时强调困难样本。
请注意,这种适应性也不同于使用训练阶段来改变样本中不同困难的相对重要性的方法。图3显示了
CurricularFace
,其中决策边界和GST g
随训练阶段的不同而变化。
3.2 Norm and Image quality
图像质量
是一个综合性的术语,它涵盖了诸如亮度
、对比度
和锐度
等特征。图像质量评估
(IQA)在计算机视觉中得到了广泛的研究。SER-FIQ
是一种用于人脸IQA
的无监督DL
方法。Brisque
是一种流行的blind/no-reference IQA
算法。
然而,这些方法在训练过程中使用的计算成本很高。在这项工作中避免引入一个额外的模块来计算图像质量。相反,使用特征规范作为图像质量的代理。作者观察到,在使用基于Margin
的Softmax Loss
训练的模型中,特征范数表现出与图像质量相关的趋势
。
在图4(a)中显示了特征范数与图像质量(1-brisque
)作为绿色曲线计算的图像质量(IQ)得分之间的相关图。从训练数据集随机抽取1534张图像(MS1MV2)并使用预先训练好的模型计算特征范数
。在最后一个阶段,特征规范
与IQ score
之间的相关性得分达到0.5235(超过−1和1)。对应的散点图如图4(b)所示,特征范数
和IQ score
之间的高相关性支持了使用特征范数
作为图像质量
的代理。
在图4(a)中还展示了概率输出与IQ score
之间的相关图,其曲线为橙色曲线
。注意,特征范数的相关性总是比高。此外,特征范数与IQ score
之间的相关性在训练的早期阶段是可见的。这对于使用特征范数
作为图像质量的代理
是一个有用的属性,因为可以依赖于训练的早期阶段的代理。
此外,在图4(c)中展示了与IQ score
之间的散点图。注意,和图像质量
之间存在非线性关系。描述样本难度的一种方法是使用,图中显示了样本难度的分布随图像质量的不同而不同。因此,根据难度调整样本重要性
时考虑图像质量是有意义的。
3.3 AdaFace: Adaptive Margin based on Norm
为了解决不可识别图像引起的问题,作者提出基于特征范数来适应Margin
函数。在第二节中已经证明,使用不同的Margin
函数可以强调样本的不同困难成都。另外,观察到特征规范是寻找低质量图像的好方法。
1、Image Quality Indicator
作为特征范数,是一个模型依赖的量,使用batch统计和对其进行归一化。具体来说:
其中,和为一个batch内所有的平均值和标准差。[]是指在−1和1之间裁剪值,阻止梯度流动。
由于将的Batch分布
近似为单位高斯分布
,因此将该值剪辑在−1和−1范围内,以便更好地处理。
已知,大约68%的单位高斯分布落在−1和1之间,因此引入项h
来控制concentration
。设置h,使大多数值落在−1和1之间。实现这一点的将是h=0.33
。
如果Batch size
较小,则Batch统计信息和可能不稳定。因此,使用和跨多个步骤的指数移动平均数(EMA)来稳定Batch统计数据。具体来说,设和是的第k步批统计。然后:
α的动量设定为0.99。对于也是如此。
2、Adaptive Margin Function
作者设计了一个Margin
函数:
- 如果图像质量高,强调困难样本
- 如果图像质量低,不强调困难样本
用2个自适应和来实现这一点,分别指angular margin
和additive margins
。具体来说:
其中和是的函数:
请注意,当=−1时,建议的函数变成了ArcFace
。当=0时,它就变成了CosFace
。当=1时,它变成了negative angular margin
。
图3显示了自适应函数对梯度的影响。高范数特征在远离决策边界的情况下得到较高的梯度尺度,而低范数特征在决策边界附近得到较高的梯度尺度。对于低范数特征,远离边界的较难样本被弱化。