CVPR2022 Oral | CosFace、ArcFace的大统一升级,AdaFace解决低质量图像人脸识(一)

本文涉及的产品
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,分割抠图1万点
简介: CVPR2022 Oral | CosFace、ArcFace的大统一升级,AdaFace解决低质量图像人脸识(一)

1简介


图像质量是一个属性的组合,表明一个图像如何如实地捕获原始场景。影响图像质量的因素包括亮度、对比度、锐度、噪声、色彩一致性、分辨率、色调再现等。

这里人脸图像是本文的重点,可以在各种灯光、姿势和面部表情的设置下捕捉到的图像,有时也可以在极端的视觉变化下捕捉,如对象的年龄或妆容。这些参数的设置使得学习过的人脸识别模型很难完成识别任务。尽管如此,这项任务还是可以完成的,因为人类或模型通常可以在这些困难的环境下识别人脸。

图1

然而,当人脸图像质量较低时,根据质量程度的不同,识别任务变得不可行。图1显示了高质量和低质量的人脸图像的例子。不可能识别出图1最后1列中的对象。

像图1最下面一行这样的低质量图像正越来越成为人脸识别数据集的重要组成部分,因为它们会在监控视频和无人机镜头中遇到。鉴于SoTA FR方法能够在相对较高质量的数据集,如LFWCFP-FP中获得超过98%的验证精度,最近的FR挑战已经转向了较低质量的数据集,如IJB-BIJB-CIJB-S。虽然挑战是在低质量的数据集上获得较高的准确性,但大多数流行的训练数据集仍然由高质量的图像组成。由于只有一小部分训练数据质量较低,因此在训练期间适当地利用它是很重要的。

低质量的人脸图像的一个问题是,它们往往无法辨认。当图像退化过大时,相关的身份信息从图像中消失,导致图像无法识别。

这些无法识别的图像对训练过程有害的,因为模型将试图利用图像中的其他视觉特征,如服装颜色或图像分辨率,进而会影响训练损失。如果这些图像在低质量图像的分布中占主导地位,那么该模型在测试期间很可能在低质量的数据集上表现不佳。

由于无法识别的面部图像的存在,于是作者便想设计一个损失函数,根据图像质量对不同困难的样本赋予不同的重要性。作者的目标是强调高质量图像的困难样本和低质量图像的简单样本。通常,对样本的不同困难是通过观察训练进展(课程学习)来分配不同的重要性的。然而,作者实验表明,样本的重要性应该通过观察难度和图像质量来调整。

应该根据图像质量不同地设置重要性的原因是,直接强调困难样本总是强烈强调不可识别的图像。这是因为人们只能对无法识别的图像进行随机猜测,因此,它们总是在困难样本中。在将图像质量引入到目标中方面存在着一些挑战。这是因为图像质量是难以量化的,因为它的广泛定义和基于困难的缩放样本经常引入本质上是启发式。

在本工作中,作者提出了一个损失函数,以无缝的方式实现上述目标。作者还发现,

  1. 特征范数可以很好地代表图像质量;
  2. 不同的裕度函数对不同的样本困难具有不同的重要性。

这2个发现结合在一个统一的损失函数AdaFace中,该函数根据图像质量自适应地改变边缘函数,对不同的样本困难赋予不同的重要性。

主要贡献

  1. 提出了一个损失函数,AdaFace,它根据样本的图像质量对不同的困难样本赋予不同的权重。通过结合图像质量,避免强调难以识别的图像,专注于困难但可识别的样本
  2. 通过实验表明,角边缘尺度的学习梯度与训练样本的难度相关。这一观察结果促使作者通过自适应地改变边缘函数来强调困难样本,如果图像质量较低,则忽略非常困难的样本(无法识别的图像)。
  3. 证明了feature norms可以作为图像质量的代理。它绕过了需要一个额外的模块来估计图像质量。因此,自适应边际函数不需要额外的复杂度。
  4. 通过对9个不同质量的数据集(LFW、CFP-FP、CPLFW、AgeDB、CALFW、IJB-B、IJB-C、IJB-S和TinyFace)的广泛评估,验证了该方法的有效性。实验表明,AdaFace在低质量数据集上的识别性能可以大大提高,同时保持在高质量数据集上的性能。

2相关工作


2.1 Margin Based Loss Function

基于Margin的softmax损失函数被广泛应用于人脸识别训练中(FR)。在Softmax损失中加入了Margin,是因为加入Margin后模型可以学习到更好的类间表征和类内表征,特征也就更具有可判别性。典型的形式有:SphereFaceCosFaceArcFace引入了不同形式的Margin函数。具体来说,它可以t同意写成:

image.png

式中,θ为特征向量与第个分类器权值向量之间的夹角,为Ground Truth(GT)的索引,m为Margin是一个标量超参数。是一个边际函数,其中,SphereFaceCosFaceArcFace可以用一下3中不同的Margin函数表达:

image.png

有时,ArcFace被称为angular margin,而CosFace被称为additive margin。这里,是一个用于缩放的超参数。P2SGrad中注意到ms是敏感的超参数,并建议直接修改梯度,使其没有ms超参数。

AdaFace旨在将Margin建模为图像质量的函数,因为影响在训练过程中哪些样本贡献了更多的梯度(即学习信号)。

2.2 Adaptive Loss Functions

许多研究在训练目标中引入了适应性元素,用于hard sample mining、训练期间的调度困难或寻找最优超参数。例如,CurricularFace课程学习的思想引入到损失函数中。在训练的最初阶段,(负余弦相似度)的Margin被设置为很小,以便容易样本的学习,在后期阶段,Margin被增加,以便Hard样本可以学习。具体来说,它被写成:

image.png

其中,

image.png

而是一个随着训练的进展而增加的参数。因此,在CurricularFace中,Margin的适应性是基于训练的进展(Curricular)。

相反,作者认为Margin的适应性应该基于图像质量。在高质量的图像,如果样本是很困难的(对模型),网络应该学会利用图像中的信息;但在低质量的图像,如果样本是很困难的,它更有可能是缺乏适当的身份的线索,那么网络不应该去学习相关的特征。

MagFace探索了基于可识别性应用不同Margin的想法。它在high norm features易于识别的前提下,对high norm features应用大角度Margin。大Margin推动high norm features更接近class中心。然而,它并没有强调困难的训练样本,但是这些困难样本对学习鉴别特征也很重要。

同样值得一提的是,DDL使用蒸馏损失来最小化简单和困难样本特征之间的差距。

2.3 低质量图像的人脸识别

最近的FR模型在人脸属性可识别的数据集上取得了较高性能,例如LFWCFP-FPCPLFWAgeDBCALFW。当FR模型学习不受光照年龄姿态变化影响的鉴别特征时,可以在这些数据集上获得良好的性能。

然而,在不受约束的情况下,如监控或低质量的视频,FR便会带来很多的问题。这种配置下的数据集包括IJB-BIJB-CIJB-S,其中大多数图像质量很低,有些甚至不包含足够的身份信息,即使是对人工检查人员来说。良好表现的关键包括:

  1. 学习低质量图像的可鉴别特征;
  2. 学习丢弃包含少量识别线索的图像(质量感知融合)。

为了进行质量感知融合,人们提出了概率方法来预测FR表示中的不确定性。假设特征是分布,其中方差可以用来计算预测的确定性。然而,由于训练目标的不稳定性,概率方法会分别采用学习均值方差,这在训练过程中并不简单,因为方差是用一个固定的均值来优化的。然而,AdaFace是对传统的softmax损失的一个修改,使框架易于使用。此外,AdaFace使用feature norms作为质量感知融合过程中预测质量的代理。

合成数据数据扩充可以用来模拟低质量的数据。有方法通过训练人脸属性标记器生成训练数据的伪标签。这些辅助步骤只会使训练过程复杂化,并使其难以推广到其他数据集或领域。AdaFace方法只涉及简单的裁剪模糊光照增强,这也适用于其他数据集和域。


3本文方法


样本的Cross entropy softmax loss可以表述为:

image.png

其中是的特征嵌入,属于第类。为最后一个FC层权值矩阵的第列,,为对应的偏置项。C表示类的数量。

在测试时间内,对于任意一对图像,和,使用余弦相似度度量来寻找最接近的匹配恒等式。为了使训练目标直接优化余弦距离,使用normalized softmax,其中偏差项设置为零,然后特征通过归一化和缩放参数进行了转换:

image.png

其中,对应于和之间的夹角。并引入了Margin来减少类内的变化。通常,它可以被写成ArcFace等的统一表达式,其中Margin函数在方程式中定义。

3.1 Margin Form and the Gradient

先前关于基于MarginSoftmax的工作主要集中在Margin如何改变决策边界以及它们的几何解释。在本节中,作者展示了在反向传播过程中,由于Margin而引起的梯度变化会影响到一个样本相对于其他样本的重要性的影响。换句话说,angular margin可以在梯度方程中引入一个附加项,根据样本的难度对信号进行缩放。为了证明这一点,作者将研究梯度方程如何随Margin函数而变化。

设为对输入进行softmax后在第类上的概率。通过推导的梯度方程和,可以得到如下:

image.png

在等式中,和是标量。此外,这两个项是唯一受参数到影响的项。没有m,这里可以把前2个标量项看作是一个梯度尺度项(GST),并表示为:

image.png

为了GST分析的目的,将考虑类指数,因为所有负类指数在方程中没有Margin。于是normalized softmax loss的GST为:

image.png

因为和=s。所以CosFaceGST同样也是:

image.png

通过定义和=s。所以ArcFaceGST如下:

image.png

因为GST是和m的函数,就像在等式中一样、可以用它根据样本的困难成都来控制对样本的强调,即训练期间的。

image.png图2

为了了解GST的效果,图3为GST在特征空间中的颜色。需要注意的是,对于angular marginGST决策边界达到峰值,但随着它向移动而逐渐减小,而较困难的样本得到的强调较少。如果改变angular margin的符号,会看到相反的效果。

请注意,在第6列中,MagFaceArcFace的扩展,具有更大的Margin分配给高范数特征。ArcFaceMagFace都没有高度重视困难样本(附近的绿色区域)。结合所有的Margin函数,以在必要时强调困难样本。

请注意,这种适应性也不同于使用训练阶段来改变样本中不同困难的相对重要性的方法。图3显示了CurricularFace,其中决策边界和GST g随训练阶段的不同而变化。

3.2 Norm and Image quality

图像质量是一个综合性的术语,它涵盖了诸如亮度对比度锐度等特征。图像质量评估(IQA)在计算机视觉中得到了广泛的研究。SER-FIQ是一种用于人脸IQA的无监督DL方法。Brisque是一种流行的blind/no-reference IQA算法。

然而,这些方法在训练过程中使用的计算成本很高。在这项工作中避免引入一个额外的模块来计算图像质量。相反,使用特征规范作为图像质量的代理。作者观察到,在使用基于MarginSoftmax Loss训练的模型中,特征范数表现出与图像质量相关的趋势

在图4(a)中显示了特征范数与图像质量(1-brisque)作为绿色曲线计算的图像质量(IQ)得分之间的相关图。从训练数据集随机抽取1534张图像(MS1MV2)并使用预先训练好的模型计算特征范数。在最后一个阶段,特征规范IQ score之间的相关性得分达到0.5235(超过−1和1)。对应的散点图如图4(b)所示,特征范数IQ score之间的高相关性支持了使用特征范数作为图像质量的代理。

在图4(a)中还展示了概率输出与IQ score之间的相关图,其曲线为橙色曲线。注意,特征范数的相关性总是比高。此外,特征范数与IQ score之间的相关性在训练的早期阶段是可见的。这对于使用特征范数作为图像质量的代理是一个有用的属性,因为可以依赖于训练的早期阶段的代理。

此外,在图4(c)中展示了与IQ score之间的散点图。注意,和图像质量之间存在非线性关系。描述样本难度的一种方法是使用,图中显示了样本难度的分布随图像质量的不同而不同。因此,根据难度调整样本重要性时考虑图像质量是有意义的。

3.3 AdaFace: Adaptive Margin based on Norm

为了解决不可识别图像引起的问题,作者提出基于特征范数来适应Margin函数。在第二节中已经证明,使用不同的Margin函数可以强调样本的不同困难成都。另外,观察到特征规范是寻找低质量图像的好方法。

1、Image Quality Indicator

作为特征范数,是一个模型依赖的量,使用batch统计和对其进行归一化。具体来说:

其中,和为一个batch内所有的平均值和标准差。[]是指在−1和1之间裁剪值,阻止梯度流动。

由于将的Batch分布近似为单位高斯分布,因此将该值剪辑在−1和−1范围内,以便更好地处理。

已知,大约68%的单位高斯分布落在−1和1之间,因此引入项h来控制concentration。设置h,使大多数值落在−1和1之间。实现这一点的将是h=0.33

如果Batch size较小,则Batch统计信息和可能不稳定。因此,使用和跨多个步骤的指数移动平均数(EMA)来稳定Batch统计数据。具体来说,设和是的第k步批统计。然后:

image.png

α的动量设定为0.99。对于也是如此。

2、Adaptive Margin Function

作者设计了一个Margin函数:

  1. 如果图像质量高,强调困难样本
  2. 如果图像质量低,不强调困难样本

用2个自适应和来实现这一点,分别指angular marginadditive margins。具体来说:

image.png

其中和是的函数:

image.png

请注意,当=−1时,建议的函数变成了ArcFace。当=0时,它就变成了CosFace。当=1时,它变成了negative angular margin

图3显示了自适应函数对梯度的影响。高范数特征在远离决策边界的情况下得到较高的梯度尺度,而低范数特征在决策边界附近得到较高的梯度尺度。对于低范数特征,远离边界的较难样本被弱化。

相关文章
|
6月前
|
机器学习/深度学习 算法 计算机视觉
【论文速递】CVPR2022-弱监督旋转不变的航空目标检测网络
【论文速递】CVPR2022-弱监督旋转不变的航空目标检测网络
|
6月前
|
机器学习/深度学习 传感器 算法
【论文速递】AAAI2023 - BEVDepth: 用于多视图三维物体检测的可靠深度采集
【论文速递】AAAI2023 - BEVDepth: 用于多视图三维物体检测的可靠深度采集
|
6月前
|
传感器 编解码 人工智能
GEE数据集——MOD13A1.006Terra星搭载的中分辨率成像光谱仪获取的L3级植被指数产品
GEE数据集——MOD13A1.006Terra星搭载的中分辨率成像光谱仪获取的L3级植被指数产品
105 2
|
6月前
|
算法 测试技术 vr&ar
【论文速递】CVPR2022 : 用于目标跟踪的统一transformer跟踪器
【论文速递】CVPR2022 : 用于目标跟踪的统一transformer跟踪器
|
6月前
|
机器学习/深度学习 编解码 算法
英文论文(sci)解读复现:基于YOLOv5的自然场景下苹果叶片病害实时检测
英文论文(sci)解读复现:基于YOLOv5的自然场景下苹果叶片病害实时检测
269 0
|
编解码 算法 ice
Google Earth Engine ——MCD19A2 V6数据产品是MODIS Terra和Aqua结合的大气校正多角度实施(MAIAC)陆地气溶胶光学深度(AOD)网格化2级产品,1公里分辨率
Google Earth Engine ——MCD19A2 V6数据产品是MODIS Terra和Aqua结合的大气校正多角度实施(MAIAC)陆地气溶胶光学深度(AOD)网格化2级产品,1公里分辨率
868 0
Google Earth Engine ——MCD19A2 V6数据产品是MODIS Terra和Aqua结合的大气校正多角度实施(MAIAC)陆地气溶胶光学深度(AOD)网格化2级产品,1公里分辨率
|
1天前
|
机器学习/深度学习 测试技术 计算机视觉
NeurIPS 2024:FaceChain团队新作,开源拓扑对齐人脸表征模型TopoFR
在2024年NeurIPS会议上,FaceChain团队推出TopoFR模型,通过利用数据的拓扑结构信息,显著提升了人脸识别的准确性。TopoFR采用PTSA策略和SDE策略,分别增强了模型的泛化能力和对硬样本的处理效果。实验结果显示,TopoFR在多个基准测试中表现优异,特别是在IJB-C和IJB-B等高难度测试中,显著超越了现有方法。
12 5
|
17天前
|
计算机视觉
ECCV2024 Oral:第一视角下的动作图像生成,Meta等提出LEGO模型
【10月更文挑战第25天】Meta公司提出了一种名为LEGO的新模型,旨在从第一视角生成动作图像,以促进技能传递。LEGO结合了视觉大型语言模型和扩散模型,通过微调和生成技术,实现了更准确的动作图像生成。该研究已在ECCV2024上被选为口头报告。
24 2
|
5月前
|
算法 图形学 计算机视觉
CVPR 2024:合成视频数据集里只有单人数据?M3Act破解人群行为标注难题
【6月更文挑战第12天】CVPR 2024上的M3Act数据集解决了复杂人群行为标注难题,提供多视角、多群体的合成视频数据,助力计算机视觉研究。利用Unity引擎生成高度真实的人类动作和群体活动,促进以人类为中心任务的学习。实验显示,M3Act能提升目标检测等任务性能,降低数据收集成本,并支持3D群体活动的可控生成。尽管面临数据复杂性、偏差和计算资源限制等问题,M3Act为相关研究提供了宝贵资源。[论文链接](https://arxiv.org/abs/2306.16772)
74 4
|
5月前
|
自然语言处理 安全 数据安全/隐私保护
不影响输出质量还能追踪溯源,大模型无偏水印入选ICLR 2024 Spotlight
【6月更文挑战第7天】研究人员提出了一种无偏水印技术,能在不降低大型语言模型(LLMs)输出质量的情况下实现追踪和归属。此方法被ICLR 2024选为Spotlight论文,保证水印不影响模型性能,保护知识产权,防止滥用。无偏水印的挑战包括设计无损模型质量的实现、有效检测及安全防范措施。[论文链接: https://openreview.net/pdf?id=uWVC5FVidc]
66 2

热门文章

最新文章