论文题目
《LUVLi Face Alignment: Estimating Landmarks’Location, Uncertainty, and Visibility Likelihood》论文
中文题目:LUVLi人脸对齐:估计标记点的位置,不确定性和可见的可能性
参考文献
Kumar, Abhinav; Marks, Tim K.; Mou, Wenxuan; Wang, Ye; Jones, Michael; Cherian, Anoop; Koike-Akino, Toshiaki; Liu, Xiaoming; Feng, Chen (2020). [IEEE 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) - Seattle, WA, USA (2020.6.13-2020.6.19)] 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) - LUVLi Face Alignment: Estimating Landmarks’ Location, Uncertainty, and Visibility Likelihood. , (), 8233–8243. doi:10.1109/CVPR42600.2020.00826
目录
研究背景
相关工作
主要内容
仿真分析
论文总结
1.研究背景
现代人脸对齐方法在预测面部标志的位置方面已经非常准确,但通常不会估算其预测位置的不确定性,也无法预测标志是否可见。针对很多特定的场景现有的人脸对齐方法都失败了,几乎所有的SOTA只输出预测的地标位置,而没有评估后续任务是否应该信任这些地标位置。而且对于现有的科技也会非常依赖面部对齐(作为关键预处理步骤),所以说对于面部对齐的研究非常有必要的。
相关科技—(高级驾驶员辅助系统)ADAS,驾驶员监视和生命体征的远程测量
这是对三幅测试图像进行联合人脸对准和不确定度估计的结果,绿色为真实的点,蓝色为预测的点,也就是上面那些被头发和手遮住的地方。
2.主要贡献
1.提出了一种用于共同预测标志位置的新颖框架,这些预测位置的不确定性和地标性。我们将它们建模为混合随机变量,并使用经过我们建议的位置,不确定性和可见的可能性(LUVLi)损失训练的深度网络对它们进行估算。
2.发布了一个全新的大型面部对齐数据集标签,其中包含超过19,000个面部表情的完整头部姿势图像。手动标记每个面孔的68个地标的真实位置,并附加信息,包括每个地标是未被遮挡,自身被遮挡(由于极端的头部姿势)还是外部被遮挡。
3.相关工作
3.1Hour Glass模块
图一:这是利用Hour Glass模块来构建的级联网络结构
输入为256×256,输出为64×64,通过输入图进行卷积操作和平均池化得到的结果与下采样连接,其输入图像和相同大小的特征图作为输入到下一阶段 ,然后得到logits映射之后可得到估计的概率图P,并计算Loss ,另外一条操作就是将logits映射继续与下一层的下采样连接,完成与上一步相同的操作。这里面的每个模块的名字就是Hour Glass, 也就是说这个模块之后的每个阶段的损失函数均基于最小化对数条件似然性。然后这里为了概率图,将单阶段扩展到多阶段,也就是说为了引导下一阶段关注高概率的区域。
3.2 U-net网络架构
卷积层的数量大约在20个左右,4次下采样,4次上采样。输入图像大于输出图像。
3.3几何均值估计量
三种采样方法图解。1代表采样点,0代表非采样点
第一张是按行采样,可以调整为隔一行采一行,隔两行采一行等。图中是隔一行采一行。
第二张是卷积核对角线采样,卷积核大小为K,每次采卷积核对角线的数,滑动步长为K。图示K为2
第三者是卷积核右下角采样,卷积核大小为k,每次采卷积核右下角的数,滑动步长为K。图示K为2
4.主要内容
4.1整体架构
图二:LUVLi方法概述
对于每一个DU-Net的U-net,我们附加一个共享的Cholesky估计量网络(CEN)和可见性估计网络(VEN)到瓶颈层,并应用均值估计到热图。图中为每个U-net i和标记点j对地标位置、不确定性和可见度的联合估计。
具体来说对于每一个输入的RGB人脸图像通过一个DU-Net架构,我们从每个U-net中添加三个额外的分支,第一个新分量是均值估计值,它计算每个地标的估计位置,作为相应热图的正元素的加权空间平均值。第二个和第三个也就是VEN和CEN,伴随着每个U-net的瓶颈层出现。CEN和VEN权重在所有U-nets中共享。CEN的作用是估计每个标记点位置协方差矩阵的Cholesky系数。VEN估计图像中每个标记点可见的概率(1可见0不可见)。
我们直接估计了单个多元变量的参数拉普拉斯分布或高斯分布。此外,我们的方法没有约束拉普拉斯协方差矩阵或高斯协方差矩阵是对角的。
4.2Cholesky Estimator Network(CEN)
我们使用2×2协方差矩阵Σij表示每个地标位置的不确定性,该矩阵是对称正定的。Σij的三个自由度通过其Cholesky分解捕获:下三角矩阵Lij,使得Σij= LijLij^T。为了估计Lij的元素,我们将Cholesky估计器网络(CEN)附加到每个U-net的瓶颈处。CEN是一个全连接线性层,其输入是U-net的瓶颈(128×4×4=2048维)并且输出是Np×3维向量(Np比如说可以取68)。这是通过sigmoid激活函数来激活的。
这两个完全连接的层的添加只会稍微增加原始模型的大小,单个U-net的损耗是所有标记点j = 1,…,Np的平均损耗,每个输入图像的总损耗L是所有K个U-net的损耗的加权总和。 公式如下
Np表示有多少个标记点,Lij表示平均损耗
4.3Visibility Estimator Network (VEN)
和CEN差不多,只有输出的维度不一样,维度为CEN的1/3.
4.4New Dataset: MERL-RAV
表一:我们用于面部对齐的新数据集的统计信息
图三: 数据集中一个样本
我们的MERL-RAV数据集是唯一一个使用两种遮挡(自遮挡和外部遮挡)标记每个地标的数据集。只有另一个数据集AFLW显示了哪些独立的地标是自遮挡的,但是它的标记点要少得多,并且没有标记外部遮挡。与Menpo 2D不同,我们的数据集从正面平滑过渡到侧面,逐渐有越来越多的地标标记为自遮挡。
我们的数据集使用了广泛采用的68个300维的地标,以便进行评估和跨数据集比较。因为它使用来自AFLW的图像,我们的数据集的姿态变化高达±120◦偏航和±90◦俯仰。重点为前者,并将图像划分为五个姿势类:正面的、左侧和右侧半剖面,以及左侧和右侧剖面,训练/测试的比例为4:1。
图三为一个sample,在该图中,未遮挡的地标为绿色,外部遮挡的地标为红色,而自遮挡的地标在右侧的面部示意图中用黑色圆圈表示。
5.仿真分析
5.1
表二:不同方法下对于通用,挑战和完整数据集下的NME测量比较
Vj表示标记点的可见性,Pj表示真实可见的标记位置,µKj表示预测位置,Np为多少个标记点。所以NME可以度量关键点准确性,NME是越小越好,说明关键点的准确度是更高的。
5.2
表三:不同方法下针对不同测试集的NMEbox和AUCbox(截止7%)估计指标的比较
AUC:从正样本中随机抽取一个样本,从负样本中随机抽取一个样本,通过二分类模型对其进行预测,得到正样本的预测概率为p1,负样本的为p2,p1>p2的可能性或概率就是AUC。换句话说auc是roc曲线的面积,常用来评价二分类系统的好坏。
最后一层的指的是在300W-LP-2D数据集上进行预训练。我们的方法没有进行预训练,在6个案例中有2个仍然胜过SOTA,我们的方法在更具挑战性的COFW-68数据集的跨数据集评估中表现特别出色,该数据集具有多个外部遮挡的界标。
5.3
图四:在300 维下测试,所有界标的均方差残差与预测协方差矩阵的比较
首先,我们根据x方向上的预测方差值对每个测试图像的每个界标进行分类。每个容器由散点图中的一个点表示。
从图4可以看出,我们方法的预测协方差矩阵中的三项都对实际的不确定性有很高的预测能力:均方残差(误差)与预测的协方差值成很强的比例,皮尔逊相关系数为0.98和0.99。因此,平均后预测的不确定性很好,但仍有改善的空间。
5.4
表四:在AFLW-19数据集上的NME和AUC
比较了我们的方法与其他仅在AFLW-19上训练的方法的定位性能(训练的标记点数据集并没有68个点),我们提出的方法不仅优于其他基于不确定性的方法KDN,以及所有以前的SOTA方法,在AFLW-Full和AFLW - front上都有显著的差距。
5.5
表五:WFLW的所有数据集结果
FR表示测试集中NME大于一定阈值的图像所占的百分比
与SOTA方法相比,LUVLi在所有指标上产生第二好的性能。此外,虽然其他方法只预测地标位置,LUVLi还评估了预测的不确定性。
5.6
表六:用我们训练的方法进行消融研究
如表6所示,仅计算最后一个u-net的损耗比计算所有u-net的损耗差U-nets,也许是因为梯度消失的问题,我们还发现,拉普拉斯(lap)似然的损失优于高斯(gauss)似然的损失。除了ReLU,我们比较了σ的其他两个函数:softmax和温度缩放的softmax (τ -softmax)。温度缩放softmax和ReLU的结果基本上是一致的,但前者更复杂,需要调整一个温度参数,所以我们选择ReLU作为LUVLi模型。最后,将U-nets的数量从8个减少到4个,将测试速度提高了约2倍,性能下降幅度最小。
6.总结
在本文中,我们提出了LUVLi,一个新的端到端可训练的框架,用于联合估计面部地标位置、不确定性和可见性。这种联合估计不仅提供了准确的不确定性预测,而且在几个数据集上产生了最先进的地标位置估计。实验表明,预测的不确定性区分了不受遮挡和外部遮挡标记点,而没有任何监督该任务。此外,该模型通过采用ReLU热图的空间平均值而不是arg max来实现亚像素精度。我们还引入了一个新的数据集,包含超过19,000张人脸图像的手动标签,其中包含68个标记点,它还用三种可见性类中的一种来标记每一个标记点。尽管我们的实现是基于DU - net架构的,但我们的框架足够通用,可以应用到各种架构中,同时评估标记点位置、不确定性和可见性。