论文精度笔记(三):《LUVLi Face Alignment: Estimating LandmarksLocation, Uncertainty...》

简介: 该论文提出了一个名为LUVLi的新型人脸对齐框架,它能够同时预测面部标志点的位置、预测位置的不确定性以及标志点的可见性概率,并通过引入一个新的面部对齐数据集MERL-RAV来训练和验证这一框架。

在这里插入图片描述

论文题目

《LUVLi Face Alignment: Estimating Landmarks’Location, Uncertainty, and Visibility Likelihood》论文

中文题目:LUVLi人脸对齐:估计标记点的位置,不确定性和可见的可能性

参考文献

Kumar, Abhinav; Marks, Tim K.; Mou, Wenxuan; Wang, Ye; Jones, Michael; Cherian, Anoop; Koike-Akino, Toshiaki; Liu, Xiaoming; Feng, Chen (2020). [IEEE 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) - Seattle, WA, USA (2020.6.13-2020.6.19)] 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) - LUVLi Face Alignment: Estimating Landmarks’ Location, Uncertainty, and Visibility Likelihood. , (), 8233–8243. doi:10.1109/CVPR42600.2020.00826

目录

研究背景

相关工作

主要内容

仿真分析

论文总结

1.研究背景

现代人脸对齐方法在预测面部标志的位置方面已经非常准确,但通常不会估算其预测位置的不确定性,也无法预测标志是否可见。针对很多特定的场景现有的人脸对齐方法都失败了,几乎所有的SOTA只输出预测的地标位置,而没有评估后续任务是否应该信任这些地标位置。而且对于现有的科技也会非常依赖面部对齐(作为关键预处理步骤),所以说对于面部对齐的研究非常有必要的。

相关科技—(高级驾驶员辅助系统)ADAS,驾驶员监视和生命体征的远程测量
在这里插入图片描述
这是对三幅测试图像进行联合人脸对准和不确定度估计的结果,绿色为真实的点,蓝色为预测的点,也就是上面那些被头发和手遮住的地方。

2.主要贡献

1.提出了一种用于共同预测标志位置的新颖框架,这些预测位置的不确定性和地标性。我们将它们建模为混合随机变量,并使用经过我们建议的位置,不确定性和可见的可能性(LUVLi)损失训练的深度网络对它们进行估算。

2.发布了一个全新的大型面部对齐数据集标签,其中包含超过19,000个面部表情的完整头部姿势图像。手动标记每个面孔的68个地标的真实位置,并附加信息,包括每个地标是未被遮挡,自身被遮挡(由于极端的头部姿势)还是外部被遮挡。

3.相关工作

3.1Hour Glass模块

在这里插入图片描述
图一:这是利用Hour Glass模块来构建的级联网络结构

输入为256×256,输出为64×64,通过输入图进行卷积操作和平均池化得到的结果与下采样连接,其输入图像和相同大小的特征图作为输入到下一阶段 ,然后得到logits映射之后可得到估计的概率图P,并计算Loss ,另外一条操作就是将logits映射继续与下一层的下采样连接,完成与上一步相同的操作。这里面的每个模块的名字就是Hour Glass, 也就是说这个模块之后的每个阶段的损失函数均基于最小化对数条件似然性。然后这里为了概率图,将单阶段扩展到多阶段,也就是说为了引导下一阶段关注高概率的区域。

3.2 U-net网络架构

在这里插入图片描述
卷积层的数量大约在20个左右,4次下采样,4次上采样。输入图像大于输出图像。

3.3几何均值估计量

在这里插入图片描述
三种采样方法图解。1代表采样点,0代表非采样点
第一张是按行采样,可以调整为隔一行采一行,隔两行采一行等。图中是隔一行采一行。
第二张是卷积核对角线采样,卷积核大小为K,每次采卷积核对角线的数,滑动步长为K。图示K为2
第三者是卷积核右下角采样,卷积核大小为k,每次采卷积核右下角的数,滑动步长为K。图示K为2

4.主要内容

4.1整体架构

在这里插入图片描述
图二:LUVLi方法概述
对于每一个DU-Net的U-net,我们附加一个共享的Cholesky估计量网络(CEN)和可见性估计网络(VEN)到瓶颈层,并应用均值估计到热图。图中为每个U-net i和标记点j对地标位置、不确定性和可见度的联合估计。

具体来说对于每一个输入的RGB人脸图像通过一个DU-Net架构,我们从每个U-net中添加三个额外的分支,第一个新分量是均值估计值,它计算每个地标的估计位置,作为相应热图的正元素的加权空间平均值。第二个和第三个也就是VEN和CEN,伴随着每个U-net的瓶颈层出现。CEN和VEN权重在所有U-nets中共享。CEN的作用是估计每个标记点位置协方差矩阵的Cholesky系数。VEN估计图像中每个标记点可见的概率(1可见0不可见)。
在这里插入图片描述
我们直接估计了单个多元变量的参数拉普拉斯分布或高斯分布。此外,我们的方法没有约束拉普拉斯协方差矩阵或高斯协方差矩阵是对角的。

4.2Cholesky Estimator Network(CEN)

我们使用2×2协方差矩阵Σij表示每个地标位置的不确定性,该矩阵是对称正定的。Σij的三个自由度通过其Cholesky分解捕获:下三角矩阵Lij,使得Σij= LijLij^T。为了估计Lij的元素,我们将Cholesky估计器网络(CEN)附加到每个U-net的瓶颈处。CEN是一个全连接线性层,其输入是U-net的瓶颈(128×4×4=2048维)并且输出是Np×3维向量(Np比如说可以取68)。这是通过sigmoid激活函数来激活的。
在这里插入图片描述

这两个完全连接的层的添加只会稍微增加原始模型的大小,单个U-net的损耗是所有标记点j = 1,…,Np的平均损耗,每个输入图像的总损耗L是所有K个U-net的损耗的加权总和。 公式如下
在这里插入图片描述
Np表示有多少个标记点,Lij表示平均损耗

4.3Visibility Estimator Network (VEN)

和CEN差不多,只有输出的维度不一样,维度为CEN的1/3.

4.4New Dataset: MERL-RAV

在这里插入图片描述
表一:我们用于面部对齐的新数据集的统计信息
在这里插入图片描述
图三: 数据集中一个样本

我们的MERL-RAV数据集是唯一一个使用两种遮挡(自遮挡和外部遮挡)标记每个地标的数据集。只有另一个数据集AFLW显示了哪些独立的地标是自遮挡的,但是它的标记点要少得多,并且没有标记外部遮挡。与Menpo 2D不同,我们的数据集从正面平滑过渡到侧面,逐渐有越来越多的地标标记为自遮挡。

我们的数据集使用了广泛采用的68个300维的地标,以便进行评估和跨数据集比较。因为它使用来自AFLW的图像,我们的数据集的姿态变化高达±120◦偏航和±90◦俯仰。重点为前者,并将图像划分为五个姿势类:正面的、左侧和右侧半剖面,以及左侧和右侧剖面,训练/测试的比例为4:1。

图三为一个sample,在该图中,未遮挡的地标为绿色,外部遮挡的地标为红色,而自遮挡的地标在右侧的面部示意图中用黑色圆圈表示。

5.仿真分析

5.1

在这里插入图片描述
表二:不同方法下对于通用,挑战和完整数据集下的NME测量比较
在这里插入图片描述

Vj表示标记点的可见性,Pj表示真实可见的标记位置,µKj表示预测位置,Np为多少个标记点。所以NME可以度量关键点准确性,NME是越小越好,说明关键点的准确度是更高的。

5.2

在这里插入图片描述
表三:不同方法下针对不同测试集的NMEbox和AUCbox(截止7%)估计指标的比较

AUC:从正样本中随机抽取一个样本,从负样本中随机抽取一个样本,通过二分类模型对其进行预测,得到正样本的预测概率为p1,负样本的为p2,p1>p2的可能性或概率就是AUC。换句话说auc是roc曲线的面积,常用来评价二分类系统的好坏。

最后一层的指的是在300W-LP-2D数据集上进行预训练。我们的方法没有进行预训练,在6个案例中有2个仍然胜过SOTA,我们的方法在更具挑战性的COFW-68数据集的跨数据集评估中表现特别出色,该数据集具有多个外部遮挡的界标。

5.3

在这里插入图片描述
图四:在300 维下测试,所有界标的均方差残差与预测协方差矩阵的比较

首先,我们根据x方向在这里插入图片描述上的预测方差值对每个测试图像的每个界标进行分类。每个容器由散点图中的一个点表示。

从图4可以看出,我们方法的预测协方差矩阵中的三项都对实际的不确定性有很高的预测能力:均方残差(误差)与预测的协方差值成很强的比例,皮尔逊相关系数为0.98和0.99。因此,平均后预测的不确定性很好,但仍有改善的空间。

5.4

在这里插入图片描述
表四:在AFLW-19数据集上的NME和AUC

比较了我们的方法与其他仅在AFLW-19上训练的方法的定位性能(训练的标记点数据集并没有68个点),我们提出的方法不仅优于其他基于不确定性的方法KDN,以及所有以前的SOTA方法,在AFLW-Full和AFLW - front上都有显著的差距。

5.5

在这里插入图片描述
表五:WFLW的所有数据集结果
FR表示测试集中NME大于一定阈值的图像所占的百分比

与SOTA方法相比,LUVLi在所有指标上产生第二好的性能。此外,虽然其他方法只预测地标位置,LUVLi还评估了预测的不确定性。

5.6
在这里插入图片描述
表六:用我们训练的方法进行消融研究
如表6所示,仅计算最后一个u-net的损耗比计算所有u-net的损耗差U-nets,也许是因为梯度消失的问题,我们还发现,拉普拉斯(lap)似然的损失优于高斯(gauss)似然的损失。除了ReLU,我们比较了σ的其他两个函数:softmax和温度缩放的softmax (τ -softmax)。温度缩放softmax和ReLU的结果基本上是一致的,但前者更复杂,需要调整一个温度参数,所以我们选择ReLU作为LUVLi模型。最后,将U-nets的数量从8个减少到4个,将测试速度提高了约2倍,性能下降幅度最小。

6.总结

在本文中,我们提出了LUVLi,一个新的端到端可训练的框架,用于联合估计面部地标位置、不确定性和可见性。这种联合估计不仅提供了准确的不确定性预测,而且在几个数据集上产生了最先进的地标位置估计。实验表明,预测的不确定性区分了不受遮挡和外部遮挡标记点,而没有任何监督该任务。此外,该模型通过采用ReLU热图的空间平均值而不是arg max来实现亚像素精度。我们还引入了一个新的数据集,包含超过19,000张人脸图像的手动标签,其中包含68个标记点,它还用三种可见性类中的一种来标记每一个标记点。尽管我们的实现是基于DU - net架构的,但我们的框架足够通用,可以应用到各种架构中,同时评估标记点位置、不确定性和可见性。

目录
相关文章
|
机器学习/深度学习 自然语言处理 文字识别
【计算机视觉】CLIP:连接文本和图像(关于CLIP的一些补充说明)
我们推出了一个名为CLIP的神经网络,它可以有效地从自然语言监督中学习视觉概念。CLIP可以应用于任何视觉分类基准,只需提供要识别的视觉类别名称,类似于GPT-2和GPT-3的“零样本”功能。
|
6月前
|
人工智能 数据可视化 测试技术
Meta AI开源CLIP-DINOiser | 如何将自监督DINO的Trick教给CLIP?这里就是答案!
Meta AI开源CLIP-DINOiser | 如何将自监督DINO的Trick教给CLIP?这里就是答案!
137 0
|
机器学习/深度学习 编解码 决策智能
计算机视觉实战(十一)Scale Invariant Feature Transform(SIFT)(附完整代码)
计算机视觉实战(十一)Scale Invariant Feature Transform(SIFT)(附完整代码)
108 0
|
存储 计算机视觉 索引
目标检测的Tricks | 【Trick11】label的缩放与显示
目标检测的Tricks | 【Trick11】label的缩放与显示
157 0
目标检测的Tricks | 【Trick11】label的缩放与显示
|
机器学习/深度学习 编解码 自然语言处理
Text to image论文精读 AttnGAN: Fine-Grained TexttoImage Generation with Attention(带有注意的生成对抗网络细化文本到图像生成)
这篇文章提出了一种注意力生成对抗网络(AttnGAN),它允许注意力驱动、多阶段细化细粒度文本到图像的生成,此外,还提出了一种深度注意多模态相似性模型来计算细粒度图像-文本匹配损失以训练生成器,进而生成更逼真的图像。 文章被2018年CVPR(IEEE Conference on Computer Vision and Pattern Recognition)会议收录。 论文地址: https://arxiv.org/pdf/1711.10485.pdf 代码地址: https://github.com/taoxugit/AttnGAN 本博客是精读这篇论文的报告,包含一些个人理解、知识拓展和
Text to image论文精读 AttnGAN: Fine-Grained TexttoImage Generation with Attention(带有注意的生成对抗网络细化文本到图像生成)
|
机器学习/深度学习 人工智能 自然语言处理
Text to image论文精读DF-GAN:A Simple and Effective Baseline for Text-to-Image Synthesis一种简单有效的文本生成图像基准模型
DF-GAN是南京邮电大学、苏黎世联邦理工学院、武汉大学等学者共同研究开发的一款简单且有效的文本生成图像模型。该论文已被CVPR 2022 Oral录用,文章最初发表于2020年8月,最后v3版本修订于22年3月 。 论文地址:https://arxiv.org/abs/2008.05865 代码地址:https://github.com/tobran/DF-GAN 本博客是精读这篇论文的报告,包含一些个人理解、知识拓展和总结。
Text to image论文精读DF-GAN:A Simple and Effective Baseline for Text-to-Image Synthesis一种简单有效的文本生成图像基准模型
|
机器学习/深度学习 编解码 人工智能
Text to image论文精读CogView: Mastering Text-to-Image Generation via Transformers(通过Transformer控制文本生成图像)
CogView是清华大学和阿里巴巴达摩院共同研究开发的一款用Transformer来控制文本生成图像的模型。该论文已被NIPS(Conference and Workshop on Neural Information Processing Systems,计算机人工智能领域A类会议)录用,文章发表于2021年10月。 论文地址:https://arxiv.org/pdf/2105.13290v3.pdf 代码地址:https://github.com/THUDM/CogView 本博客是精读这篇论文的报告,包含一些个人理解、知识拓展和总结。
Text to image论文精读CogView: Mastering Text-to-Image Generation via Transformers(通过Transformer控制文本生成图像)
|
机器学习/深度学习 自然语言处理 计算机视觉
Text to image论文精读 MirrorGAN: Learning Text-to-image Generation by Redescription(通过重新描述学习从文本到图像的生成)
MirrorGAN通过学习文本-图像-文本,试图从生成的图像中重新生成文本描述,从而加强保证文本描述和视觉内容的一致性。文章被2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)会议录用。 论文地址:https://arxiv.org/abs/1903.05854 代码地址:https://github.com/qiaott/MirrorGAN
Text to image论文精读 MirrorGAN: Learning Text-to-image Generation by Redescription(通过重新描述学习从文本到图像的生成)
|
机器学习/深度学习 编解码 计算机视觉
Text to image论文精读 StackGAN:Text to Photo-realistic Image Synthesis with Stacked GAN具有堆叠生成对抗网络文本到图像合成
本篇文章提出了叠加生成对抗网络(StackGAN)与条件增强,用于从文本合成现实图像,被2017年ICCV(International Conference on Computer Vision)会议录取。 论文地址: https://arxiv.org/pdf/1612.03242.pdf 代码地址: https://github.com/hanzhanggit/StackGAN 本篇是精读这篇论文的报告,包含一些个人理解、知识拓展和总结。
Text to image论文精读 StackGAN:Text to Photo-realistic Image Synthesis with Stacked GAN具有堆叠生成对抗网络文本到图像合成
|
机器学习/深度学习 人工智能 自然语言处理
Text to image论文精读SSA-GAN:基于语义空间感知的文本图像生成 Text to Image Generation with Semantic-Spatial Aware GAN
Semantic-Spatial Aware GAN提出了一种新的语义空间感知GAN框架,文章发表于2021年10月。 论文地址:https://arxiv.org/pdf/2104.00567v3.pdf 代码地址:https://github.com/wtliao/text2image 本博客是精读这篇论文的报告,包含一些个人理解、知识拓展和总结。
Text to image论文精读SSA-GAN:基于语义空间感知的文本图像生成 Text to Image Generation with Semantic-Spatial Aware GAN