论文精度笔记(三):《LUVLi Face Alignment: Estimating LandmarksLocation, Uncertainty...》

简介: 该论文提出了一个名为LUVLi的新型人脸对齐框架,它能够同时预测面部标志点的位置、预测位置的不确定性以及标志点的可见性概率,并通过引入一个新的面部对齐数据集MERL-RAV来训练和验证这一框架。

在这里插入图片描述

论文题目

《LUVLi Face Alignment: Estimating Landmarks’Location, Uncertainty, and Visibility Likelihood》论文

中文题目:LUVLi人脸对齐:估计标记点的位置,不确定性和可见的可能性

参考文献

Kumar, Abhinav; Marks, Tim K.; Mou, Wenxuan; Wang, Ye; Jones, Michael; Cherian, Anoop; Koike-Akino, Toshiaki; Liu, Xiaoming; Feng, Chen (2020). [IEEE 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) - Seattle, WA, USA (2020.6.13-2020.6.19)] 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) - LUVLi Face Alignment: Estimating Landmarks’ Location, Uncertainty, and Visibility Likelihood. , (), 8233–8243. doi:10.1109/CVPR42600.2020.00826

目录

研究背景

相关工作

主要内容

仿真分析

论文总结

1.研究背景

现代人脸对齐方法在预测面部标志的位置方面已经非常准确,但通常不会估算其预测位置的不确定性,也无法预测标志是否可见。针对很多特定的场景现有的人脸对齐方法都失败了,几乎所有的SOTA只输出预测的地标位置,而没有评估后续任务是否应该信任这些地标位置。而且对于现有的科技也会非常依赖面部对齐(作为关键预处理步骤),所以说对于面部对齐的研究非常有必要的。

相关科技—(高级驾驶员辅助系统)ADAS,驾驶员监视和生命体征的远程测量
在这里插入图片描述
这是对三幅测试图像进行联合人脸对准和不确定度估计的结果,绿色为真实的点,蓝色为预测的点,也就是上面那些被头发和手遮住的地方。

2.主要贡献

1.提出了一种用于共同预测标志位置的新颖框架,这些预测位置的不确定性和地标性。我们将它们建模为混合随机变量,并使用经过我们建议的位置,不确定性和可见的可能性(LUVLi)损失训练的深度网络对它们进行估算。

2.发布了一个全新的大型面部对齐数据集标签,其中包含超过19,000个面部表情的完整头部姿势图像。手动标记每个面孔的68个地标的真实位置,并附加信息,包括每个地标是未被遮挡,自身被遮挡(由于极端的头部姿势)还是外部被遮挡。

3.相关工作

3.1Hour Glass模块

在这里插入图片描述
图一:这是利用Hour Glass模块来构建的级联网络结构

输入为256×256,输出为64×64,通过输入图进行卷积操作和平均池化得到的结果与下采样连接,其输入图像和相同大小的特征图作为输入到下一阶段 ,然后得到logits映射之后可得到估计的概率图P,并计算Loss ,另外一条操作就是将logits映射继续与下一层的下采样连接,完成与上一步相同的操作。这里面的每个模块的名字就是Hour Glass, 也就是说这个模块之后的每个阶段的损失函数均基于最小化对数条件似然性。然后这里为了概率图,将单阶段扩展到多阶段,也就是说为了引导下一阶段关注高概率的区域。

3.2 U-net网络架构

在这里插入图片描述
卷积层的数量大约在20个左右,4次下采样,4次上采样。输入图像大于输出图像。

3.3几何均值估计量

在这里插入图片描述
三种采样方法图解。1代表采样点,0代表非采样点
第一张是按行采样,可以调整为隔一行采一行,隔两行采一行等。图中是隔一行采一行。
第二张是卷积核对角线采样,卷积核大小为K,每次采卷积核对角线的数,滑动步长为K。图示K为2
第三者是卷积核右下角采样,卷积核大小为k,每次采卷积核右下角的数,滑动步长为K。图示K为2

4.主要内容

4.1整体架构

在这里插入图片描述
图二:LUVLi方法概述
对于每一个DU-Net的U-net,我们附加一个共享的Cholesky估计量网络(CEN)和可见性估计网络(VEN)到瓶颈层,并应用均值估计到热图。图中为每个U-net i和标记点j对地标位置、不确定性和可见度的联合估计。

具体来说对于每一个输入的RGB人脸图像通过一个DU-Net架构,我们从每个U-net中添加三个额外的分支,第一个新分量是均值估计值,它计算每个地标的估计位置,作为相应热图的正元素的加权空间平均值。第二个和第三个也就是VEN和CEN,伴随着每个U-net的瓶颈层出现。CEN和VEN权重在所有U-nets中共享。CEN的作用是估计每个标记点位置协方差矩阵的Cholesky系数。VEN估计图像中每个标记点可见的概率(1可见0不可见)。
在这里插入图片描述
我们直接估计了单个多元变量的参数拉普拉斯分布或高斯分布。此外,我们的方法没有约束拉普拉斯协方差矩阵或高斯协方差矩阵是对角的。

4.2Cholesky Estimator Network(CEN)

我们使用2×2协方差矩阵Σij表示每个地标位置的不确定性,该矩阵是对称正定的。Σij的三个自由度通过其Cholesky分解捕获:下三角矩阵Lij,使得Σij= LijLij^T。为了估计Lij的元素,我们将Cholesky估计器网络(CEN)附加到每个U-net的瓶颈处。CEN是一个全连接线性层,其输入是U-net的瓶颈(128×4×4=2048维)并且输出是Np×3维向量(Np比如说可以取68)。这是通过sigmoid激活函数来激活的。
在这里插入图片描述

这两个完全连接的层的添加只会稍微增加原始模型的大小,单个U-net的损耗是所有标记点j = 1,…,Np的平均损耗,每个输入图像的总损耗L是所有K个U-net的损耗的加权总和。 公式如下
在这里插入图片描述
Np表示有多少个标记点,Lij表示平均损耗

4.3Visibility Estimator Network (VEN)

和CEN差不多,只有输出的维度不一样,维度为CEN的1/3.

4.4New Dataset: MERL-RAV

在这里插入图片描述
表一:我们用于面部对齐的新数据集的统计信息
在这里插入图片描述
图三: 数据集中一个样本

我们的MERL-RAV数据集是唯一一个使用两种遮挡(自遮挡和外部遮挡)标记每个地标的数据集。只有另一个数据集AFLW显示了哪些独立的地标是自遮挡的,但是它的标记点要少得多,并且没有标记外部遮挡。与Menpo 2D不同,我们的数据集从正面平滑过渡到侧面,逐渐有越来越多的地标标记为自遮挡。

我们的数据集使用了广泛采用的68个300维的地标,以便进行评估和跨数据集比较。因为它使用来自AFLW的图像,我们的数据集的姿态变化高达±120◦偏航和±90◦俯仰。重点为前者,并将图像划分为五个姿势类:正面的、左侧和右侧半剖面,以及左侧和右侧剖面,训练/测试的比例为4:1。

图三为一个sample,在该图中,未遮挡的地标为绿色,外部遮挡的地标为红色,而自遮挡的地标在右侧的面部示意图中用黑色圆圈表示。

5.仿真分析

5.1

在这里插入图片描述
表二:不同方法下对于通用,挑战和完整数据集下的NME测量比较
在这里插入图片描述

Vj表示标记点的可见性,Pj表示真实可见的标记位置,µKj表示预测位置,Np为多少个标记点。所以NME可以度量关键点准确性,NME是越小越好,说明关键点的准确度是更高的。

5.2

在这里插入图片描述
表三:不同方法下针对不同测试集的NMEbox和AUCbox(截止7%)估计指标的比较

AUC:从正样本中随机抽取一个样本,从负样本中随机抽取一个样本,通过二分类模型对其进行预测,得到正样本的预测概率为p1,负样本的为p2,p1>p2的可能性或概率就是AUC。换句话说auc是roc曲线的面积,常用来评价二分类系统的好坏。

最后一层的指的是在300W-LP-2D数据集上进行预训练。我们的方法没有进行预训练,在6个案例中有2个仍然胜过SOTA,我们的方法在更具挑战性的COFW-68数据集的跨数据集评估中表现特别出色,该数据集具有多个外部遮挡的界标。

5.3

在这里插入图片描述
图四:在300 维下测试,所有界标的均方差残差与预测协方差矩阵的比较

首先,我们根据x方向在这里插入图片描述上的预测方差值对每个测试图像的每个界标进行分类。每个容器由散点图中的一个点表示。

从图4可以看出,我们方法的预测协方差矩阵中的三项都对实际的不确定性有很高的预测能力:均方残差(误差)与预测的协方差值成很强的比例,皮尔逊相关系数为0.98和0.99。因此,平均后预测的不确定性很好,但仍有改善的空间。

5.4

在这里插入图片描述
表四:在AFLW-19数据集上的NME和AUC

比较了我们的方法与其他仅在AFLW-19上训练的方法的定位性能(训练的标记点数据集并没有68个点),我们提出的方法不仅优于其他基于不确定性的方法KDN,以及所有以前的SOTA方法,在AFLW-Full和AFLW - front上都有显著的差距。

5.5

在这里插入图片描述
表五:WFLW的所有数据集结果
FR表示测试集中NME大于一定阈值的图像所占的百分比

与SOTA方法相比,LUVLi在所有指标上产生第二好的性能。此外,虽然其他方法只预测地标位置,LUVLi还评估了预测的不确定性。

5.6
在这里插入图片描述
表六:用我们训练的方法进行消融研究
如表6所示,仅计算最后一个u-net的损耗比计算所有u-net的损耗差U-nets,也许是因为梯度消失的问题,我们还发现,拉普拉斯(lap)似然的损失优于高斯(gauss)似然的损失。除了ReLU,我们比较了σ的其他两个函数:softmax和温度缩放的softmax (τ -softmax)。温度缩放softmax和ReLU的结果基本上是一致的,但前者更复杂,需要调整一个温度参数,所以我们选择ReLU作为LUVLi模型。最后,将U-nets的数量从8个减少到4个,将测试速度提高了约2倍,性能下降幅度最小。

6.总结

在本文中,我们提出了LUVLi,一个新的端到端可训练的框架,用于联合估计面部地标位置、不确定性和可见性。这种联合估计不仅提供了准确的不确定性预测,而且在几个数据集上产生了最先进的地标位置估计。实验表明,预测的不确定性区分了不受遮挡和外部遮挡标记点,而没有任何监督该任务。此外,该模型通过采用ReLU热图的空间平均值而不是arg max来实现亚像素精度。我们还引入了一个新的数据集,包含超过19,000张人脸图像的手动标签,其中包含68个标记点,它还用三种可见性类中的一种来标记每一个标记点。尽管我们的实现是基于DU - net架构的,但我们的框架足够通用,可以应用到各种架构中,同时评估标记点位置、不确定性和可见性。

目录
相关文章
|
9月前
|
存储 C语言 C++
【C++数据结构——栈与队列】顺序栈的基本运算(头歌实践教学平台习题)【合集】
本关任务:编写一个程序实现顺序栈的基本运算。开始你的任务吧,祝你成功!​ 相关知识 初始化栈 销毁栈 判断栈是否为空 进栈 出栈 取栈顶元素 1.初始化栈 概念:初始化栈是为栈的使用做准备,包括分配内存空间(如果是动态分配)和设置栈的初始状态。栈有顺序栈和链式栈两种常见形式。对于顺序栈,通常需要定义一个数组来存储栈元素,并设置一个变量来记录栈顶位置;对于链式栈,需要定义节点结构,包含数据域和指针域,同时初始化栈顶指针。 示例(顺序栈): 以下是一个简单的顺序栈初始化示例,假设用C语言实现,栈中存储
347 77
|
人工智能 安全 算法
人工智能时代的服务器操作系统
人工智能时代的服务器操作系统
206 12
|
API PHP 数据安全/隐私保护
IMAP邮箱API接收收取邮件的方法和步骤
IMAP邮箱API是用于自动接收和管理邮件的接口,允许程序无须手动登录即可操作邮件。要使用它,需先配置邮箱允许API访问,选择如Python的imaplib或PHP的imap扩展等IMAP库,然后连接到邮箱服务器,接收和处理邮件。处理完毕后断开连接。AokSend提供高效发信服务,支持SMTP/API接口。使用IMAP API能提升邮件管理效率。
|
SQL 文字识别 安全
DVWA Insecure CAPTCHA 通关解析
DVWA Insecure CAPTCHA 通关解析
|
机器学习/深度学习 算法 数据可视化
Transformer要变Kansformer?用了几十年的MLP迎来挑战者KAN
【5月更文挑战第15天】KANs,一种基于Kolmogorov-Arnold表示定理的新型神经网络,以其独特结构挑战传统的MLP。KANs在边而非节点上使用可学习激活函数,展现出超越MLP的准确性和更快的扩展性。其可解释性优势利于科学应用,但训练速度较慢,未来优化有望改善。KANs在科学任务和潜在的Transformer集成中展示出广阔的应用前景。[链接](https://arxiv.org/pdf/2404.19756)
426 5
|
安全 网络协议 网络安全
安全开发实战(2)---域名反查IP
本文介绍了域名与IP地址的关系以及域名反查IP的作用。通过DNS,域名与IP地址相互映射,方便用户访问网络资源。在渗透测试中,反查IP用于确定服务器真实地址、进行目标侦察和安全性评估,也能检测DNS劫持。文中提供了一些Python代码示例,演示了如何进行域名反查IP和批量处理,并强调在处理时要注意去除换行符以避免错误。
|
安全 程序员 数据安全/隐私保护
终于有篇文章把后管权限系统设计讲清楚了
【2月更文挑战第1天】在常用的后台管理系统中,通常都会有权限系统设计,以用于给对应人员分配不同权限,控制其对后管系统中的某些菜单、按钮以及列表数据的可见性。
645 2
终于有篇文章把后管权限系统设计讲清楚了
|
机器学习/深度学习 人工智能 达摩院
!!抠图分割-在线自动抠图-快速抠图-0元免费调用33333次!!
视觉智能开放平台发福利啦~~大家快来跟我一起薅羊毛!!!
|
机器学习/深度学习 编解码 计算机视觉
【OctaveConv】下降一个八度:用八度卷积减少卷积神经网络中的空间冗余
【OctaveConv】下降一个八度:用八度卷积减少卷积神经网络中的空间冗余
356 0
【OctaveConv】下降一个八度:用八度卷积减少卷积神经网络中的空间冗余
|
前端开发 Java 关系型数据库
IDEA+Java+SSH+Mysql实现Web医院在线挂号系统【建议收藏】(上)
IDEA+Java+SSH+Mysql实现Web医院在线挂号系统【建议收藏】
454 0
IDEA+Java+SSH+Mysql实现Web医院在线挂号系统【建议收藏】(上)