Hierarchical Attention-Based Age Estimation and Bias Analysis

基于注意的层次年龄估计与偏倚分析

代码链接)

摘要：主要是讲述做了什么？提出深度学习的方法来估计年龄从面部图像。新技术图像增强-聚合方法，层次概率回归模型(就喝了离散概率年龄估计和回归模型)，应用的数据集伟CACD和 MORPH II数据集上

第一段：外部原因影响真实年龄，但面貌能在一定程度上体现出年龄。

第二段：之前将人脸图像与一个典型的空间框架对齐，然后分析，现在基于深度学习的方法，局部特征的学习使用他们的年龄差异作为度量测量，基于排序的方法，采用序数分类，利用年龄标签的序数结构来提高准确性。

第三段：核心贡献：提出一种新的基于注意力的聚合,CNN嵌入每个输入图像的多个增强。图一(b)

在提出了一个层次概率回归的方案，该方案学习了一套年龄回归变量，每个回归变量分别与有限的年龄范围有关，以及每个年龄范围的概率。

偏移分析上提出的关于种族和性别的年龄估计方案，第一个研究基于面部的年龄估计的偏差分析，使用的方案达到了最先进的(SOTA)精度

相关工作：

基于分层注意力的年龄估计

提出了一种基于深度学习的方案来在给定面部图像X的情况下估计对象的年龄a。使用图一中给出的方案，由基于变压器和编码器的新颖的自我注意嵌入架构和分层回归架构组成，

A. 基于自我注意的图像嵌入

如图1所示，每个输入图像X被增强K次，图像增强的权重X，每一个都是用CNN主干嵌入。使用变压器编码器，由于增强嵌入的序列是无序的，所以不需要位置编码，并且编码是通过将完全学习的类添加到编码序列中得到的。

B. 层次概率年龄回归

基于深度学习的年龄估计方案的推理阶段是基于分类和回归。基于分类的方案旨在将一个人脸图像的估计年龄A分类为$A_c$年龄之一。回归方案的准确性可以通过使用回归变量$R_c$的集合来提高，其中每个回归$R_c$估计相对于离散标签$A_c$的残差回归。我们建议利用图二所示的框架来利用分类和回归方法的优势，而不是将年龄分类归于$A_c$，而是估计用于估计预算年龄的年龄概率P。
$$ \hat a = \sum P(a=a_c) R_c(\hat x) $$
分类器通过多重损失进行优化：第一项是交叉熵损失$L_CE$他优化了分类概率$P(a=a_c)$，第二项是平均方差损失，
$$ L_M=\frac{1}{2N} \sum _{i=1}^N(\sum _{c=1}^C P(a=a_c)·c-a_i^0)^2 \tag 2 $$

$$ L_V = \frac {1}{N}\sum _{i=1}^N \sum _{c=1}^C P(a=a_0)(c-\sum _{c=1}^Cc·P(a=a_c))^2 \tag 3 $$

其中N是一批处理中的点数，(2)中使经验期望和真实$a_i$之间的均方差(MSE)最小，而(3)使估计的经验方差最小。回归集合$R_c$由相应的L2损失，L_cMSE是应用于a_c的均方误差损耗。
$$ L=\lambda_1L_{CE}+\lambda_2L_M+\lambda_3L_M+\lambda_4\sum _cL^c_{MSE} \tag 4 $$
其中$\lambda_i$是预定义的权重，虽然说衰老是个连续的过程，但来自相近年龄的面孔在视觉上比来自远处的面孔更相似，所以每个年龄集c的年龄是由一个特定的回归因子$R_c$估计的。因为衰老是连续的，所以限制每个局部回归银子$R_c(x)$可能会导致显著的边界效应。因此我们最终指定为(1)，以允许对概率估计器和回归器$R_c(x)$的进程进行联合优化和端到端的训练。由于顺序分类和均值方差损失，距离较远的预测不太可能得到较高的概率(越远效果越差)。在误分类到相邻类的情况下，附近的局部估计量可以补偿并提供稳健估计(能够提供补偿进行纠正操作)

图二：

提出的层次回归框架，输入特征向量X由两个并行分支共同处理；上面是分类器和概率估计器，下面是回归集合$R_c(x)$年龄估计值a是由$C1$的经验预测给出的，利用交叉熵损失$L{CE}$对上分类自网络进行优化，利用均方误差损失$L{MSE}$对局部回归变量集合的输出进行优化。网络的年龄估计a通过平均方差损失$L{MV}$进行优化。

实验结果：

数据集MORPH Album II是最大的纵向人脸数据库之一，介绍了数据集构成如表一所示， CACD数据集包含了2000个人，便能够给出每幅图像中的主题的身份。两个评估协议，第一是随即分割协议，人脸图像分成训练集和测试集。这样同一张图像可能出现在训练和测试集。这就在训练和测试集之间造成了泄露，因为它本质上混合了年龄估计和年龄识别。因此一个人脸识别方案，不需要年龄估计训练，可以达到完美的年龄估计精度。第二个协议是主题排他性协议。其中身份被随机分割为训练或测试，而不能同时，以避免泄露，由于泄漏问题，所有方案和数据集的RS精度都显著高于SE得分。因此，我们认为，RS度量应该被认为是不太可靠的，并在未来的工作中尽可能地避免。在这项工作中，我们报告的RS结果是由于遗留的结果，我们进行了比较。MORPH Album II和CACD数据集可以用来评估使用这两种协议的年龄估计的准确性。

实施细节

年龄估计的准确性是通过平均绝对误差(MAE)来评估的，MAE是用于预测的年龄a_i和真实年龄a_i之间的平均绝对误差来计算的。
$$ MAE=\frac{1}{N}\sum _i|\hat {a_i}-a_i| $$
其中N为测试图像的数量。误差越低，精度越好。使用以前的SOTA年龄估计方案中使用的CNNVGG-16和ResNet-34CNN骨干、所以比较的是架构而非骨干。所提出的年龄估计方案分两个阶段进行训练，首先采用CNN VGG-16和ResNet-34基于图像网络的骨干。使用MORPH ALbum II数据集和Arcface loss训练进行人脸识别。然后端到端训练整个提议的解决方案。输入的人脸图像首先由视网膜人脸检测器进行检测、裁剪和对齐。然后调整大小为244×244，提出的基于注意力的聚合是使用一提出的基于注意力的聚合是使用一个有四个块的转换编码器实现的，p=为0.1，其中每个块包含一个有四个头的MHA层。每个输入图像增强为K = 10图像，以0.5的概率随机应用多个增强：水平翻转、颜色抖动、随机仿射变换和随机擦除图像[55]的小部分。我们还应用了随机判断的方法，但是并没有提高精确性。使用Ranger优化器，将矫正的Adam与前瞻技术相结合，以及余弦退火学习率衰减。损失超参数$\lambda_1,\lambda_2,\lambda_3,\lambda_4$分别是0.2，0.05，1,1.

结果

表三为结果分析，将数据集分割80%和20%。

在RS和SE协议中，表2显示论文给出的方法优于先前所有的方法，RS精度(MAE=1.13)显著高于SE精度(MAE=2.53).与之前一样，我们将其归因于RS协议中的泄露，这使得RS结果不那么具有指示性。图三是年龄误差得分布类似于以零为中心的高斯分析，其中大多数估计误差(≈77%)是在三年的时间间隔内。

特别是，论文给出的层次概率方法优于其他人。

表三是CACA数据集上的结果，使用RS协议，与CAO等人和Li等之前按的SOTA结果进行了比较。

我们的方案优于其他方案，尽管我们使用较浅的主干(VGG16),使用相同的VGG16主干相比，准确率提高了0.9%。应用SE协议。是第一个对这个数据集进行评估，4

消融研究

我们修改了一个单一的算法组件或超参数来评估他并将结果实现应用于MORPH II数据集，这允许我们同时应用RS和SE协议，

我们首先评估了SAE基于注意力的增强聚合方案，我们是吸纳了两个额外的变化，第一个(无编码器)：是一个没有扩充和聚合的朴素基线，其中我们只使用输入图像的一个副本。这导致最低的精度为2.63。当使用平均池化(10个平均池化)应用10个增强时，与我们的SOTA为2.53相比，精度提高到2.58。关于使用增强的数量，表四所示的结果说明了提出的增强聚合的有效性，就是在使用10个增强量之前都是随着增加额外的增强而提高估计精度。在10个增强之后精度就下降了。我们认为，所提出的聚合方案具有普遍的适用性，可以应用于任何输入图像可以增强的任务。

通过尝试使用多个配置来检查编码器的配置，使用编码器层越多，网络的学习能力越大，但更容易过拟合，通过表5可以看出四层和四层MHA都达到了“最佳点”，使用更深层次的配置会导致过拟合，在表六中验证了年龄分类箱的大小和相应选择分类当箱体尺寸为1时最优。

偏差分析

根据II-B提出的基于MORPH II数据集的统计偏差分析，该数据集的性别和种族划分如表1，

图一：提出的基于注意力的增强聚合与测试时间增强(TTA),(a)图在TTA中，使用输入X的安东尼以增强来训练网络，在运行时，输入增加K=10次网络分别运行K次(互不关联)，最后去平均值。(b)图是使用一个网络将每个输入X创建K=10个不同的增强X_i。通过CNN主干x_i嵌入它们，并使用变压器编码器聚合嵌入序列。将聚合的特征向量X输入到层次回归中，网络只运行一个。

两个的区别是a网络运行10次，相互之间没有关联，b是将10个输入设置不同的权重，网络运行一次。

Hierarchical Attention-Based Age Estimation and Bias Analysis