AAAI(Association for the Advance of Artificial Intelligence)—国际先进人工智能协会:该协会是人工智能领域的主要学术组织之一,其主办的年会(AAAI, The National Conference on Artificial Intelligence)也是人工智能领域的国际顶级会议,在中国计算机学会的国际学术会议排名以及清华大学新发布的计算机科学推荐学术会议和期刊列表中,均被列为人工智能领域的 A 类顶级会议。AAAI 2022 中有效投稿9020篇,1349篇论文被接收,最终接收率仅为14.96%。 以下是本篇论文作者之一,来自蚂蚁隐私计算框架“隐语”团队的王莹桂,对论文重要研究成果的介绍:
00摘要某些应用程序需要在第三方服务器上执行人脸识别,具有恶意的攻击者可能会访问该服务器,危害用户隐私。本文提出了一种实用的隐私保护频域人脸识别方法,该方法不需要密钥管理,在训练和推断过程中保护隐私。实验表明,该方案在识别性能和推理时间方面均表现较优,与对明文图像进行人脸识别的性能相当。
方案首先收集具有相同频率的人脸图像信息,并形成不同的频率通道。只有部分通道被保留,并输入分析网络执行可解释的隐私和可用性平衡分析,以确定对图像可视化重要,但对于保持较高识别精度并不重要的通道。分析网络的损失函数包括人脸识别损失函数和人脸可视化惩罚项,网络以端到端的方式进行训练。
我们发现,利用所提出的分析网络,在人脸识别过程中,超过94%的图像能量会被舍弃。为了进一步保护剩余的频率分量,我们提出了一种快速图像脱敏方法。新方案在保持可识别性的同时,有效地去除了人脸图像的视觉信息,并在多个人脸数据集上进行了验证。下文对论文研究涉及的重要内容进行详细介绍。
图1 频域隐私保护人脸识别框架
01频域人脸成分重要性分析
人脸图像在频域分解后,每个频率对识别和可视化的贡献都是不同的。对频域人脸成分重要性进行分析,目的是(在推断的过程中)把对图像可视化信息很重要但对识别任务不重要的人脸图片信息去掉,从而确保识别任务精度基本不损失且原始图像的隐私得到保护,直接舍去对图片可视化很重要的信息(占图片一半以上的信息量)的做法,一定程度上加大还原原始图像的难度。
图2 频率通道重要性分析网络
这里采用人脸识别场景,对上图所示频率通道重要性分析网络端到端训练过程进行说明。在人脸识别场景中原始图像是指经过人脸检测和人脸对齐后的人脸图像,首先,对原始人脸图像提取局部离散余弦变换系数(比如对112*112的图像,按照步长为8、8*8大小的块进行离散余弦变换),对每次离散变换得到的结果,按照相同频率放在一起的原则,组成不同频率分量的特征图,然后对比较重要的频率分量通道进行选择,选择可以基于SENet对不同通道重要性的打分情况进行,或者对频率分量由低到高排序,固定保留前半部分频率分量的通道。
然后对每个通道乘以可训练的系数,在模型训练过程中,当该可训练的系数小于某一阈值时便舍弃这一通道,后面所接的模型为针对特定任务的网络模型,针对人脸识别任务的就是人脸识别模型。由于模型处理的是频率域信息,网络模型需要把原始图像的3通道输入修改为频率通道数量的输入,而且每个频率通道尺寸需要采样到和原始图像一样大小。
模型训练过程中需要有损失函数进行约束,总的损失函数包括两部分,一部分是特定任务的损失函数,对于人脸识别来讲可以采用ArcFace等损失函数,另一部分为针对隐私保护的损失函数。隐私保护的损失函数Losspri如下:
Losspri=a1f1+a2f2+...+aifi, (i=1,...,N)
其中,ai为与每个通道相乘的系数,fi为每个通道中元素绝对值和的均值,N为经过重要性通道选择后的通道数量。这样设计的原因是:一般情况下一个通道的能量越大,就对图像可视化越重要,低频信息一般具有较大的能量而中高频信息能量较小。最小化该损失函数会使训练过程关注能量较小的通道,而人脸识别损失函数来约束识别精度。模型训练过程中,可训练的通道系数可能为任意取值,为了其取值在0到1之间,令ai=1/(1+exp(-x)),x为可训练参数,其取值不受限。
当模型训练完成,原始图像经过提取局部离散余弦变换系数,相同频率组成同一特征图,选择重要性通道后,根据训练模型结果把舍弃的通道直接设置为0,然后输入模型进行推断。经过实验发现,直流信息对识别的贡献并不大,而对可视化的贡献很大。从图3(a)(b)是随机选取的两张图片,图3(c)(d)是仅保留直流分量的可视化图。
图3 随机图片直流分量可视化效果
02频域快速脱敏算法
图4 频域快速脱敏算法流程
去掉对识别任务贡献不大的直流分量后,为了安全起见,其它频率成分也需要进行保护,为此提出快速脱敏算法。
人脸脱敏过程:首先对原始人脸图像进行局部离散余弦变换,对每次离散变换得到的结果,按照相同频率放在一起的原则,组成不同频率分量的特征图,然后对比较重要的频率分量通道进行选择,对频率分量由低到高排序,固定保留前半部分频率分量的通道,并去掉直流成分。对选择后的通道进行第一次Shuffle操作,然后对这些数据进行自我归一(自我归一化:指每张人脸归一化参数和其它人脸参数不同,参数仅仅取决于自身频率分量大小),下一步操作是通道之间混合并降维,通道混合是指相邻通道之间进行某种线性组合(比如两个相邻通道取平均),只保留线性组合后的结果,这就导致通道数量减少一维,通过自我归一化和通道之间混合降维导致数据维度的缺失,理论上加大了恢复原数据的难度,最后进行第二次通道Shuffle,并进行第二次自我归一化操作,这样就完成了人脸图像快速脱敏。
03频域隐私保护人脸识别
图5 频域隐私保护人脸识别方案流程
本小节介绍基于人脸脱敏方法提出的频域隐私保护人脸识别(PPFR-FD)方案。
如图5(a)所示,PPFR-FD采用已有的FR模型,如ArcFace。为了保护用户面部数据的隐私,训练和识别阶段均仅使用脱敏人脸图像。在训练阶段,使用快速人脸脱敏方法将训练数据集中的所有原始人脸图像转换为其脱敏版本。由于经过快速脱敏后,数据宽高维度变小,通道数变大,为此加入输入适配层。其把脱敏数据宽高插值扩充到原始大小,再把原始人脸识别网络的第一层输入通道大小改为变大后的通道数。图5(b)为推断阶段。