论文精度笔记(二):《Deep Learning based Face Liveness Detection in Videos 》

简介: 论文提出了基于深度学习的面部欺骗检测技术,使用LRF-ELM和CNN两种模型,在NUAA和CASIA数据库上进行实验,发现LRF-ELM在检测活体面部方面更为准确。

论文题目

Deep Learning based Face Liveness Detection in Videos

参考文献2017 IEEE(International Artificial Intelligence and Data Processing Symposium (IDAP))

《视频中基于深度学习的面部表情检测》本人自译,转载译本需经许可!!!!!

摘要

人脸是重要的生物特征量,可用于访问基于用户的系统。由于可以通过移动摄像头和社交网络轻松获得人脸图像,因此基于用户的访问系统应具有强大的抵御欺骗性面部攻击的能力。换句话说, 一个可靠的基于人脸的访问系统可以确定输入人脸的身份和活跃性。为此,已经提出了各种基于特征的欺骗面部检测方法。这些方法通常针对输入图像应用一系列处理,以检测面部的生动度。本文提出了一种基于深度学习的欺骗人脸检测算法。两种不同的深度学习模型用于实现这一目标,即局部感受野(LRF)-ELM和CNN. LRF-ELM是最近开发的模型,其中包含卷积和池化层,而全连接层则使模型快速。但是,CNN包含一系列卷积和池化层。此外,CNN模型可能具有更多完全连接的层。在两个流行的欺骗性面部检测数据库NUAA和CASIA上进行了一系列实验。然后比较所获得的结果,并且对于两个数据库,LRF-ELM方法均产生更好的结果

索引词-人脸识别,人脸欺骗检测,深度学习,CNN,LRF-ELM

1.介绍

人脸识别在用户身份验证中起着至关重要的作用,并且对于许多基于用户的系统来说都是必不可少的[1]。在过去的十年中,人脸识别在许多领域得到了快速发展[2]。面部识别系统面临着各种类型的面部欺骗攻击,例如打印攻击,重播攻击和3D掩饰攻击[3]。
帕特尔(Patel)等人。研究了手机上的面部欺骗检测,他们使用移动面部欺骗数据库开发了可在Android移动操作系统上运行的原型,作者还建立了一个名为MSU MSF的欺骗性人脸数据库,其中包含1,000多个主题[3]。Wen等。提出了一种有效的面部欺骗检测算法。作者的目标是设计一种具有快速响应能力的,具有良好泛化能力的系统。 图像失真分析是算法中提取特征向量的关键作用。功能包括镜面反射,模糊,色度矩和颜色多样性。打印的照片攻击和重播的视频攻击用作面部欺骗攻击,以确定是活着的还是欺骗的面孔。多任务支持向量机(SVM)分类器被用于分类任务[4]。Tirunagari等。开发了一种面部反欺骗检测算法。他们通过使用一种称为动态模式分解(DMD)的算法来捕获视频的内容,以捕捉生动的提示,例如眨眼,嘴唇移动和其他面部动态。为了证明该算法的有效性,在三个公共数据库上进行了实验研究[5]。 在文献中,Komulainen等人。率先研究了面部动态纹理以进行面部欺骗检测。引入了一种通过使用局部二进制模式(LBP)算法来学习面部纹理的结构的方法。在两个公共数据库上的实验显示了实验结果超越了2013年的最先进技术[6]。 Tan等。提出了一种实时且非侵入式的面部欺骗检测方法。他们的方法涉及对Lambertian模型的分析。为了实现该方法,在各种光照条件下收集了一个包含15个对象的大型面部欺骗数据库。 通过标准网络摄像头捕获了50,000多张照片图像。对所提出方法的评估为欺骗检测提供了有希望的性能[7]。张等。发布了包含50个主题的面部反欺骗数据库。该数据库涵盖了三种类型的攻击,并包括三种成像质量,在第三节中进行了详细描述。为了在分类过程中做出最终决定,使用了SVM。作者希望该数据库能为将来的面部欺骗工作提供帮助[8]。
在本文中,提出了一种基于深度学习的欺骗人脸检测技术。为了实现这一目标,我们使用了两种不同的深度学习模型,即LRF-ELM和CNN。 LRF-ELM模型包含一个卷积层,一个池化层和一个全连接层。此外, CNN模型具有五个卷积层和三个完全连接的层。 整流线性单元(RELU)和局部响应归一化层位于第一和第二卷积层之后。 模型中还有五个最大池化层,它们遵循一些卷积层。有两个dropout 层,在第一个和第二个全连接层之后(概率为0.5), 最后,loss层用作最后一层。面部欺骗检测已从打印攻击和重播攻击方面进行了分析。在两个流行的欺骗性面部检测数据库NUAA和CASIA上进行了一系列实验。
本文的组织结构如下:在第二部分中,简要介绍了深度学习模型的组成部分。工作的核心是第三部分,其中提供了数据库,深度学习模型和实验结果。此外,所有实验结果和相关比较均在第三部分之内。最后的结论和未来的工作计划将在第四部分给出。

2.人脸欺骗检测方法

在文献中,作者通常使用一种人脸欺骗检测框架,该框架首先处理一个特征提取阶段,然后是一个分类阶段。在目前的工作中,目标是使用一个紧凑的结构,其中特征提取和分类阶段相结合。为此,我们考虑了最近比较流行的深度CNN和LRF-ELM方法。深层模型的详细介绍如下。该方法的流程图如图1所示。

图1所示。给出了该方法的流程图。
图1:给出了该方法的流程图

A.深度模型的简要理论
本节简要回顾了deep模型的理论。关于LRF-ELM和CNN模型的更详细的解释见[9,10]。一个通用的深度学习模型由卷积层、池化层和全连接层组成。
1)卷积层:这一层被称为CNN架构的核心层。在这一层中有一组可学习的filters。在这一层。在CNN的训练过程中,每个滤波器都在前向传递中对输入体积的宽度和高度进行卷积。卷积操作之后,构造了滤波器的二维激活映射。结果,这个网络学习filters,当他们在输入的空间位置看到特定类型的特征时就会激活。
2)池化层:CNN架构的另一个重要概念是池化。它形成了一个非线性下采样层。池化操作可以用几个非线性函数来处理。最大池化似乎是最常见的方法,即将输入图像分割成一组不重叠的矩形子区域。对于每个子区域,以最大值作为输出。池化操作减小了输入的空间大小,也减少了网络中的参数量和计算量。
3)全连接层:经过若干个卷积层和池化层,分类过程在一个全连接层进行处理。处于完全连接层中的神经元与前一层的所有激活都有全连接。它们的激活可以通过矩阵乘法和偏置偏移来计算。

3.实验工作

如前所述,我们考虑了CNN和LRF-ELM两种深度模型。LRF-ELM模型包含一个卷积层、一个池化层和一个全连接层。此外,CNN模型有五个卷积层和三个完全连通的层。整流线性单元(RELU)和局部响应归一化层在第一和第二卷积层之后。在模型中还有五个最大池层,它们遵循一些卷积层。在第一层和第二层完全连接的层之后有两个dropout 层,概率为0.5。最后,loss层用作最后一层。值得一提的是,对于LRF-ELM模型,所有输入图像的大小调整为32×32像素,对于CNN模型,其大小调整为224×224像素。
为了评估所提出方法的性能,在两个公众面部欺骗数据库上进行了实验。表I中列出了NUAA和CASIA数据库的比较。有关数据库的相关信息,请参阅A和B小节。

在这里插入图片描述
表I.数据库比较

A. NUAA数据库

NUAA数据库通过使用通用网络摄像头来区分照片中的真实面孔。它是在不同的照明条件和地点收集的。这项工作中有十五个类别。 作者捕获了两种类型的图像:称为“客户”的实时主题图像和称为“冒名顶替者”的照片[7]。 Client归一化和Imposter归一化图像的样本如图2所示。

在这里插入图片描述
图2:NUAA数据集的样本图片,第一行和第三行是客户规范化,第二行和第四行是冒名顶替者标准化

在这项实验工作中,使用了几何归一化的灰度面部图像数据库。归一化的数据库包含用于客户测试的3,362个在线主题和用于客户培训的1,743个在线主题。此外,它还有5,761张用于冒名顶替者测试的照片和1,748张用于冒名顶替者训练的照片。数据库中的每个图像均具有8位灰度级(64×64像素),并且规范化数据库中的图像总数为12,614。

B.CASIA数据库

由Zhang等人建立的CASIA面部欺骗数据库由50个主题组成。为了从假脸攻击中确定活脸[8]。为此设计了三种攻击,分别是打印照片攻击,剪切照片攻击和视频重播攻击。来自视频图像的攻击类型显示在图3的第二,第三和第四行中。
使用三个不同的相机为数据库捕获三个不同的成像质量视频(低分辨率,正常分辨率,高分辨率)。低分辨率视频的尺寸为480×640像素,普通分辨率的像素为640×480像素。但是,尽管高分辨率视频的原始大小为1920×1080像素,但为节省计算成本,作者将其裁剪为1280×720像素。视频质量显示在图3的第一,第二和第三栏中。
在安排数据库时,每个主题都有一组12个视频(3个直播,9个假冒),如图3所示。测试部分数据库的30个主题,因此360个视频。
对于训练部分,有240个视频为20个受试者录制。数据库共有600个视频,如表一所示。

在这里插入图片描述
图3. CASIA数据库的样本图像。第1行:实时,第2行:打印照片攻击,第3行:剪切照片攻击,第4行:视频重播攻击。第1列:低分辨率,第2列:普通分辨率,第3列:高分辨率。

C.性能评估
在两个数据库上都使用两个深度模型进行了实验。 LRF-ELM模型的卷积层包含40个大小为5×5的滤波器。 LRF-ELM方法的正则化参数(C)选择为0.2。 LRF-ELM模型的批处理大小分配为500。此外,CNN模型的三个卷积层包含64个大小为11×11的滤镜,256个大小为5×5的滤镜和256个大小为3×3的滤镜。 CNN模型的学习参数固定为0.001,并且批次大小选择为25。

在这里插入图片描述
表二:获得的结果
所得结果列于表二。 LRF-ELM模型为两个数据库都产生更高的精度值。对于NUAA数据库,LRF-ELM模型的正确分类率为84.04%,而CNN模型的正确分类率为76.31%。换句话说,LRF-ELM模型产生的准确度提高了近8%。对于CASIA数据库,可以看到类似的性能。与CNN模型相比,LRF-ELM模型产生的准确结果高出近6%。

4.总结

在本文中,对面部表情的检测进行了比较研究。面部活动度检测是数字取证环境中的热门话题,在该环境中,需要基于面部的访问系统的可靠性。随着深度学习工具的发展,越来越多的实际应用正在被提出。 在这项工作中,本文的作者开发了一种基于深度学习的面部欺骗检测系统。流行的深度学习方法(LRF-ELM和CNN)用于面部表情检测。在这项研究中使用了两个广泛使用的面部活动度检测数据库。 获得的结果表明,对于两个数据库,LRF-ELM方法均产生了更准确的结果。此外,LRF-ELM方法的训练时间比CNN模型的训练时间短。在未来的工作中,作者计划通过使用不同的深度模型来增强CNN的性能。另外,计划是使用各种尺寸的面部图像,以提高CNN模型的质量。

目录
相关文章
|
1月前
|
机器学习/深度学习 人工智能 文件存储
【小样本图像分割-3】HyperSegNAS: Bridging One-Shot Neural Architecture Search with 3D Medical Image Segmentation using HyperNet
本文介绍了一种名为HyperSegNAS的新方法,该方法结合了一次性神经架构搜索(NAS)与3D医学图像分割,旨在解决传统NAS方法在3D医学图像分割中计算成本高、搜索时间长的问题。HyperSegNAS通过引入HyperNet来优化超级网络的训练,能够在保持高性能的同时,快速找到适合不同计算约束条件的最优网络架构。该方法在医疗分割十项全能(MSD)挑战的多个任务中展现了卓越的性能,特别是在胰腺数据集上的表现尤为突出。
20 0
【小样本图像分割-3】HyperSegNAS: Bridging One-Shot Neural Architecture Search with 3D Medical Image Segmentation using HyperNet
|
机器学习/深度学习 数据挖掘
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation
57 1
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation
|
机器学习/深度学习 自然语言处理 算法
【论文精读】COLING 2022-KiPT: Knowledge-injected Prompt Tuning for Event Detection
事件检测旨在通过识别和分类事件触发词(最具代表性的单词)来从文本中检测事件。现有的大部分工作严重依赖复杂的下游网络,需要足够的训练数据。
174 0
【论文精读】COLING 2022-KiPT: Knowledge-injected Prompt Tuning for Event Detection
|
机器学习/深度学习 编解码 数据可视化
Speech Emotion Recognition With Local-Global aware Deep Representation Learning论文解读
语音情感识别(SER)通过从语音信号中推断人的情绪和情感状态,在改善人与机器之间的交互方面发挥着至关重要的作用。尽管最近的工作主要集中于从手工制作的特征中挖掘时空信息,但我们探索如何从动态时间尺度中建模语音情绪的时间模式。
141 0
|
数据挖掘
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation-ppt版学习笔记
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation-ppt版学习笔记
129 0
|
机器学习/深度学习 PyTorch API
CVPR 2017|Deep Feature Flow for Video Recognition论文复现(pytorch版)
<原文>:在中间特征矩阵上应用随机初始化的1 × 1卷积层,得到(C+1)分图,其中C为类别数,1为背景类别。然后通过softmax层输出逐像素概率。因此,任务网络只有一个可学习的权重层。整体网络架构类似于DeepLab
187 0
|
机器学习/深度学习 资源调度 算法框架/工具
翻译:Deep Residual Learning for Image Recognition
翻译:Deep Residual Learning for Image Recognition
137 0
|
机器学习/深度学习 人工智能 搜索推荐
【推荐系统论文精读系列】(十五)--Examples-Rules Guided Deep Neural Network for Makeup Recommendation
在本文中,我们考虑了一个全自动补妆推荐系统,并提出了一种新的例子-规则引导的深度神经网络方法。该框架由三个阶段组成。首先,将与化妆相关的面部特征进行结构化编码。其次,这些面部特征被输入到示例中——规则引导的深度神经推荐模型,该模型将Before-After图像和化妆师知识两两结合使用。
162 0
【推荐系统论文精读系列】(十五)--Examples-Rules Guided Deep Neural Network for Makeup Recommendation
|
机器学习/深度学习 语音技术 搜索推荐
语音顶会Interspeech 论文解读|Fast Learning for Non-Parallel Many-to-Many Voice Conversion with Residual Star Generative Adversarial Networks
Interspeech是世界上规模最大,最全面的顶级语音领域会议,本文为Shengkui Zhao, Trung Hieu Nguyen, Hao Wang, Bin Ma的入选论文
语音顶会Interspeech 论文解读|Fast Learning for Non-Parallel Many-to-Many Voice Conversion with Residual Star Generative Adversarial Networks
|
机器学习/深度学习 自然语言处理 C#
论文笔记之:DualGAN: Unsupervised Dual Learning for Image-to-Image Translation
DualGAN: Unsupervised Dual Learning for Image-to-Image Translation2017-06-12  21:29:06       引言部分:   本文提出一种对偶学习模式的 GAN 网络结构来进行 image to image translation。