让换脸无所遁形!南洋理工发布全球首个DeepFake篡改序列检测还原数据集|ECCV 2022

简介: 让换脸无所遁形!南洋理工发布全球首个DeepFake篡改序列检测还原数据集|ECCV 2022
【新智元导读】检测DeepFake不止二分类!南洋理工大学的研究人员建立并开源了全球首个 Seq-DeepFake数据集,将其拓展到检测篡改序列,并进一步提出SeqFakeFormer模型作为baseline。根据检测出的篡改序列,还可以逆序还原出原始人脸。


由于生成模型的快速发展,高保真度的人脸图片和视频可以非常容易地生成。但是恶意使用生成模型产生难辨真假的虚假人脸图片或者视频进而导致虚假信息传播的现象也逐渐引起了广泛关注,这就是越来越严重的DeepFake问题。

 

解决DeepFake问题最常见的方式是学习一个二分类模型来进行真/假判别

 

现有基于二分类的DeepFake检测和本文提出的Seq-DeepFake的对比

但如今由于人脸编辑App的流行,我们可以非常方便地对人脸图片进行多步序列DeepFake篡改。比如对一张人脸图片,先后进行「添加眼镜-加入笑容-去掉胡须」的序列篡改。

 

为解决此类新型DeepFake问题,来自南洋理工大学的研究人员提出了检测并还原DeepFake篡改序列(Seq-DeepFake)任务

 

论文链接: https://arxiv.org/pdf/2207.02204.pdf

GitHub: https://github.com/rshaojimmy/SeqDeepFake

项目主页: https://rshaojimmy.github.io/Projects/SeqDeepFake

 

相比于现有基于二分类 (真/假) 的 DeepFake 检测,Seq-DeepFake任务将其扩展为要求检测不同长度和顺序的篡改序列。

 

长度为3的篡改序列

 

除了篡改检测,Seq-DeepFake还可以根据检测出的篡改序列,逆序还原出原始人脸

 

论文作者建立并开源了全球首个Seq-DeepFake数据集

 

Seq-DeepFake 样例

 

对于数据集中的一张人脸图片,我们可以通过长度1~5的不同序列进行篡改。为了更全面的研究此问题,本文考虑了两种不同的篡改方法,即人脸部件序列篡改(sequential facial components manipulation)[1] 和人脸属性序列篡改 (sequential facial attributes manipulation) [2] 。

 

Seq-DeepFake 数据集

第一排为人脸部件序列篡改

第二排为人脸属性序列篡改

 

人眼很难察觉原始人脸和篡改人脸之间的区别,而进一步检测出不同的篡改序列则难度更大。

 

在Seq-DeepFake数据集中,人脸部件序列篡改总共35,166张图片,包含了28种不同长度的篡改序列。人脸属性序列篡改总共49,920张图片,包含了26种不同长度的篡改序列。

 

现有的人脸编辑算法基本基于 Generative Adversarial Network (GAN)。在GAN的隐空间中难以达到完美的语义分解[3],这会导致在编辑一种人脸部件/属性后,会间接影响其他人脸部件/属性。比如步骤「Eye-Nose」编辑鼻子后会导致前一步的眼睛和嘴巴部位的变动。

 

 

由此,我们可以从此空间关系中发掘出Seq-DeepFake的空间篡改痕迹 ( spatial manipulation traces )

 

再者,改变篡改先后顺序,如下图(a)中鼻子和眼睛导致不同的注视方向,和(b)中留海和微笑的先后顺序会产生不同的刘海数量,这说明篡改顺序会进一步影响篡改所影响的空间关系

 

 

就是说,我们可以在空间篡改痕迹的基础上捕捉到序列篡改痕迹( sequential manipulation traces ),并最终据此检测出 DeepFake 篡改序列。

 

根据上述观察,可以把Seq-DeepFake看成是一种特殊的image-to-sequence problem(例如image caption),文中提出了Seq-DeepFake Transformer (SeqFakeFormer)来检测篡改序列

 

Seq-DeepFake Transformer (SeqFakeFormer)

 

SeqFakeFormer由两个关键部分组成:Spatial Relation Extraction 和 Sequential Relation Modeling with Spatially Enhanced Cross-attention。

 

Spatial Relation Extraction中,首先把人脸图片输入到一个卷积神经网络中得到DeepFake篡改的空间特征,并通过 Transformer Encoder中的 self-attention modules捕捉其空间关系得到空间篡改痕迹

 

Sequential Relation Modeling with Spatially Enhanced Cross-attention中, Transformer Decoder进一步通过空间篡改痕迹与篡改序列标签之间的cross-attention得到序列篡改痕迹

 

为了适应Seq-DeepFake篡改序列较短的特点,我们在Transformer Decoder中进一步加入了Spatially Enhanced Cross-Attention Module来对每种人脸篡改部件/属性生成不同的空间权重图(spatial weight maps),以此和原始cross-attention map加权进而得到一个更有效的cross-attention过程。

 

实验结果表明文中提出的 SeqFakeFormer与为二分类设计的DeepFake检测方法相比,能更准确地检测DeepFake序列篡改。

 

一旦得到篡改序列后,该任务还可以逆序还原出原始人脸。可以观察到还原出的人脸非常接近于原始人脸。如果序列的先后顺序错误,即使序列中各元素都已检测正确,原始人脸的还原仍会大概率失败。这进一步说明了正确检测人脸篡改序列的重要性。

 

基于正确和错误篡改序列得到的人脸还原结果

 

这项工作主要有三点贡献

 

1. 提出了一个新的研究课题:检测并还原DeepFake篡改序列(Seq-DeepFake)任务

 

2. 贡献了首个大规模的Seq-DeepFake数据集,并提供了详细丰富的篡改序列图片和标注。我们相信它可以很好地帮助未来 Seq-DeepFake的研究。


3. 提出了一个简单且有效的Seq-DeepFake Transformer作为此新课题很好的起始方案。

 

论文相关的代码和数据集链接都已开源并分享在项目的GitHub上,欢迎大家Star和使用Seq-DeepFake数据集和SeqFakeFormer来研究 Seq-DeepFake问题。

 

DeepFake领域不只有二分类,还有更多有趣且实际的问题亟待大家解决!

参考资料:[1] Kim, H., Choi, Y., Kim, J., Yoo, S., Uh, Y.: Exploiting spatial dimensions of latent in gan for real-time image editing. In: CVPR (2022)[2] Jiang, Y., Huang, Z., Pan, X., Loy, C.C., Liu, Z.: Talk-to-edit: Fine-grained facial editing via dialog. In: ICCV (2021)[3] Shen, Y., Gu, J., Tang, X., Zhou, B.: Interpreting the latent space of gans for semantic face editing. In: CVPR (2020)

相关文章
|
7月前
|
安全
Baidu千帆大模型赋能——儿童读物——童话故事24
Baidu千帆大模型赋能——儿童读物——童话故事24
59 0
|
7月前
|
安全
Baidu千帆大模型赋能——儿童读物——童话故事35
Baidu千帆大模型赋能——儿童读物——童话故事35
41 0
|
7月前
|
安全
Baidu千帆大模型赋能——儿童读物——童话故事40_1
Baidu千帆大模型赋能——儿童读物——童话故事40_1
48 0
|
4月前
|
数据采集 机器学习/深度学习 人工智能
【2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】1 初赛Rank12的总结与分析
关于2021年第五届“达观杯”基于大规模预训练模型的风险事件标签识别竞赛的初赛Rank12团队的总结与分析,详细介绍了赛题分析、传统深度学习方案、预训练方案、提分技巧、加速训练方法以及团队的总结和反思。
50 0
|
7月前
|
人工智能 自动驾驶 安全
破壁人AI百度:科技公司反内卷的典型样本
互联网整个行业都在陷入被动且尴尬的局面。去年开始流行的“内卷”一词,恰如其分的描述了互联网的现状,比如抖音开始做外卖,微信强推视频号,一直硝烟弥漫的电商市场,更是激战在社区团购上。 内卷背后也有人感慨,互联网到了尽头。支撑这一论述的是,移动互联网的人口红利已经消失,几款国民型APP用户增长都固定在了10亿这个级别,只能依靠自然人口的增长和迁移。
56 0
|
机器学习/深度学习 数据可视化 算法
【33】t-SNE原理介绍与对手写数字MNIST的可视化结果
【33】t-SNE原理介绍与对手写数字MNIST的可视化结果
763 0
【33】t-SNE原理介绍与对手写数字MNIST的可视化结果
|
安全 算法 数据挖掘
Sentieon | 每周文献-Epidemiology(流行病学)-第五期
Sentieon | 每周文献-Epidemiology(流行病学)-第五期
53 0
Sentieon | 每周文献-Epidemiology(流行病学)-第五期
|
4月前
|
API
求助:使用阿里的通义模型如何支持运行GraphRAG项目呢?
求助:使用阿里的通义模型如何支持运行GraphRAG项目呢?
108 1
|
机器学习/深度学习 数据可视化 数据库
Kaggle第一人 | 详细解读2021Google地标识别第一名解决方案(建议全文背诵)(二)
Kaggle第一人 | 详细解读2021Google地标识别第一名解决方案(建议全文背诵)(二)
180 0
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
耳朵没错,是声音太真了,字节豆包语音合成成果Seed-TTS技术揭秘
【7月更文挑战第5天】字节跳动的Seed-TTS技术在语音合成领域实现重大突破,生成的语音与真人难辨真假。基于深度学习的模型能模拟多种情感、口音,适用于智能客服、有声读物等场景。尽管面临计算资源需求大、个别情况合成质量不稳及潜在伦理问题,该技术仍标志着语音合成的新高度。[论文链接](https://arxiv.org/abs/2406.02430)**
267 1