让换脸无所遁形!南洋理工发布全球首个DeepFake篡改序列检测还原数据集|ECCV 2022

简介: 让换脸无所遁形!南洋理工发布全球首个DeepFake篡改序列检测还原数据集|ECCV 2022
【新智元导读】检测DeepFake不止二分类!南洋理工大学的研究人员建立并开源了全球首个 Seq-DeepFake数据集,将其拓展到检测篡改序列,并进一步提出SeqFakeFormer模型作为baseline。根据检测出的篡改序列,还可以逆序还原出原始人脸。


由于生成模型的快速发展,高保真度的人脸图片和视频可以非常容易地生成。但是恶意使用生成模型产生难辨真假的虚假人脸图片或者视频进而导致虚假信息传播的现象也逐渐引起了广泛关注,这就是越来越严重的DeepFake问题。

 

解决DeepFake问题最常见的方式是学习一个二分类模型来进行真/假判别

 

现有基于二分类的DeepFake检测和本文提出的Seq-DeepFake的对比

但如今由于人脸编辑App的流行,我们可以非常方便地对人脸图片进行多步序列DeepFake篡改。比如对一张人脸图片,先后进行「添加眼镜-加入笑容-去掉胡须」的序列篡改。

 

为解决此类新型DeepFake问题,来自南洋理工大学的研究人员提出了检测并还原DeepFake篡改序列(Seq-DeepFake)任务

 

论文链接: https://arxiv.org/pdf/2207.02204.pdf

GitHub: https://github.com/rshaojimmy/SeqDeepFake

项目主页: https://rshaojimmy.github.io/Projects/SeqDeepFake

 

相比于现有基于二分类 (真/假) 的 DeepFake 检测,Seq-DeepFake任务将其扩展为要求检测不同长度和顺序的篡改序列。

 

长度为3的篡改序列

 

除了篡改检测,Seq-DeepFake还可以根据检测出的篡改序列,逆序还原出原始人脸

 

论文作者建立并开源了全球首个Seq-DeepFake数据集

 

Seq-DeepFake 样例

 

对于数据集中的一张人脸图片,我们可以通过长度1~5的不同序列进行篡改。为了更全面的研究此问题,本文考虑了两种不同的篡改方法,即人脸部件序列篡改(sequential facial components manipulation)[1] 和人脸属性序列篡改 (sequential facial attributes manipulation) [2] 。

 

Seq-DeepFake 数据集

第一排为人脸部件序列篡改

第二排为人脸属性序列篡改

 

人眼很难察觉原始人脸和篡改人脸之间的区别,而进一步检测出不同的篡改序列则难度更大。

 

在Seq-DeepFake数据集中,人脸部件序列篡改总共35,166张图片,包含了28种不同长度的篡改序列。人脸属性序列篡改总共49,920张图片,包含了26种不同长度的篡改序列。

 

现有的人脸编辑算法基本基于 Generative Adversarial Network (GAN)。在GAN的隐空间中难以达到完美的语义分解[3],这会导致在编辑一种人脸部件/属性后,会间接影响其他人脸部件/属性。比如步骤「Eye-Nose」编辑鼻子后会导致前一步的眼睛和嘴巴部位的变动。

 

 

由此,我们可以从此空间关系中发掘出Seq-DeepFake的空间篡改痕迹 ( spatial manipulation traces )

 

再者,改变篡改先后顺序,如下图(a)中鼻子和眼睛导致不同的注视方向,和(b)中留海和微笑的先后顺序会产生不同的刘海数量,这说明篡改顺序会进一步影响篡改所影响的空间关系

 

 

就是说,我们可以在空间篡改痕迹的基础上捕捉到序列篡改痕迹( sequential manipulation traces ),并最终据此检测出 DeepFake 篡改序列。

 

根据上述观察,可以把Seq-DeepFake看成是一种特殊的image-to-sequence problem(例如image caption),文中提出了Seq-DeepFake Transformer (SeqFakeFormer)来检测篡改序列

 

Seq-DeepFake Transformer (SeqFakeFormer)

 

SeqFakeFormer由两个关键部分组成:Spatial Relation Extraction 和 Sequential Relation Modeling with Spatially Enhanced Cross-attention。

 

Spatial Relation Extraction中,首先把人脸图片输入到一个卷积神经网络中得到DeepFake篡改的空间特征,并通过 Transformer Encoder中的 self-attention modules捕捉其空间关系得到空间篡改痕迹

 

Sequential Relation Modeling with Spatially Enhanced Cross-attention中, Transformer Decoder进一步通过空间篡改痕迹与篡改序列标签之间的cross-attention得到序列篡改痕迹

 

为了适应Seq-DeepFake篡改序列较短的特点,我们在Transformer Decoder中进一步加入了Spatially Enhanced Cross-Attention Module来对每种人脸篡改部件/属性生成不同的空间权重图(spatial weight maps),以此和原始cross-attention map加权进而得到一个更有效的cross-attention过程。

 

实验结果表明文中提出的 SeqFakeFormer与为二分类设计的DeepFake检测方法相比,能更准确地检测DeepFake序列篡改。

 

一旦得到篡改序列后,该任务还可以逆序还原出原始人脸。可以观察到还原出的人脸非常接近于原始人脸。如果序列的先后顺序错误,即使序列中各元素都已检测正确,原始人脸的还原仍会大概率失败。这进一步说明了正确检测人脸篡改序列的重要性。

 

基于正确和错误篡改序列得到的人脸还原结果

 

这项工作主要有三点贡献

 

1. 提出了一个新的研究课题:检测并还原DeepFake篡改序列(Seq-DeepFake)任务

 

2. 贡献了首个大规模的Seq-DeepFake数据集,并提供了详细丰富的篡改序列图片和标注。我们相信它可以很好地帮助未来 Seq-DeepFake的研究。


3. 提出了一个简单且有效的Seq-DeepFake Transformer作为此新课题很好的起始方案。

 

论文相关的代码和数据集链接都已开源并分享在项目的GitHub上,欢迎大家Star和使用Seq-DeepFake数据集和SeqFakeFormer来研究 Seq-DeepFake问题。

 

DeepFake领域不只有二分类,还有更多有趣且实际的问题亟待大家解决!

参考资料:[1] Kim, H., Choi, Y., Kim, J., Yoo, S., Uh, Y.: Exploiting spatial dimensions of latent in gan for real-time image editing. In: CVPR (2022)[2] Jiang, Y., Huang, Z., Pan, X., Loy, C.C., Liu, Z.: Talk-to-edit: Fine-grained facial editing via dialog. In: ICCV (2021)[3] Shen, Y., Gu, J., Tang, X., Zhou, B.: Interpreting the latent space of gans for semantic face editing. In: CVPR (2020)

相关文章
|
3月前
|
算法
ECCV 2024:盲视频去闪烁通用方法BlazeBVD来了,美图&国科大联合提出
【8月更文挑战第15天】随着多媒体的兴起,视频成为信息传播的关键媒介,但视频中的闪烁问题影响观看体验。美图与中国科学院大学联合研发的BlazeBVD算法,采用直方图辅助方法简化学习过程,提高了视频去闪烁的质量与速度。该算法通过2D网络恢复纹理,3D网络修正时间一致性,实现了高效能与高保真度。实验结果显示,BlazeBVD在多种视频类型上表现优秀,推理速度提升显著。尽管如此,算法在处理局部闪烁和复杂场景时仍存在局限性,未来有进一步优化的空间。[论文链接](https://arxiv.org/pdf/2403.06243v1)
72 1
|
3月前
|
数据采集 机器学习/深度学习 人工智能
【2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】1 初赛Rank12的总结与分析
关于2021年第五届“达观杯”基于大规模预训练模型的风险事件标签识别竞赛的初赛Rank12团队的总结与分析,详细介绍了赛题分析、传统深度学习方案、预训练方案、提分技巧、加速训练方法以及团队的总结和反思。
45 0
|
机器学习/深度学习 运维 自然语言处理
时序分析五边形战士!清华提出TimesNet:预测、填补、分类、检测全面领先|ICLR 2023(1)
时序分析五边形战士!清华提出TimesNet:预测、填补、分类、检测全面领先|ICLR 2023
717 1
|
机器学习/深度学习 运维 算法
时序分析五边形战士!清华提出TimesNet:预测、填补、分类、检测全面领先|ICLR 2023(2)
时序分析五边形战士!清华提出TimesNet:预测、填补、分类、检测全面领先|ICLR 2023
1502 0
|
机器学习/深度学习 编解码 人工智能
基于扩散模型的音频驱动说话人生成,云从&上交数字人研究入选ICASSP 2023
基于扩散模型的音频驱动说话人生成,云从&上交数字人研究入选ICASSP 2023
206 0
|
机器学习/深度学习 数据可视化 数据挖掘
CVPR 2023|哈工大南洋理工提出全球首个「多模态DeepFake检测定位」模型:让AIGC伪造无处可藏
CVPR 2023|哈工大南洋理工提出全球首个「多模态DeepFake检测定位」模型:让AIGC伪造无处可藏
254 0
|
机器学习/深度学习 人工智能 安全
超长序列,超快预测!深势科技联手阿里云,AI蛋白质预测再下一城
强强联合,突破 AI 蛋白质预测模型推理性能瓶颈,支持最高 6.6k 长氨基酸序列蛋白质的预测计算,达到目前已知最优推理效果。
超长序列,超快预测!深势科技联手阿里云,AI蛋白质预测再下一城
|
机器学习/深度学习 人工智能 安全
超长序列,超快预测!深势科技联手阿里云,AI 蛋白质预测再下一城
强强联合,突破 AI 蛋白质预测模型推理性能瓶颈,支持最高 6.6k 长氨基酸序列蛋白质的预测计算,达到目前已知最优推理效果。
超长序列,超快预测!深势科技联手阿里云,AI 蛋白质预测再下一城
|
机器学习/深度学习 人工智能 计算机视觉
AI破解脑电波,准确率超80%!高度还原你眼中最美的ta
最近的一项研究发现,人工智能可以解读大脑信号,并将脑机接口和生成的人脸模型相结合,还原出高度符合个人审美的人脸图像。原来你的审美也被AI猜透了!
184 0
AI破解脑电波,准确率超80%!高度还原你眼中最美的ta
|
存储 机器学习/深度学习 人工智能
3D重建曼哈顿街景!谷歌开源Kartta Labs,使用深度学习和众包再现历史街景
谷歌今日启动了Kartta Labs,可以创建带有可探索时间轴的地图,从历史地图和照片中重建过去的城市。「2020创新之源大会将于9月22日在中关村软件园召开,详细信息见文末海报,欢迎报名!」
289 0
3D重建曼哈顿街景!谷歌开源Kartta Labs,使用深度学习和众包再现历史街景