近年来,随着深度伪造(deepfake)技术的不断进步,视频伪造变得越来越逼真,给社会带来了新的挑战。为了应对这一问题,中电金信与复旦大学合作,提出了一种基于身份驱动的多媒体伪造检测方法,并成功入选了国际顶级会议ACM MM。
该方法的核心思想是通过引入身份信息来增强多媒体伪造检测的准确性。研究人员指出,在现实世界中,许多伪造行为都是针对特定身份的,因此身份信息可以作为检测伪造的重要线索。为了验证这一想法,他们构建了一个名为IDForge的大规模多模态伪造数据集,其中包含249,138个视频片段,涵盖了54位名人的324个野生视频。这些视频片段经过了9种不同类型的伪造操作,包括视觉、音频和文本等多个模态。
为了利用这些身份信息,研究人员设计了一个参考辅助的多模态伪造检测网络(R-MFDN)。该网络通过身份感知的对比学习和跨模态对比学习,能够有效地捕捉不同模态之间的不一致性,并利用丰富的身份信息来提高伪造检测的性能。实验结果表明,R-MFDN在IDForge数据集上取得了显著的性能提升,准确率达到了92.90%,AUC达到了98.40%。
然而,尽管该方法在IDForge数据集上取得了令人鼓舞的结果,但仍然存在一些局限性。首先,IDForge数据集主要关注的是英语国家的名人,对于其他语言和文化背景的伪造检测可能存在一定的局限性。其次,尽管R-MFDN能够利用身份信息来提高伪造检测的准确性,但对于那些没有明确身份信息的伪造视频,其性能可能会受到影响。