防AI换脸视频诈骗,中电金信联合复旦提出多模态鉴伪法,还入选顶会ACM MM

简介: 【9月更文挑战第26天】中电金信与复旦大学合作,提出一种基于身份信息增强的多媒体伪造检测方法,并入选ACM MM国际会议。该方法利用身份信息作为检测线索,构建了含54位名人324个视频的多模态伪造数据集IDForge,设计了参考辅助的多模态伪造检测网络R-MFDN,显著提升了检测性能,准确率达到92.90%。尽管如此,该方法仍存在一定局限性,如对非英语国家数据及无明确身份信息的视频检测效果可能受限。

近年来,随着深度伪造(deepfake)技术的不断进步,视频伪造变得越来越逼真,给社会带来了新的挑战。为了应对这一问题,中电金信与复旦大学合作,提出了一种基于身份驱动的多媒体伪造检测方法,并成功入选了国际顶级会议ACM MM。

该方法的核心思想是通过引入身份信息来增强多媒体伪造检测的准确性。研究人员指出,在现实世界中,许多伪造行为都是针对特定身份的,因此身份信息可以作为检测伪造的重要线索。为了验证这一想法,他们构建了一个名为IDForge的大规模多模态伪造数据集,其中包含249,138个视频片段,涵盖了54位名人的324个野生视频。这些视频片段经过了9种不同类型的伪造操作,包括视觉、音频和文本等多个模态。

为了利用这些身份信息,研究人员设计了一个参考辅助的多模态伪造检测网络(R-MFDN)。该网络通过身份感知的对比学习和跨模态对比学习,能够有效地捕捉不同模态之间的不一致性,并利用丰富的身份信息来提高伪造检测的性能。实验结果表明,R-MFDN在IDForge数据集上取得了显著的性能提升,准确率达到了92.90%,AUC达到了98.40%。

然而,尽管该方法在IDForge数据集上取得了令人鼓舞的结果,但仍然存在一些局限性。首先,IDForge数据集主要关注的是英语国家的名人,对于其他语言和文化背景的伪造检测可能存在一定的局限性。其次,尽管R-MFDN能够利用身份信息来提高伪造检测的准确性,但对于那些没有明确身份信息的伪造视频,其性能可能会受到影响。

论文链接:https://arxiv.org/pdf/2401.11764

目录
相关文章
|
28天前
|
人工智能 监控 安全
ai换脸?分析一下双刃剑
随着技术进步,“换脸”技术在身份验证中的应用日益广泛,但也引发了一系列问题,如侵犯肖像权、隐私泄露、虚假信息传播及身份盗用等。尽管国家尚未全面禁止换脸软件,已出台多项法规加强监管,确保技术合法、安全应用。未来,平衡技术利弊与社会需求将是关键。换脸技术在影视娱乐、社交媒体和医学领域展现出巨大潜力,但仍需谨慎使用,避免滥用。
|
7天前
|
人工智能 JSON 数据格式
RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
【9月更文挑战第6天】RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
赋能百业:多模态处理技术与大模型架构下的AI解决方案落地实践
【9月更文挑战第4天】赋能百业:多模态处理技术与大模型架构下的AI解决方案落地实践
赋能百业:多模态处理技术与大模型架构下的AI解决方案落地实践
|
7天前
|
人工智能 测试技术
语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场
【9月更文挑战第20天】Meta研究人员提出了一种名为Transfusion的创新方法,通过融合Transformer和Diffusion模型,实现了能同时处理文本和图像数据的多模态模型。此模型结合了语言模型的预测能力和Diffusion模型的生成能力,能够在单一架构中处理混合模态数据,有效学习文本与图像间的复杂关系,提升跨模态理解和生成效果。经过大规模预训练,Transfusion模型在多种基准测试中表现出色,尤其在图像压缩和模态特定编码方面具有优势。然而,其训练所需的大量计算资源和数据、以及潜在的伦理和隐私问题仍需关注。
33 7
|
1月前
|
人工智能 文字识别 算法
打造全场景、跨领域、多模态的AI工作流 | 开源图像标注工具 X-AnyLabeling v2.4.0 正式发布!
X-AnyLabeling是一款强大的辅助标注工具,集成了AI推理引擎和丰富功能,为图像数据工程师提供一站式解决方案。它支持图像和视频文件的自动标注,提供了包括矩形框、多边形在内的七种标注样式,适应多样化的训练场景需求。X-AnyLabeling内置了多种SOTA级AI模型,如YOLO、SAM系列等,并支持GPU加速和多种数据集格式的导入导出,确保高效的数据处理。此外,它还具备良好的跨平台兼容性,可在多种操作系统上运行,并提供详尽的帮助文档和社区支持,帮助用户轻松上手并解决使用过程中遇到的问题。
96 2
打造全场景、跨领域、多模态的AI工作流 | 开源图像标注工具 X-AnyLabeling v2.4.0 正式发布!
|
1月前
|
人工智能
多模态AI单词助记模型体验
一文带你了解多模态AI单词助记模型的优与劣
182 1
|
1月前
|
人工智能 自然语言处理 语音技术
使用AI识别语音和B站视频并通过GPT生成思维导图原创
AI脑图现新增语音及B站视频内容识别功能,可自动生成思维导图。用户可通过发送语音或上传语音文件,系统自动转换为文本并生成结构化的思维导图;对于B站视频,仅需提供链接即可。其工作流程包括:语音转文本、文本结构化、生成Markdown、Markdown转思维导图HTML以及输出最终的思维导图图片给用户。
35 0
|
1月前
|
机器学习/深度学习 人工智能 搜索推荐
【颠覆传统】解锁记忆新姿势:多模态AI单词助记神器——让单词学习变得生动有趣,打造个性化学习新体验!
【8月更文挑战第21天】多模态AI单词助记模型融合文本、语音与图像,增强英语单词记忆效果。设计上利用多感官刺激提升信息处理与记忆效率。技术栈包括React.js前端、Node.js后端、PyTorch深度学习框架等。实现过程涵盖数据准备、前端开发、后端服务搭建、深度学习模型构建及用户反馈循环。应用显示该模型显著提高学习兴趣与记忆效率,尤其对视觉和听觉学习者有益,个性化推荐系统进一步优化学习体验。
43 0
|
1月前
|
存储 人工智能 关系型数据库
使用 PostgreSQL pgvector 的 AI 应用程序中的多模态搜索
大型语言模型(LLM)的发展已拓展至多模态领域,不仅能处理文本,还能解析图像。本文介绍如何构建一个多模态搜索应用,用户可通过上传图片或输入文本来搜索印度菜谱。该应用支持多种LLM服务,如OpenAI及Ollama本地部署模型,并运用pgvector扩展在PostgreSQL中高效存储和检索向量嵌入。我们还展示了如何生成菜谱描述的嵌入并向数据库写入这些嵌入,以及如何通过API接口结合文本和图像查询来获取最相关的菜谱结果。此外,讨论了使用分布式SQL数据库如YugabyteDB增强应用的可扩展性和健壮性。
155 0
|
1月前
|
机器学习/深度学习 人工智能 编解码
【机器学习】阿里Qwen-VL:基于FastAPI私有化部署你的第一个AI多模态大模型
【机器学习】阿里Qwen-VL:基于FastAPI私有化部署你的第一个AI多模态大模型
217 0