旷视开源的AI人像视频生成太炸了!输入照片即可模仿任意表情包

简介: 【7月更文挑战第6天】旷视科技开源AI模型MegActor,以照片生成逼真人像视频,模仿表情包。基于条件扩散模型,解决身份泄露和背景干扰问题,使用合成数据、图像分割、CLIP编码及风格迁移技术。虽有视频质量、隐私风险及计算资源限制,但对动画和虚拟偶像行业带来革新。[链接](https://arxiv.org/abs/2405.20851)

最近,人工智能领域的一项重大突破引起了广泛关注。旷视科技(Megvii Technology)的研究人员开发了一种名为MegActor的新型AI模型,该模型能够根据输入的照片生成栩栩如生的人像视频,并模仿任意表情包。这一成果有望在动画制作、虚拟偶像等领域带来革命性的变化。

MegActor的核心技术是基于条件扩散模型(Conditional Diffusion Model)的一种创新应用。与传统的基于关键点或表情捕捉的方法不同,MegActor直接利用原始视频作为驱动源,从而能够捕捉到更丰富的面部表情细节。然而,这种直接使用原始视频的方法也带来了一些挑战,如身份泄露和无关背景的干扰。

为了解决这些问题,研究人员提出了一种综合的解决方案。首先,他们开发了一个合成数据生成框架,用于创建具有一致运动和表情但不同身份的视频数据集。这有助于减少身份泄露的风险,并使模型能够更好地泛化到不同的个体。

其次,研究人员采用了一种新颖的背景处理方法。他们使用图像分割技术将参考图像的前景和背景分离,然后使用CLIP(Contrastive Language-Image Pre-training)模型对背景进行编码。这样,模型就可以在保持背景稳定性的同时,专注于生成准确的人像动画。

此外,研究人员还利用风格迁移技术来消除驱动视频中面部细节的影响。通过将参考图像的外观风格迁移到驱动视频中,模型可以更好地专注于面部表情的变化,而不受其他细节的干扰。

经过这些创新的设计和优化,MegActor在仅使用公开数据集进行训练的情况下,取得了可与商业模型相媲美的结果。这表明该模型具有出色的泛化能力和实际应用潜力。

然而,尽管MegActor在技术上取得了重大突破,但在实际应用中仍存在一些潜在的问题和挑战。首先,由于模型直接使用原始视频作为驱动源,因此对于视频的质量和清晰度有一定的要求。如果输入的视频质量较差或存在其他问题,可能会影响到生成结果的准确性和真实性。

其次,尽管研究人员采取了一些措施来减少身份泄露的风险,但仍然无法完全消除这种可能性。在实际应用中,特别是在一些敏感领域(如个人隐私保护)中,这可能是一个重要的考虑因素。

此外,MegActor的训练和生成过程可能需要大量的计算资源和时间,这可能会限制其在一些资源受限场景下的应用。

论文:https://arxiv.org/abs/2405.20851

目录
相关文章
|
9天前
|
人工智能
防AI换脸视频诈骗,中电金信联合复旦提出多模态鉴伪法,还入选顶会ACM MM
【9月更文挑战第26天】中电金信与复旦大学合作,提出一种基于身份信息增强的多媒体伪造检测方法,并入选ACM MM国际会议。该方法利用身份信息作为检测线索,构建了含54位名人324个视频的多模态伪造数据集IDForge,设计了参考辅助的多模态伪造检测网络R-MFDN,显著提升了检测性能,准确率达到92.90%。尽管如此,该方法仍存在一定局限性,如对非英语国家数据及无明确身份信息的视频检测效果可能受限。
15 4
|
12天前
RTX3090可跑,360AI团队开源最新视频模型FancyVideo
【9月更文挑战第23天】近年来,人工智能技术的迅猛发展推动了视频生成领域的进步,但在合成动态、连贯且时长较长的视频方面仍面临挑战。为此,360AI团队提出了FancyVideo模型,通过跨帧文本指导实现更为连贯的视频生成。FancyVideo引入了跨帧文本指导模块(CTGM),包含时间信息注入器(TII)、时间相关性优化器(TAR)和时间特征增强器(TFB)三个组件,分别负责注入帧特定信息、优化相关性和增强时间一致性。这些机制使模型能生成具有连贯动作和丰富运动的视频,适用于动画制作和视频编辑等领域。然而,FancyVideo也存在计算复杂度高和细节真实感提升空间等局限。
26 3
|
2月前
|
人工智能 文字识别 算法
打造全场景、跨领域、多模态的AI工作流 | 开源图像标注工具 X-AnyLabeling v2.4.0 正式发布!
X-AnyLabeling是一款强大的辅助标注工具,集成了AI推理引擎和丰富功能,为图像数据工程师提供一站式解决方案。它支持图像和视频文件的自动标注,提供了包括矩形框、多边形在内的七种标注样式,适应多样化的训练场景需求。X-AnyLabeling内置了多种SOTA级AI模型,如YOLO、SAM系列等,并支持GPU加速和多种数据集格式的导入导出,确保高效的数据处理。此外,它还具备良好的跨平台兼容性,可在多种操作系统上运行,并提供详尽的帮助文档和社区支持,帮助用户轻松上手并解决使用过程中遇到的问题。
103 2
打造全场景、跨领域、多模态的AI工作流 | 开源图像标注工具 X-AnyLabeling v2.4.0 正式发布!
|
28天前
|
人工智能 自然语言处理 数据挖掘
【通义】AI视界|性能超越GPT-4o?最强大的开源AI模型来了……
本文介绍了五项最新AI技术动态,包括性能超越GPT-4o的开源AI模型Reflection70B、智谱清言App限时免费的视频通话功能、哈佛医学院研发的癌症诊断AI模型CHIEF、Replit推出的AI编程助手,以及英特尔与日本AIST合作设立的芯片制造研发中心。这些进展展示了AI领域的快速创新与广泛应用。更多详情,请访问通义官网体验。
|
29天前
|
人工智能 自然语言处理 安全
【通义】AI视界|谷歌推出AI搜索功能“问照片”,照片一问即得……
本文汇总了AI领域的最新动态,包括谷歌推出的“问照片”功能,使用户能用自然语言检索Google Photos;OpenAI的商业用户激增及ChatGPT的广泛应用;Anthropic发布的企业级AI助手Claude Enterprise;美英欧盟首个人工智能法律约束条约;OpenAI前首席科学家新公司获巨额融资;以及比尔·盖茨对AI前景的乐观展望与安全建议。
|
8天前
|
人工智能 自然语言处理 Linux
Llama 3.2:开源可定制视觉模型,引领边缘AI革命
Llama 3.2 系列 11B 和 90B 视觉LLM,支持图像理解,例如文档级理解(包括图表和图形)、图像字幕以及视觉基础任务(例如基于自然语言描述在图像中精确定位对象)。
|
2月前
|
人工智能
Meta开源用于数学等复杂推理AI Agent—HUSKY
【8月更文挑战第19天】Meta AI团队开源了HUSKY,一种统一的AI代理,专长解决数学及复杂推理任务。HUSKY通过学习在通用操作空间内推理,涵盖数值、表格和基于知识的任务。它分为生成和执行两阶段,利用专家模型如语言和数值推理模型解决问题。经过14个数据集测试,HUSKY展现出超越同类代理的性能,尤其是在新提出的HUSKYQA评估集中,其7B模型的表现媲美甚至超越GPT-4等大型模型。相关代码和模型已公开,以推动领域内的研究进展。[论文](https://arxiv.org/abs/2406.06469)
29 2
|
2月前
|
人工智能 安全 Anolis
专访英特尔:开源与 AI 迅猛发展,龙蜥社区提供高效合作平台
龙蜥社区为开源技术、AI 技术提供了一个非常好的高效合作的平台。
|
2月前
|
人工智能 自然语言处理 语音技术
使用AI识别语音和B站视频并通过GPT生成思维导图原创
AI脑图现新增语音及B站视频内容识别功能,可自动生成思维导图。用户可通过发送语音或上传语音文件,系统自动转换为文本并生成结构化的思维导图;对于B站视频,仅需提供链接即可。其工作流程包括:语音转文本、文本结构化、生成Markdown、Markdown转思维导图HTML以及输出最终的思维导图图片给用户。
38 0

热门文章

最新文章

下一篇
无影云桌面