旷视开源的AI人像视频生成太炸了!输入照片即可模仿任意表情包

简介: 【7月更文挑战第6天】旷视科技开源AI模型MegActor,以照片生成逼真人像视频,模仿表情包。基于条件扩散模型,解决身份泄露和背景干扰问题,使用合成数据、图像分割、CLIP编码及风格迁移技术。虽有视频质量、隐私风险及计算资源限制,但对动画和虚拟偶像行业带来革新。[链接](https://arxiv.org/abs/2405.20851)

最近,人工智能领域的一项重大突破引起了广泛关注。旷视科技(Megvii Technology)的研究人员开发了一种名为MegActor的新型AI模型,该模型能够根据输入的照片生成栩栩如生的人像视频,并模仿任意表情包。这一成果有望在动画制作、虚拟偶像等领域带来革命性的变化。

MegActor的核心技术是基于条件扩散模型(Conditional Diffusion Model)的一种创新应用。与传统的基于关键点或表情捕捉的方法不同,MegActor直接利用原始视频作为驱动源,从而能够捕捉到更丰富的面部表情细节。然而,这种直接使用原始视频的方法也带来了一些挑战,如身份泄露和无关背景的干扰。

为了解决这些问题,研究人员提出了一种综合的解决方案。首先,他们开发了一个合成数据生成框架,用于创建具有一致运动和表情但不同身份的视频数据集。这有助于减少身份泄露的风险,并使模型能够更好地泛化到不同的个体。

其次,研究人员采用了一种新颖的背景处理方法。他们使用图像分割技术将参考图像的前景和背景分离,然后使用CLIP(Contrastive Language-Image Pre-training)模型对背景进行编码。这样,模型就可以在保持背景稳定性的同时,专注于生成准确的人像动画。

此外,研究人员还利用风格迁移技术来消除驱动视频中面部细节的影响。通过将参考图像的外观风格迁移到驱动视频中,模型可以更好地专注于面部表情的变化,而不受其他细节的干扰。

经过这些创新的设计和优化,MegActor在仅使用公开数据集进行训练的情况下,取得了可与商业模型相媲美的结果。这表明该模型具有出色的泛化能力和实际应用潜力。

然而,尽管MegActor在技术上取得了重大突破,但在实际应用中仍存在一些潜在的问题和挑战。首先,由于模型直接使用原始视频作为驱动源,因此对于视频的质量和清晰度有一定的要求。如果输入的视频质量较差或存在其他问题,可能会影响到生成结果的准确性和真实性。

其次,尽管研究人员采取了一些措施来减少身份泄露的风险,但仍然无法完全消除这种可能性。在实际应用中,特别是在一些敏感领域(如个人隐私保护)中,这可能是一个重要的考虑因素。

此外,MegActor的训练和生成过程可能需要大量的计算资源和时间,这可能会限制其在一些资源受限场景下的应用。

论文:https://arxiv.org/abs/2405.20851

目录
相关文章
|
1天前
|
人工智能
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。
30 16
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
|
5天前
|
机器学习/深度学习 人工智能
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
Leffa 是 Meta 开源的图像生成框架,通过引入流场学习在注意力机制中精确控制人物的外观和姿势。该框架不增加额外参数和推理成本,适用于多种扩散模型,展现了良好的模型无关性和泛化能力。
39 11
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
|
10天前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
93 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
3天前
|
机器学习/深度学习 人工智能 算法
X-AnyLabeling:开源的 AI 图像标注工具,支持多种标注样式,适于目标检测、图像分割等不同场景
X-AnyLabeling是一款集成了多种深度学习算法的图像标注工具,支持图像和视频的多样化标注样式,适用于多种AI训练场景。本文将详细介绍X-AnyLabeling的功能、技术原理以及如何运行该工具。
22 2
X-AnyLabeling:开源的 AI 图像标注工具,支持多种标注样式,适于目标检测、图像分割等不同场景
|
10天前
|
数据采集 人工智能 编解码
书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型
书生·万象InternVL 2.5是由上海AI实验室OpenGVLab团队推出的开源多模态大语言模型系列。该模型在多模态理解基准(MMMU)上表现优异,超越了许多商业模型,适用于图像和视频分析、视觉问答、文档理解和多语言处理等多个领域。
56 7
书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型
|
5天前
|
人工智能 小程序 API
【一步步开发AI运动小程序】十七、如何识别用户上传视频中的人体、运动、动作、姿态?
【云智AI运动识别小程序插件】提供人体、运动、姿态检测的AI能力,支持本地原生识别,无需后台服务,具有速度快、体验好、易集成等优点。本文介绍如何使用该插件实现用户上传视频的运动识别,包括视频解码抽帧和人体识别的实现方法。
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
MetaGPT开源SELA,用AI设计AI,效果超越OpenAI使用的AIDE
MetaGPT团队开源了Tree-Search Enhanced LLM Agents(SELA)系统,通过蒙特卡罗树搜索(MCTS)优化AutoML过程,显著提升了机器学习模型的构建效率和性能。SELA在20个数据集上的实验结果表明,其性能优于传统AutoML方法和基于LLM的代理,为AutoML领域带来了新的突破。
18 4
|
机器学习/深度学习 人工智能
一个画面,两条时间线!用AI改写视频不同主角时间,效果堪比大片
一个画面,两条时间线!用AI改写视频不同主角时间,效果堪比大片
222 0
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术深度解析:从基础到应用的全面介绍
人工智能(AI)技术的迅猛发展,正在深刻改变着我们的生活和工作方式。从自然语言处理(NLP)到机器学习,从神经网络到大型语言模型(LLM),AI技术的每一次进步都带来了前所未有的机遇和挑战。本文将从背景、历史、业务场景、Python代码示例、流程图以及如何上手等多个方面,对AI技术中的关键组件进行深度解析,为读者呈现一个全面而深入的AI技术世界。
54 10
|
11天前
|
机器学习/深度学习 人工智能 自然语言处理
转载:【AI系统】AI的领域、场景与行业应用
本文概述了AI的历史、现状及发展趋势,探讨了AI在计算机视觉、自然语言处理、语音识别等领域的应用,以及在金融、医疗、教育、互联网等行业中的实践案例。随着技术进步,AI模型正从单一走向多样化,从小规模到大规模分布式训练,企业级AI系统设计面临更多挑战,同时也带来了新的研究与工程实践机遇。文中强调了AI基础设施的重要性,并鼓励读者深入了解AI系统的设计原则与研究方法,共同推动AI技术的发展。
转载:【AI系统】AI的领域、场景与行业应用
下一篇
DataWorks