旷视开源的AI人像视频生成太炸了!输入照片即可模仿任意表情包

简介: 【7月更文挑战第6天】旷视科技开源AI模型MegActor,以照片生成逼真人像视频,模仿表情包。基于条件扩散模型,解决身份泄露和背景干扰问题,使用合成数据、图像分割、CLIP编码及风格迁移技术。虽有视频质量、隐私风险及计算资源限制,但对动画和虚拟偶像行业带来革新。[链接](https://arxiv.org/abs/2405.20851)

最近,人工智能领域的一项重大突破引起了广泛关注。旷视科技(Megvii Technology)的研究人员开发了一种名为MegActor的新型AI模型,该模型能够根据输入的照片生成栩栩如生的人像视频,并模仿任意表情包。这一成果有望在动画制作、虚拟偶像等领域带来革命性的变化。

MegActor的核心技术是基于条件扩散模型(Conditional Diffusion Model)的一种创新应用。与传统的基于关键点或表情捕捉的方法不同,MegActor直接利用原始视频作为驱动源,从而能够捕捉到更丰富的面部表情细节。然而,这种直接使用原始视频的方法也带来了一些挑战,如身份泄露和无关背景的干扰。

为了解决这些问题,研究人员提出了一种综合的解决方案。首先,他们开发了一个合成数据生成框架,用于创建具有一致运动和表情但不同身份的视频数据集。这有助于减少身份泄露的风险,并使模型能够更好地泛化到不同的个体。

其次,研究人员采用了一种新颖的背景处理方法。他们使用图像分割技术将参考图像的前景和背景分离,然后使用CLIP(Contrastive Language-Image Pre-training)模型对背景进行编码。这样,模型就可以在保持背景稳定性的同时,专注于生成准确的人像动画。

此外,研究人员还利用风格迁移技术来消除驱动视频中面部细节的影响。通过将参考图像的外观风格迁移到驱动视频中,模型可以更好地专注于面部表情的变化,而不受其他细节的干扰。

经过这些创新的设计和优化,MegActor在仅使用公开数据集进行训练的情况下,取得了可与商业模型相媲美的结果。这表明该模型具有出色的泛化能力和实际应用潜力。

然而,尽管MegActor在技术上取得了重大突破,但在实际应用中仍存在一些潜在的问题和挑战。首先,由于模型直接使用原始视频作为驱动源,因此对于视频的质量和清晰度有一定的要求。如果输入的视频质量较差或存在其他问题,可能会影响到生成结果的准确性和真实性。

其次,尽管研究人员采取了一些措施来减少身份泄露的风险,但仍然无法完全消除这种可能性。在实际应用中,特别是在一些敏感领域(如个人隐私保护)中,这可能是一个重要的考虑因素。

此外,MegActor的训练和生成过程可能需要大量的计算资源和时间,这可能会限制其在一些资源受限场景下的应用。

论文:https://arxiv.org/abs/2405.20851

目录
相关文章
|
26天前
|
人工智能 中间件 数据库
沐曦 GPU 融入龙蜥,共筑开源 AI 基础设施新底座
沐曦自加入社区以来,一直与龙蜥社区在推动 AIDC OS 的开源社区建设等方面保持合作。
|
1月前
|
人工智能 API 数据安全/隐私保护
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
366 12
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
|
2月前
|
人工智能 运维 安全
|
23天前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
2093 39
|
23天前
|
人工智能 自然语言处理 Shell
我们开源了一款 AI 驱动的用户社区
KoalaQA 是一款开源的 AI 驱动用户社区,支持智能问答、语义搜索、自动运营与辅助创作,助力企业降低客服成本,提升响应效率与用户体验。一键部署,灵活接入大模型,快速构建专属售后服务社区。
189 5
我们开源了一款 AI 驱动的用户社区
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
443 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
1月前
|
人工智能 搜索推荐 UED
一个牛逼的国产AI自动化工具,开源了 !
AiPy是国产开源AI工具,结合大语言模型与Python,支持本地部署。用户只需用自然语言描述需求,即可自动生成并执行代码,轻松实现数据分析、清洗、可视化等任务,零基础也能玩转编程,被誉为程序员的智能助手。
|
2月前
|
人工智能 安全 架构师
开放、协同,2025 云栖大会“操作系统开源与 AI 进化分论坛”精彩回顾
唯有通过生态开放与技术共享,才能加速 AI 技术的普惠与产业化落地。
|
人工智能 测试技术
【破解DeepMind的游戏人工智能】AI现在只看2分钟视频就能创建游戏了
人工智能的发展已经使得计算机在玩游戏(和获胜)方面表现非凡。佐治亚理工学院的最新的研究表明,人工智能在构建游戏方面表现也同样值得期待。在仅仅观看两分钟的游戏视频之后,AI系统就能重建游戏引擎。这可以减轻游戏开发人员的负担,并帮助他们尝试不同风格的游戏。
2341 0