旷视开源的AI人像视频生成太炸了！输入照片即可模仿任意表情包-阿里云开发者社区

旷视开源的AI人像视频生成太炸了！输入照片即可模仿任意表情包

2024-07-07 89

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【7月更文挑战第6天】旷视科技开源AI模型MegActor，以照片生成逼真人像视频，模仿表情包。基于条件扩散模型，解决身份泄露和背景干扰问题，使用合成数据、图像分割、CLIP编码及风格迁移技术。虽有视频质量、隐私风险及计算资源限制，但对动画和虚拟偶像行业带来革新。[链接](https://arxiv.org/abs/2405.20851)

最近，人工智能领域的一项重大突破引起了广泛关注。旷视科技（Megvii Technology）的研究人员开发了一种名为MegActor的新型AI模型，该模型能够根据输入的照片生成栩栩如生的人像视频，并模仿任意表情包。这一成果有望在动画制作、虚拟偶像等领域带来革命性的变化。

MegActor的核心技术是基于条件扩散模型（Conditional Diffusion Model）的一种创新应用。与传统的基于关键点或表情捕捉的方法不同，MegActor直接利用原始视频作为驱动源，从而能够捕捉到更丰富的面部表情细节。然而，这种直接使用原始视频的方法也带来了一些挑战，如身份泄露和无关背景的干扰。

为了解决这些问题，研究人员提出了一种综合的解决方案。首先，他们开发了一个合成数据生成框架，用于创建具有一致运动和表情但不同身份的视频数据集。这有助于减少身份泄露的风险，并使模型能够更好地泛化到不同的个体。

其次，研究人员采用了一种新颖的背景处理方法。他们使用图像分割技术将参考图像的前景和背景分离，然后使用CLIP（Contrastive Language-Image Pre-training）模型对背景进行编码。这样，模型就可以在保持背景稳定性的同时，专注于生成准确的人像动画。

此外，研究人员还利用风格迁移技术来消除驱动视频中面部细节的影响。通过将参考图像的外观风格迁移到驱动视频中，模型可以更好地专注于面部表情的变化，而不受其他细节的干扰。

经过这些创新的设计和优化，MegActor在仅使用公开数据集进行训练的情况下，取得了可与商业模型相媲美的结果。这表明该模型具有出色的泛化能力和实际应用潜力。

然而，尽管MegActor在技术上取得了重大突破，但在实际应用中仍存在一些潜在的问题和挑战。首先，由于模型直接使用原始视频作为驱动源，因此对于视频的质量和清晰度有一定的要求。如果输入的视频质量较差或存在其他问题，可能会影响到生成结果的准确性和真实性。

其次，尽管研究人员采取了一些措施来减少身份泄露的风险，但仍然无法完全消除这种可能性。在实际应用中，特别是在一些敏感领域（如个人隐私保护）中，这可能是一个重要的考虑因素。

此外，MegActor的训练和生成过程可能需要大量的计算资源和时间，这可能会限制其在一些资源受限场景下的应用。

论文：https://arxiv.org/abs/2405.20851

旷视开源的AI人像视频生成太炸了！输入照片即可模仿任意表情包

热门文章

最新文章

相关课程

相关电子书

相关实验场景