LatentSync：根据音频生成高分辨率、动态逼真的唇形同步视频

2025-01-06 1503

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： LatentSync 是由字节跳动与北京交通大学联合推出的端到端唇形同步框架，基于音频条件的潜在扩散模型，能够生成高分辨率、动态逼真的唇同步视频，适用于影视、教育、广告等多个领域。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新应用和热点信息，提供开源实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

正文（附运行示例）

公众号: 蚝油菜花 - LatentSync

LatentSync 是由字节跳动与北京交通大学联合推出的端到端唇形同步框架，基于音频条件的潜在扩散模型，无需任何中间的 3D 表示或 2D 特征点。LatentSync 利用 Stable Diffusion 的强大生成能力，捕捉复杂的视听关联，生成动态逼真的说话视频。

为解决扩散模型在不同帧间扩散过程不一致导致的时间一致性问题，LatentSync 推出了 Temporal REPresentation Alignment (TREPA) 方法，通过大规模自监督视频模型提取时间表示，增强生成帧与真实帧的时间一致性，同时保持唇同步的准确性。

音频条件潜在扩散模型：以音频为条件，用潜在扩散模型直接在潜在空间进行建模，无需经过像素空间扩散或两阶段生成过程。
端到端框架：将音频特征提取、潜在表示生成、唇同步生成等过程集成在一个统一的模型中，简化中间步骤，提高生成效率和准确性。
Temporal REPresentation Alignment (TREPA)：通过大规模自监督视频模型 VideoMAE-v2 提取时间表示，计算生成连续帧和真实连续帧的时间表示之间的距离作为额外损失，增强生成视频的时间一致性。
SyncNet 监督：在训练过程中，用预训练的 SyncNet 对生成的视频进行监督，确保生成的视频具有良好的唇同步效果。

首先，安装所需的依赖包并下载模型检查点：

source setup_env.sh

运行推理脚本，生成唇同步视频：

./inference.sh

执行数据处理脚本，准备训练数据：

./data_processing_pipeline.sh

在数据准备完成后，训练 U-Net 模型：

./train_unet.sh

如果需要训练 SyncNet，可以运行以下脚本：

./train_syncnet.sh

🥦 微信公众号｜搜一搜：蚝油菜花 🥦