MMAudio：开源 AI 音频合成项目，根据视频或文本生成同步的音频

2024-12-12 1109

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： MMAudio 是一个基于多模态联合训练的高质量 AI 音频合成项目，能够根据视频内容或文本描述生成同步的音频。该项目适用于影视制作、游戏开发、虚拟现实等多种场景，提升用户体验。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

正文（附运行示例）

公众号: 蚝油菜花 - MMAudio

MMAudio 是一种先进的视频到音频合成技术，基于多模态联合训练，能够在广泛的视听和音频文本数据集上进行训练。其核心技术是同步模块，确保生成的音频与视频帧精确匹配，实现高度同步。

MMAudio 不仅适用于影视制作和游戏开发，还可以根据视频内容或文本描述生成相应的音频，极大地提升了用户体验。

安装依赖：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 --upgrade
conda install -c conda-forge 'ffmpeg<7'

克隆仓库：

git clone https://github.com/hkchengrex/MMAudio.git
cd MMAudio
pip install -e .

使用 demo.py 进行视频到音频合成：

python demo.py --duration=8 --video=<path to video> --prompt "your prompt"

输出将以 .flac 和 .mp4 格式保存在 ./output 目录下。

使用 Gradio 进行视频到音频和文本到音频合成：

python gradio_demo.py

🥦 微信公众号｜搜一搜：蚝油菜花 🥦