一个开源库搞定各类文本到音频生成，Meta发布AudioCraft-阿里云开发者社区

一个开源库搞定各类文本到音频生成，Meta发布AudioCraft

2023-08-09 708 发布于浙江

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 一个开源库搞定各类文本到音频生成，Meta发布AudioCraft

近来，Meta 发布并开源了多个 AI 模型，例如 Llama 系列模型、分割一切的 SAM 模型。这些模型推动了开源社区的研究进展。现在，Meta 又开源了一个能够生成各种音频的 PyTorch 库 ——AudioCraft，并公开了其技术细节。

代码地址：https://github.com/facebookresearch/audiocraft
项目主页：https://audiocraft.metademolab.com/?utm_source=twitter&utm_medium=organic_social&utm_campaign=audiocraft&utm_content=card

AudioCraft 能够基于用户输入的文本生成高质量、高保真的音频。我们先来听一下生成效果。

AudioCraft 可以生成一些现实场景中的声音，例如输入文本 prompt：「Whistling with wind blowing（风呼啸而过）」

语音1,机器之心,5秒

还能生成有旋律的音乐，例如输入文本 prompt：「Pop dance track with catchy melodies, tropical percussions, and upbeat rhythms, perfect for the beach（流行舞曲，具有朗朗上口的旋律、热带打击乐和欢快的节奏，非常适合海滩）」

甚至还可以选择具体的乐器，生成特定的音乐，例如输入文本输入文本 prompt：「Earthy tones, environmentally conscious, ukulele-infused, harmonic, breezy, easygoing, organic instrumentation, gentle grooves（朴实的曲调，环保理念，尤克里里，和声，轻松，随和，有机乐器，柔和的节奏）」

AudioCraft 简介

相比于文本、图像，音频生成是更具挑战性的，因为生成高保真音频需要对复杂的信号和模式进行建模。

为了高质量地生成各类音频，AudioCraft 包含三个模型：MusicGen、AudioGen 和 EnCodec。其中，MusicGen 使用 Meta 具有版权的音乐数据进行训练，基于用户输入的文本生成音乐；AudioGen 使用公共音效数据进行训练，基于用户输入的文本生成音频；EnCodec 用于压缩音频并以高保真度重建原始信号，保证生成的音乐是高质量的。