一个开源库搞定各类文本到音频生成,Meta发布AudioCraft

简介: 一个开源库搞定各类文本到音频生成,Meta发布AudioCraft



近来,Meta 发布并开源了多个 AI 模型,例如 Llama 系列模型、分割一切的 SAM 模型。这些模型推动了开源社区的研究进展。现在,Meta 又开源了一个能够生成各种音频的 PyTorch 库 ——AudioCraft,并公开了其技术细节。




AudioCraft 能够基于用户输入的文本生成高质量、高保真的音频。我们先来听一下生成效果。


AudioCraft 可以生成一些现实场景中的声音,例如输入文本 prompt:「Whistling with wind blowing(风呼啸而过)」


语音1,机器之心,5秒


还能生成有旋律的音乐,例如输入文本 prompt:「Pop dance track with catchy melodies, tropical percussions, and upbeat rhythms, perfect for the beach(流行舞曲,具有朗朗上口的旋律、热带打击乐和欢快的节奏,非常适合海滩)」


甚至还可以选择具体的乐器,生成特定的音乐,例如输入文本输入文本 prompt:「Earthy tones, environmentally conscious, ukulele-infused, harmonic, breezy, easygoing, organic instrumentation, gentle grooves(朴实的曲调,环保理念,尤克里里,和声,轻松,随和,有机乐器,柔和的节奏)」



AudioCraft 简介


相比于文本、图像,音频生成是更具挑战性的,因为生成高保真音频需要对复杂的信号和模式进行建模。


为了高质量地生成各类音频,AudioCraft 包含三个模型:MusicGen、AudioGen 和 EnCodec。其中,MusicGen 使用 Meta 具有版权的音乐数据进行训练,基于用户输入的文本生成音乐;AudioGen 使用公共音效数据进行训练,基于用户输入的文本生成音频;EnCodec 用于压缩音频并以高保真度重建原始信号,保证生成的音乐是高质量的。


从原始音频信号生成音频需要对极长的序列进行建模。例如,以 44.1 kHz 采样的几分钟音乐曲目由数百万个时间步(timestep)组成。相比之下,Llama 和 Llama 2 等基于文本的生成模型是将文本处理成子词,每个样本仅需要几千个时间步。


MusicGen 是专门为音乐生成量身定制的音频生成模型。音乐曲目比环境声音更复杂,在创建新的音乐作品时,在长程(long-term)结构上生成连贯的样本非常重要。MusicGen 在大约 400000 个录音以及文本描述和元数据上进行训练,总计 20000 小时的音乐。


AudioGen 模型可以生成环境声音及声效,例如狗叫声、汽车喇叭声或脚步声。


AudioGen 模型架构。

EnCodec 神经音频编解码器从原始信号中学习离散音频 token,这相当于给音乐样本提供了新的固定「词汇」;然后研究团队又在这些离散的音频 token 上训练自回归语言模型,以在使用 EnCodec 的解码器将 token 转换回音频空间时生成新的 token、声音和音乐。


总的来说,AudioCraft 简化了音频生成模型的整体设计。MusicGen 和 AudioGen 均由单个自回归语言模型组成,并在压缩的离散音乐表征流(即 token)上运行。AudioCraft让用户可以使用不同类型的条件模型来控制生成,例如使用预训练的文本编码器完成文本到音频生成。


参考链接:https://ai.meta.com/blog/audiocraft-musicgen-audiogen-encodec-generative-ai-audio/

相关文章
|
JavaScript Java 应用服务中间件
使用 Docker 高效搭建本地开发环境(详细教程)
使用 Docker 高效搭建本地开发环境(详细教程)
16202 0
使用 Docker 高效搭建本地开发环境(详细教程)
|
Windows
已解决Win11报错 OSError: [WinError 1455] 页面文件太小,无法完成操作。
Win11报错 OSError: [WinError 1455] 页面文件太小,无法完成操作。 Error loading "D:\aaaa\envs\gs\lib\site-packages\torch\lib\caffe2_detectron_ops_gpu.dll" or one of its dependencies.
10051 0
已解决Win11报错 OSError: [WinError 1455] 页面文件太小,无法完成操作。
|
11月前
|
数据处理 语音技术 项目管理
人人都是音乐家!中科大&科大讯飞重磅开源OpenMusic:音乐生成更高质量,更有乐感
提出了一种质量感知训练范式,使模型在训练过程中能够感知数据集的质量,从而在音乐性(美学角度)和音频质量方面实现卓越的音乐生成效果。
446 9
人人都是音乐家!中科大&科大讯飞重磅开源OpenMusic:音乐生成更高质量,更有乐感
|
10月前
|
人工智能 自然语言处理 开发者
开源上新 | 通义音乐生成技术InspireMusic
开源上新 | 通义音乐生成技术InspireMusic
|
10月前
|
编解码 自然语言处理 开发者
通义音乐生成技术InspireMusic开源!
通义音乐生成技术InspireMusic开源!
675 2
|
9月前
|
安全 Unix Linux
VMware Workstation 17.6.3 发布下载,现在完全免费无论个人还是商业用途
VMware Workstation 17.6.3 发布下载,现在完全免费无论个人还是商业用途
77606 65
|
9月前
|
测试技术 API
QwQ-32B,支持Function Call的推理模型,深度思考Agent的时代来了!
近期,Qwen 发布了 QwQ-32B - 一个在许多基准测试中性能可与 DeepSeek-R1 相媲美的推理模型。
1550 9
|
9月前
|
人工智能 自然语言处理
AudioX:颠覆创作!多模态AI一键生成电影级音效+配乐,耳朵的终极盛宴
AudioX 是香港科技大学和月之暗面联合推出的扩散变换器模型,能够从文本、视频、图像等多种模态生成高质量音频和音乐,具备强大的跨模态学习能力和泛化能力。
749 36
AudioX:颠覆创作!多模态AI一键生成电影级音效+配乐,耳朵的终极盛宴
|
12月前
|
人工智能 JSON API
使用 Qwen 生成数据模型和进行结构化输出
本教程展示如何使用CAMEL框架和Qwen模型生成结构化数据。CAMEL是一个强大的多智能体框架,支持复杂的AI任务;Qwen由阿里云开发,具备自然语言处理等先进能力。教程涵盖安装、API密钥设置、定义Pydantic模型,并演示了通过Qwen生成JSON格式的学生信息。最后,介绍了如何利用Qwen生成多个随机学生信息的JSON格式数据。欢迎在[CAMEL GitHub](https://github.com/camel-ai/camel)上为项目点星支持。
3767 70
|
决策智能 开发者
手把手教你如何用AIGC大模型写一首歌
本文记录了作者用大模型创作歌曲及视频的全过程。
430 10

热门文章

最新文章