AudioLDM一作解读：文本生成高质量音频，单GPU即可-阿里云开发者社区

AudioLDM一作解读：文本生成高质量音频，单GPU即可

2023-05-22 211

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： AudioLDM一作解读：文本生成高质量音频，单GPU即可

文本驱动的生成模型在图像和视频领域已经取得了显著成果，例如大火的 Stable Diffusion，可以生成大片级别的图像，但是在音频领域，技术上的进展还是比较局限的。

文本到音频的生成模型对许多和创作相关的行业都会产生积极的作用，例如游戏开发者或者电影配音人员可以借助此项技术，根据特定的要求去生成声音，而不是在庞大的音频数据库中搜寻，从而加快生产效率。文本到音频的生成模型也可以为未来自动内容创作提供文本和声音之间的桥梁。

然而，以往文本到音频的研究都存在生成质量有限、计算成本高的问题。

针对上述困难，来自英国萨里大学等机构的研究者提出了 AudioLDM，一个基于去噪扩散隐式模型（Latent Diffusion Models, LDMs）和对比学习 (Contrastive Learning) 的框架。AudioLDM 可以在仅有音频数据的情况下达到比使用音频 - 文本数据对相同或者更好的效果。作者提出采用自监督的方法去训练 LDMs。具体而言，AudioLDM 使用对比学习将文本和音频两个模态对齐到一个隐空间中，在训练 LDMs 的时候使用音频自身的表征去生成音频本身，并在测试时使用文本的表征。这种做法比较好的缓解了此任务对音频 - 文本数据对的依赖。总结来说，AudioLDM 具备以下几点优势：

达到了目前最好的文本生成音频的效果，并且在核心模块（扩散模型）优化阶段不需要文本数据。
计算资源消耗低，单块 3090 GPU 三天内可以完成在 AudioCaps 数据集上的模型训练。
模型在不需要额外训练的情况下，可以对任意声音进行音色风格转换，声音空白填充和音频超分。

机器之心最新一期线上分享邀请到了该研究的作者之一、英国萨里大学刘濠赫博士，为大家解读他们近期的工作 AudioLDM。

AudioLDM一作解读：文本生成高质量音频，单GPU即可

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

AudioLDM一作解读：文本生成高质量音频，单GPU即可

热门文章

最新文章

相关课程

相关电子书

相关实验场景