文本驱动的生成模型在图像和视频领域已经取得了显著成果,例如大火的 Stable Diffusion,可以生成大片级别的图像,但是在音频领域,技术上的进展还是比较局限的。
文本到音频的生成模型对许多和创作相关的行业都会产生积极的作用,例如游戏开发者或者电影配音人员可以借助此项技术,根据特定的要求去生成声音,而不是在庞大的音频数据库中搜寻,从而加快生产效率。文本到音频的生成模型也可以为未来自动内容创作提供文本和声音之间的桥梁。
然而,以往文本到音频的研究都存在生成质量有限、计算成本高的问题。
针对上述困难,来自英国萨里大学等机构的研究者提出了 AudioLDM,一个基于去噪扩散隐式模型(Latent Diffusion Models, LDMs)和对比学习 (Contrastive Learning) 的框架。AudioLDM 可以在仅有音频数据的情况下达到比使用音频 - 文本数据对相同或者更好的效果。作者提出采用自监督的方法去训练 LDMs。具体而言,AudioLDM 使用对比学习将文本和音频两个模态对齐到一个隐空间中,在训练 LDMs 的时候使用音频自身的表征去生成音频本身,并在测试时使用文本的表征。这种做法比较好的缓解了此任务对音频 - 文本数据对的依赖。总结来说,AudioLDM 具备以下几点优势:
- 达到了目前最好的文本生成音频的效果,并且在核心模块(扩散模型)优化阶段不需要文本数据。
- 计算资源消耗低,单块 3090 GPU 三天内可以完成在 AudioCaps 数据集上的模型训练。
- 模型在不需要额外训练的情况下,可以对任意声音进行音色风格转换,声音空白填充和音频超分。
机器之心最新一期线上分享邀请到了该研究的作者之一、英国萨里大学刘濠赫博士,为大家解读他们近期的工作 AudioLDM。