AudioLDM一作解读:文本生成高质量音频,单GPU即可

简介: AudioLDM一作解读:文本生成高质量音频,单GPU即可



文本驱动的生成模型在图像和视频领域已经取得了显著成果,例如大火的 Stable Diffusion,可以生成大片级别的图像,但是在音频领域,技术上的进展还是比较局限的。

文本到音频的生成模型对许多和创作相关的行业都会产生积极的作用,例如游戏开发者或者电影配音人员可以借助此项技术,根据特定的要求去生成声音,而不是在庞大的音频数据库中搜寻,从而加快生产效率。文本到音频的生成模型也可以为未来自动内容创作提供文本和声音之间的桥梁。

然而,以往文本到音频的研究都存在生成质量有限、计算成本高的问题。

针对上述困难,来自英国萨里大学等机构的研究者提出了 AudioLDM,一个基于去噪扩散隐式模型(Latent Diffusion Models, LDMs)和对比学习 (Contrastive Learning) 的框架。AudioLDM 可以在仅有音频数据的情况下达到比使用音频 - 文本数据对相同或者更好的效果。作者提出采用自监督的方法去训练 LDMs。具体而言,AudioLDM 使用对比学习将文本和音频两个模态对齐到一个隐空间中,在训练 LDMs 的时候使用音频自身的表征去生成音频本身,并在测试时使用文本的表征。这种做法比较好的缓解了此任务对音频 - 文本数据对的依赖。总结来说,AudioLDM 具备以下几点优势:

  • 达到了目前最好的文本生成音频的效果,并且在核心模块(扩散模型)优化阶段不需要文本数据。
  • 计算资源消耗低,单块 3090 GPU 三天内可以完成在 AudioCaps 数据集上的模型训练。
  • 模型在不需要额外训练的情况下,可以对任意声音进行音色风格转换,声音空白填充和音频超分。


机器之心最新一期线上分享邀请到了该研究的作者之一、英国萨里大学刘濠赫博士,为大家解读他们近期的工作 AudioLDM。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
4月前
|
人工智能 自然语言处理 语音技术
音频提取字幕开源模型-whisper
音频提取字幕开源模型-whisper
149 0
|
9月前
|
机器学习/深度学习 数据采集 人工智能
本地训练,立等可取,30秒音频素材复刻霉霉讲中文音色基于Bert-VITS2V2.0.2
之前我们[使用Bert-VITS2V2.0.2版本对现有的原神数据集进行了本地训练](https://v3u.cn/a_id_330),但如果克隆对象脱离了原神角色,我们就需要自己构建数据集了,事实上,深度学习模型的性能和泛化能力都依托于所使用的数据集的质量和多样性,本次我们在本地利用Bert-VITS2V2.0.2对霉霉讲中文的音色进行克隆实践。
本地训练,立等可取,30秒音频素材复刻霉霉讲中文音色基于Bert-VITS2V2.0.2
|
4月前
|
算法
音频作曲算法大全
音频作曲算法大全
47 0
|
API 语音技术 Python
轻声低语,藏在光芒下的语音转文字模型Whisper
轻声低语,藏在光芒下的语音转文字模型Whisper
1205 0
|
人工智能 Shell 语音技术
极速进化,光速转录,C++版本人工智能实时语音转文字(字幕/语音识别)Whisper.cpp实践
业界良心OpenAI开源的[Whisper模型](https://v3u.cn/a_id_272)是开源语音转文字领域的执牛耳者,白璧微瑕之处在于无法通过苹果M芯片优化转录效率,Whisper.cpp 则是 Whisper 模型的 C/C++ 移植版本,它具有无依赖项、内存使用量低等特点,重要的是增加了 Core ML 支持,完美适配苹果M系列芯片。 Whisper.cpp的张量运算符针对苹果M芯片的 CPU 进行了大量优化,根据计算大小,使用 Arm Neon SIMD instrisics 或 CBLAS Accelerate 框架例程,后者对于更大的尺寸特别有效,因为 Accele
|
人工智能 人机交互
可组合扩散模型主打Any-to-Any生成:文本、图像、视频、音频全都行
可组合扩散模型主打Any-to-Any生成:文本、图像、视频、音频全都行
168 0
|
机器学习/深度学习 图计算 图形学
NeurIPS 2022 | 文本图片编辑新范式,单个模型实现多文本引导图像编辑
NeurIPS 2022 | 文本图片编辑新范式,单个模型实现多文本引导图像编辑
343 0
|
存储 人工智能 开发者
中文多模态模型问世!IDPChat生成图像文字,只需5步+单GPU
中文多模态模型问世!IDPChat生成图像文字,只需5步+单GPU
169 0
|
编解码 人工智能 C++
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天(1)
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天
153 0
|
编解码 测试技术 网络架构
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天(2)
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天
168 0