文字、图片一键生成逼真音效,作者亲自揭秘音频AIGC模型

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 文字、图片一键生成逼真音效,作者亲自揭秘音频AIGC模型



AIGC 在最近几月获得了巨大的突破,用户可以输入自然语言生成图像、视频、甚至是 3D 模型。但对于音频音效合成,高自由度音频生成因文本 - 音频对数据缺乏,以及长时波形建模困难而带来挑战。

此前,机器之心发布的文章《这段音频火爆外网!文字、图片一键生成逼真音效,音频界 AIGC 来了》很好的解决了上述问题,研究者提出了一款创新的、文本到音频生成系统,即 Make-An-Audio。其可以将自然语言描述作为输入,而且是任意模态(例如文本、音频、图像、视频等)均可,同时输出符合描述的音频音效。具体而言,研究团队提出 Distill-then-Reprogram 文本增强策略已解决数据缺乏问题,即使用教师模型获得音频的自然语言描述,再通过随机重组获得具有动态性的训练样本。在 Distill 环节中,使用音频转文本与音频 - 文本检索模型,找到语言缺失 (Language-Free) 音频的自然语言描述候选 (Candidate),通过计算候选文本与音频的匹配相似度,在阈值下取得最佳结果作为音频的描述。在 Reprogram 环节中,团队从额外的事件数据集中随机采样,并与当前训练样本相结合,得到全新的概念组合与描述,以扩增模型对不同事件组合的鲁棒性。另一方面,自监督学习已经成功将图片迁移到音频频谱,利用了频谱自编码器以解决长音频序列问题,并基于 Latent Diffusion 生成模型完成对自监督表征的预测,避免了直接预测长时波形。此外在研究中团队还探索了强大的文本条件策略,包括对比式 Contrastive Language-Audio Pretraining (CLAP) 以及语言模型 (LLM) T5, BERT 等,验证了 CLAP 文本表征的有效与计算友好性。同时还首次使用 CLAP Score 来评估生成的音频,可以用于衡量文本和生成场景之间的一致性;使用主、客观相结合的评估方式,在 benchmark 数据集测试中验证了模型的有效性,展示了模型出色的零样本学习 (Zero-Shot) 泛化性等。

为了让大家更好的了解这项研究,机器之心最新一期线上分享邀请到了论文两位作者黄融杰、任意,为大家解读文本到音频的生成系统,即 Make-An-Audio。



分享主题:音频 AIGC 模型 Make-An-Audio 与高可控文本转音频合成分享摘要:近期 AIGC 如同上了热搜一般,火热程度居高不下,但在音频音效领域,AIGC 的福利似乎还差了一些:主要由于高自由度音频生成需要依靠大量文本 - 音频对数据,同时长时波形建模还有诸多困难。为了解决上述困难,浙江大学与北京大学联合火山语音,共同提出了一款创新的、文本到音频的生成系统,即 Make-An-Audio。其可以将自然语言描述作为输入,而且是任意模态(例如文本、音频、图像、视频等)均可,同时输出符合描述的音频音效,具有强可控性、泛化性。嘉宾简介:黄融杰,浙江大学硕士二年级,师从赵洲教授。第一作者在 NeurIPS/ICLR/IJCAI/ACM-MM 等会议发表多篇文章,主要研究方向为多模态合成,语音翻译与自监督学习。任意,火山语音(字节跳动 AI Lab Speech & Audio 智能语音与音频)团队研究员,著名语音合成框架 FastSpeech 系列作者,曾在人工智能顶会发表论文 40 余篇,谷歌学术引用超过 2000。主要研究方向为语音合成、语音翻译和机器翻译。


相关文章
|
2月前
|
人工智能 自然语言处理 数据处理
AIGC塑造大模型时代的数据标注新生态
AIGC塑造大模型时代的数据标注新生态
39 3
AIGC塑造大模型时代的数据标注新生态
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
2023年度AI盘点 AIGC|AGI|ChatGPT|人工智能大模型
2023年度AI盘点 AIGC|AGI|ChatGPT|人工智能大模型
|
3月前
|
存储 安全 数据安全/隐私保护
中外AIGC大模型的差距、态势与结构
【1月更文挑战第21天】中外AIGC大模型的差距、态势与结构
201 2
中外AIGC大模型的差距、态势与结构
|
3月前
|
编解码 人工智能 自然语言处理
AIGC基础模型——扩散模型(Diffusion Model)
【1月更文挑战第23天】AIGC基础模型——扩散模型(Diffusion Model)
103 1
AIGC基础模型——扩散模型(Diffusion Model)
|
3月前
|
人工智能 自然语言处理
AIGC核心技术——多模态预训练大模型
【1月更文挑战第14天】AIGC核心技术——多模态预训练大模型
314 4
AIGC核心技术——多模态预训练大模型
|
15天前
|
机器学习/深度学习 人工智能 达摩院
52个AIGC视频生成算法模型介绍(上)
52个AIGC视频生成算法模型介绍(上)
42 3
|
1月前
|
机器学习/深度学习 存储 人工智能
只需任意一张人物图片,就可以生成该人物的科目三舞蹈视频 - AIGC 中的 Image-to-Video 技术
只需任意一张人物图片,就可以生成该人物的科目三舞蹈视频 - AIGC 中的 Image-to-Video 技术
42 0
|
1月前
|
人工智能 安全 数据安全/隐私保护
社交媒体平台使用用户作品训练AIGC大模型,隐私和版权怎么算?
【2月更文挑战第13天】社交媒体平台使用用户作品训练AIGC大模型,隐私和版权怎么算?
21 2
社交媒体平台使用用户作品训练AIGC大模型,隐私和版权怎么算?
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
大模型应用实践:AIGC探索之旅(上)
大模型应用实践:AIGC探索之旅(上)
152 3
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
大模型应用实践:AIGC探索之旅(下)
大模型应用实践:AIGC探索之旅(下)
1978 1

热门文章

最新文章