❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- 模型介绍:Freestyler是由西北工业大学、微软和香港大学联合推出的说唱乐生成模型,能够根据歌词和伴奏生成说唱音乐。
- 主要功能:支持零样本音色控制、风格和节奏对齐,并生成高质量音频。
- 技术原理:基于语言模型生成语义标记,通过条件流匹配模型和神经声码器生成音频。
正文
Freestyler 是什么
Freestyler是由西北工业大学计算机科学学院音频、语音与语言处理小组(ASLP@NPU)、微软及香港中文大学深圳研究院大数据研究所共同推出的说唱乐生成模型。该模型能够直接根据歌词和伴奏创作出说唱音乐,无需用户具备音乐知识。Freestyler基于语言模型生成语义标记,再通过条件流匹配模型产生频谱图,最后用神经声码器转换成音频。
Freestyler还推出了RapBank数据集,支持训练和模型开发,能够实现零样本的音色控制,让用户生成具有特定音色的说唱声乐。
Freestyler 的主要功能
- 说唱声乐生成:直接从歌词和伴奏输入生成说唱声乐,无需用户具备音乐知识。
- 零样本音色控制:基于3秒的参考音频,Freestyler能适应任何说话者的音色,实现零样本的音色控制。
- 数据集创建:为解决说唱数据的稀缺问题,团队创建了RapBank数据集,并提供数据处理流程。
- 风格和节奏对齐:生成的说唱声音与伴奏的风格和节奏高度对齐。
- 高质量音频输出:基于先进的声码器技术,生成自然且高质量的说唱音频。
Freestyler 的技术原理
歌词到语义(Lyrics-to-Semantic):
- 使用语言模型(如LLaMA)预测基于歌词和伴奏特征的离散语义标记。
- 基于Wav2Vec XLS-R等自监督学习(SSL)模型提取特征,用K-means聚类得到语义标记。
语义到频谱图(Semantic-to-Spectrogram):
- 应用条件流匹配(CFM)技术将离散语义标记转换为连续的mel频谱图。
- 参考音频被纳入CFM模型,补充语义标记中缺失的音色信息。
频谱图到音频(Spectrogram-to-Audio):
- 用预训练的声码器(如BigVGAN-V2)从频谱图中重建音频。
- 声码器能处理多种类型的音频数据,包括不同语言的语音、歌唱和环境声音。
数据集和处理流程:
- RapBank数据集包含从互联网收集的大量说唱歌曲,经过自动爬取、源分离、分割、歌词识别和质量过滤等步骤处理。
- 数据集处理包括音乐源分离、语音活动检测(VAD)分割、自动语音识别(ASR)歌词识别和质量相关指标计算。
资源
- GitHub 仓库:https://github.com/NZqian/RapBank
- arXiv 技术论文:https://arxiv.org/pdf/2408.15474
- 项目官网:https://nzqian.github.io/Freestyler/
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦