Freestyler:微软联合西工大和香港大学推出说唱音乐生成模型,支持控制生成的音色、风格和节奏等

简介: Freestyler是由西北工业大学、微软和香港大学联合推出的说唱乐生成模型,能够根据歌词和伴奏直接生成说唱音乐。该模型基于语言模型生成语义标记,并通过条件流匹配模型和神经声码器生成高质量音频。Freestyler还推出了RapBank数据集,支持零样本音色控制和多种应用场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 模型介绍:Freestyler是由西北工业大学、微软和香港大学联合推出的说唱乐生成模型,能够根据歌词和伴奏生成说唱音乐。
  2. 主要功能:支持零样本音色控制、风格和节奏对齐,并生成高质量音频。
  3. 技术原理:基于语言模型生成语义标记,通过条件流匹配模型和神经声码器生成音频。

正文

Freestyler 是什么

公众号: 蚝油菜花 - RapBank

Freestyler是由西北工业大学计算机科学学院音频、语音与语言处理小组(ASLP@NPU)、微软及香港中文大学深圳研究院大数据研究所共同推出的说唱乐生成模型。该模型能够直接根据歌词和伴奏创作出说唱音乐,无需用户具备音乐知识。Freestyler基于语言模型生成语义标记,再通过条件流匹配模型产生频谱图,最后用神经声码器转换成音频。

Freestyler还推出了RapBank数据集,支持训练和模型开发,能够实现零样本的音色控制,让用户生成具有特定音色的说唱声乐。

Freestyler 的主要功能

  • 说唱声乐生成:直接从歌词和伴奏输入生成说唱声乐,无需用户具备音乐知识。
  • 零样本音色控制:基于3秒的参考音频,Freestyler能适应任何说话者的音色,实现零样本的音色控制。
  • 数据集创建:为解决说唱数据的稀缺问题,团队创建了RapBank数据集,并提供数据处理流程。
  • 风格和节奏对齐:生成的说唱声音与伴奏的风格和节奏高度对齐。
  • 高质量音频输出:基于先进的声码器技术,生成自然且高质量的说唱音频。

Freestyler 的技术原理

  • 歌词到语义(Lyrics-to-Semantic)

    • 使用语言模型(如LLaMA)预测基于歌词和伴奏特征的离散语义标记。
    • 基于Wav2Vec XLS-R等自监督学习(SSL)模型提取特征,用K-means聚类得到语义标记。
  • 语义到频谱图(Semantic-to-Spectrogram)

    • 应用条件流匹配(CFM)技术将离散语义标记转换为连续的mel频谱图。
    • 参考音频被纳入CFM模型,补充语义标记中缺失的音色信息。
  • 频谱图到音频(Spectrogram-to-Audio)

    • 用预训练的声码器(如BigVGAN-V2)从频谱图中重建音频。
    • 声码器能处理多种类型的音频数据,包括不同语言的语音、歌唱和环境声音。
  • 数据集和处理流程

    • RapBank数据集包含从互联网收集的大量说唱歌曲,经过自动爬取、源分离、分割、歌词识别和质量过滤等步骤处理。
    • 数据集处理包括音乐源分离、语音活动检测(VAD)分割、自动语音识别(ASR)歌词识别和质量相关指标计算。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
消息中间件 监控 数据可视化
Linux安装Kafka图形化界面
Linux安装Kafka图形化界面
975 4
|
网络安全 数据安全/隐私保护
ssh远程执行命令自动输入密码方式
ssh远程执行命令自动输入密码方式
4085 0
|
人工智能 API 语音技术
EmotiVoice:网易开源AI语音合成黑科技,2000+音色情感可控
EmotiVoice是网易有道开源的多语言语音合成系统,支持中英文2000多种音色,通过提示词控制情感输出,提供Web界面和API接口,具备语音克隆等先进功能。
1779 43
EmotiVoice:网易开源AI语音合成黑科技,2000+音色情感可控
|
2月前
|
机器学习/深度学习 人工智能 监控
基于YOLO26的学生课堂行为检测系统(中英文双版) | 附完整源码与效果演示
本项目基于YOLO26+PyQt5,构建中英文双语可切换的学生课堂行为检测系统,实时识别举手、阅读、写作、用手机、低头、睡觉6类行为,支持图片/视频/摄像头输入、模型训练与评估,含完整源码、预训练模型及数据集。
|
3月前
|
存储 人工智能 安全
推荐一款可以简单快速部署开源AI模型的桌面软件 Doo AI
Doo AI是一款简洁易用的开源AI模型本地部署工具,支持通义千问3/VL、LLaMA3.1等主流HF格式模型。下载即用,扫描→点击“加载”,可以快速、轻松完成部署;纯本地运行,隐私安全;支持文本对话、图像识别、RAG、角色提示词等实用功能。(239字)
1237 4
推荐一款可以简单快速部署开源AI模型的桌面软件 Doo AI
|
人工智能 自然语言处理 语音技术
Step-Audio:开源语音交互新标杆!这个国产AI能说方言会rap,1个模型搞定ASR+TTS+角色扮演
Step-Audio 是由阶跃星辰团队推出的开源语音交互模型,支持多语言、方言和情感表达,能够实现高质量的语音识别、对话和合成。本文将详细介绍其核心功能和技术原理。
2217 91
Step-Audio:开源语音交互新标杆!这个国产AI能说方言会rap,1个模型搞定ASR+TTS+角色扮演
|
人工智能 自然语言处理 API
Oliva:语音RAG革命!开源多智能体秒解复杂搜索,实时对讲颠覆传统
Oliva是一款基于Langchain和Superlinked的开源语音RAG助手,通过实时语音交互在Qdrant向量数据库中进行语义搜索,支持多智能体协作处理复杂查询任务。
749 4
Oliva:语音RAG革命!开源多智能体秒解复杂搜索,实时对讲颠覆传统
|
人工智能 编解码 语音技术
SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互
SpeechGPT 2.0 是复旦大学 OpenMOSS 团队推出的端到端实时语音交互模型,具备拟人口语化表达、低延迟响应和多情感控制等功能。
3121 21
SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互
|
人工智能 物联网 测试技术
FireRedASR:精准识别普通话、方言和歌曲歌词!小红书开源工业级自动语音识别模型
小红书开源的工业级自动语音识别模型,支持普通话、中文方言和英语,采用 Encoder-Adapter-LLM 和 AED 架构,实现 SOTA 性能。
4399 17
FireRedASR:精准识别普通话、方言和歌曲歌词!小红书开源工业级自动语音识别模型
|
人工智能 自然语言处理 API
百聆:集成Deepseek API及语音技术的开源AI语音对话助手,实时交互延迟低至800ms
百聆是一款开源的AI语音对话助手,结合ASR、VAD、LLM和TTS技术,提供低延迟、高质量的语音对话体验,适用于边缘设备和低资源环境。
4319 5
百聆:集成Deepseek API及语音技术的开源AI语音对话助手,实时交互延迟低至800ms

热门文章

最新文章