Freestyler:微软联合西工大和香港大学推出说唱音乐生成模型,支持控制生成的音色、风格和节奏等

简介: Freestyler是由西北工业大学、微软和香港大学联合推出的说唱乐生成模型,能够根据歌词和伴奏直接生成说唱音乐。该模型基于语言模型生成语义标记,并通过条件流匹配模型和神经声码器生成高质量音频。Freestyler还推出了RapBank数据集,支持零样本音色控制和多种应用场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 模型介绍:Freestyler是由西北工业大学、微软和香港大学联合推出的说唱乐生成模型,能够根据歌词和伴奏生成说唱音乐。
  2. 主要功能:支持零样本音色控制、风格和节奏对齐,并生成高质量音频。
  3. 技术原理:基于语言模型生成语义标记,通过条件流匹配模型和神经声码器生成音频。

正文

Freestyler 是什么

公众号: 蚝油菜花 - RapBank

Freestyler是由西北工业大学计算机科学学院音频、语音与语言处理小组(ASLP@NPU)、微软及香港中文大学深圳研究院大数据研究所共同推出的说唱乐生成模型。该模型能够直接根据歌词和伴奏创作出说唱音乐,无需用户具备音乐知识。Freestyler基于语言模型生成语义标记,再通过条件流匹配模型产生频谱图,最后用神经声码器转换成音频。

Freestyler还推出了RapBank数据集,支持训练和模型开发,能够实现零样本的音色控制,让用户生成具有特定音色的说唱声乐。

Freestyler 的主要功能

  • 说唱声乐生成:直接从歌词和伴奏输入生成说唱声乐,无需用户具备音乐知识。
  • 零样本音色控制:基于3秒的参考音频,Freestyler能适应任何说话者的音色,实现零样本的音色控制。
  • 数据集创建:为解决说唱数据的稀缺问题,团队创建了RapBank数据集,并提供数据处理流程。
  • 风格和节奏对齐:生成的说唱声音与伴奏的风格和节奏高度对齐。
  • 高质量音频输出:基于先进的声码器技术,生成自然且高质量的说唱音频。

Freestyler 的技术原理

  • 歌词到语义(Lyrics-to-Semantic)

    • 使用语言模型(如LLaMA)预测基于歌词和伴奏特征的离散语义标记。
    • 基于Wav2Vec XLS-R等自监督学习(SSL)模型提取特征,用K-means聚类得到语义标记。
  • 语义到频谱图(Semantic-to-Spectrogram)

    • 应用条件流匹配(CFM)技术将离散语义标记转换为连续的mel频谱图。
    • 参考音频被纳入CFM模型,补充语义标记中缺失的音色信息。
  • 频谱图到音频(Spectrogram-to-Audio)

    • 用预训练的声码器(如BigVGAN-V2)从频谱图中重建音频。
    • 声码器能处理多种类型的音频数据,包括不同语言的语音、歌唱和环境声音。
  • 数据集和处理流程

    • RapBank数据集包含从互联网收集的大量说唱歌曲,经过自动爬取、源分离、分割、歌词识别和质量过滤等步骤处理。
    • 数据集处理包括音乐源分离、语音活动检测(VAD)分割、自动语音识别(ASR)歌词识别和质量相关指标计算。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
搜索推荐 架构师 应用服务中间件
Nginx极简入门(三)基于端口的虚拟主机配置
前面讲了如何配置基于IP的虚拟主机,今天讲一讲Nginx如何基于端口的虚拟主机。 需要说明的是:由于本文章是nginx系列文章中的一篇,文章里面很多其他的配置,可能前面的文章已经说讲过,然后后续就没有在介绍,如果出现有些配置没有讲,大家可能需要去看看前面的文章。
Nginx极简入门(三)基于端口的虚拟主机配置
|
人工智能 物联网 PyTorch
ChatTTSPlus:开源文本转语音工具,支持语音克隆,是 ChatTTS 的扩展版本
ChatTTSPlus 是一个开源的文本转语音工具,是 ChatTTS 的扩展版本,支持语音克隆、TensorRT 加速和移动模型部署等功能,极大地提升了语音合成的性能和灵活性。
1172 5
ChatTTSPlus:开源文本转语音工具,支持语音克隆,是 ChatTTS 的扩展版本
|
语音技术
kws_util 下载不了
用户在树莓派上安装了一个语音唤醒环境,并使用了CTC语音唤醒模型“小云小云”。但在执行推理时遇到了错误。已尝试安装[kws_tuil],安装不成功,更换镜像后仍然安装失败,目前无法解决此问题。
|
机器学习/深度学习 人工智能 Linux
Fish Speech 1.5:Fish Audio 推出的零样本语音合成模型,支持13种语言
Fish Speech 1.5 是由 Fish Audio 推出的先进文本到语音(TTS)模型,支持13种语言,具备零样本和少样本语音合成能力,语音克隆延迟时间不到150毫秒。该模型基于深度学习技术如Transformer、VITS、VQVAE和GPT,具有高度准确性和快速合成能力,适用于多种应用场景。
1449 3
Fish Speech 1.5:Fish Audio 推出的零样本语音合成模型,支持13种语言
|
机器学习/深度学习 人工智能 开发工具
Clone-voice:开源的声音克隆工具,支持文本转语音或改变声音风格,支持16种语言
Clone-voice是一款开源的声音克隆工具,支持16种语言,能够将文本转换为语音或将一种声音风格转换为另一种。该工具基于深度学习技术,界面友好,操作简单,适用于多种应用场景,如视频制作、语言学习和广告配音等。
2766 9
Clone-voice:开源的声音克隆工具,支持文本转语音或改变声音风格,支持16种语言
|
10月前
|
存储 安全 数据处理
【HarmonyOS Next之旅】HarmonyOS开发基础知识(三)
随着移动终端及其相关业务(如移动支付、终端云等)的普及,用户隐私保护的重要性愈发突出。应用开发者在产品设计阶段就需要考虑用户隐私的保护,提高应用的安全性。HarmonyOS应用开发需要遵从隐私保护规则,在应用上架应用市场时,应用市场会根据规则进行校验,如不满足条件则无法上架。应用采集个人数据时,应清晰、明确地告知用户,并确保告知用户的个人信息将被如何使用。对个人数据处理必须要征得用户的同意或遵守适用的法律法规,用户对其个人数据要有充分的控制权。应用个人数据收集应与数据处理目的相关,且是适当、必要的。开发者应
212 7
【HarmonyOS Next之旅】HarmonyOS开发基础知识(三)
|
8月前
|
测试技术 API C++
Playwright 自动化测试系列(7)| 第三阶段:测试框架集成​​Page Object 模式
本课程详解Playwright测试框架中的Page Object模式,通过电商登录-下单实战演示PO架构设计与高级技巧,结合Pytest实现多用户测试。重点解析PO模式提升代码复用性、降低维护成本的核心价值,并提供常见问题解决方案,助力构建高可维护性的自动化测试体系。
|
人工智能 监控 算法
3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录
3D-Speaker是阿里巴巴通义实验室推出的多模态说话人识别开源项目,结合声学、语义和视觉信息,提供高精度的说话人识别和语种识别功能。项目包含工业级模型、训练和推理代码,以及大规模多设备、多距离、多方言的数据集,适用于多种应用场景。
3857 18
3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录
|
消息中间件 存储 Java
Kafka 如何避免重复消费?
在Apache Kafka中,避免消息的重复消费是确保数据准确处理的关键。本文详细介绍了七种避免重复消费的方法:使用消费者组、幂等生产者、事务性生产者与消费者、手动提交偏移量、外部存储管理偏移量、去重逻辑及幂等消息处理逻辑。每种方法均有其优缺点,可根据实际需求选择合适方案。结合消费者组、手动提交偏移量和幂等处理逻辑通常是有效策略,而对于高一致性要求,则可考虑使用事务性消息。
2606 0

热门文章

最新文章