MuCodec:清华、腾讯AI、港中文共同推出的超低比特率音乐编解码器

简介: MuCodec是由清华大学深圳国际研究生院、腾讯AI实验室和香港中文大学联合开发的超低比特率音乐编解码器。它能够在0.35kbps至1.35kbps的比特率下实现高效的音乐压缩和高保真重建,适用于在线音乐流媒体服务、音乐下载、语言模型建设等多个应用场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

技术合作:清华大学、腾讯AI实验室和香港中文大学联合开发。
功能特点:超低比特率下的音乐压缩与高保真重建。
应用场景:在线音乐流媒体服务、音乐下载、语言模型建设等。

正文(附运行示例)

MuCodec 是什么

公众号: 蚝油菜花 - MuCodec

MuCodec是由清华大学深圳国际研究生院、腾讯AI实验室和香港中文大学的研究人员共同推出的超低比特率音乐编解码器。它能够实现音乐的高效压缩与高保真重建。MuCodec基于MuEncoder提取音乐的声学和语义特征,使用RVQ技术进行特征离散化,并通过流匹配方法重建Mel-VAE特征。最终,通过预训练的Mel-VAE解码器和HiFi-GAN生成重建后的音乐。

MuCodec能够在0.35kbps至1.35kbps的比特率下达到业界领先的压缩效率和音质。

MuCodec 的主要功能

  • 音乐压缩:在极低的比特率下对音乐进行有效压缩,支持0.35kbps的超低比特率。
  • 音乐重建:在超低比特率下,能够重建出高保真的音乐。
  • 特征提取:使用MuEncoder提取音乐的声学和语义特征,捕捉音乐的本质特性。
  • 离散化处理:基于RVQ(Residual Vector Quantization)技术对提取的特征进行离散化处理,便于压缩。
  • 流匹配重建:使用流匹配方法重建Mel-VAE特征,实现更精细的音频重建。
  • 双比特率支持:能够在低比特率(0.35kbps)和高比特率(1.35kbps)下工作,提供灵活的应用选择。

MuCodec 的技术原理

  • MuEncoder:作为特征提取器,基于音乐的两个关键方面——人声和背景音乐,提取声学和语义特征。
  • 两阶段训练
    • 第一阶段:使用掩码语言模型(Mask Language Model)约束学习预测掩码区域,基于未掩码的语音信号,让MuEncoder能感知上下文信息,增强表征能力。
    • 第二阶段:引入重建和歌词识别约束,包括Mel频谱图和CQT(Constant-Q Transform)特征的重建,及确保提取的特征包含语义信息的歌词识别。
  • RVQ(Residual Vector Quantization):选择RVQ来离散化MuEncoder特征,基于残差过程压缩表示,并用级联码本提供更精细的近似。
  • 流匹配:使用基于流匹配的方法进行重建,这种方法相比GAN(Generative Adversarial Networks)方法训练更稳定,且需要更少的训练步骤就能在超低比特率重建任务中取得更好的结果。流匹配用离散化的MuEncoder表示作为条件,基于Diffusion Transformer进行细粒度重建。
  • Mel-VAE解码器和HiFi-GAN:重建的Mel频谱图通过预训练的Mel-VAE解码器恢复,最终用预训练的HiFi-GAN生成重建后的音乐。

如何运行 MuCodec

安装依赖

使用Python 3.8.12,通过以下命令安装必要的依赖:

pip install -r requirements.txt

下载模型

模型检查点已保存在Hugging Face上,地址为:https://huggingface.co/yaoxunxu/mucodec。请将模型下载并保存到以下目录:

  • audioldm_48k.pth 保存到 tools 文件夹。
  • muq.pt 保存到 muq_dev 文件夹。
  • mucodec.pt 保存到 ckpt 文件夹。

确保所有三个检查点都已完全下载,文件路径应为:

tools/audioldm_48k.pth
muq_dev/muq.pt
ckpt/mucodec.pt

运行推理

使用以下命令运行推理:

python3 generate.py

test_wav 文件夹中提供了一个示例歌曲 test.wav,默认输入路径为 test_wav/test.wav,重建后的音频输出路径为 reconstruct/test.wav

generate.py 文件中,实现了多个函数以方便音乐压缩和重建过程。可以使用 sound2code 函数从音频获取压缩后的令牌,并使用 code2sound 函数从令牌重建音频。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
10月前
|
机器学习/深度学习 人工智能 PyTorch
模型手动绑骨3天,AI花3分钟搞定!UniRig:清华开源通用骨骼自动绑定框架,助力3D动画制作
UniRig是清华大学与VAST联合研发的自动骨骼绑定框架,基于自回归模型与交叉注意力机制,支持多样化3D模型的骨骼生成与蒙皮权重预测,其创新的骨骼树标记化技术显著提升动画制作效率。
1680 27
模型手动绑骨3天,AI花3分钟搞定!UniRig:清华开源通用骨骼自动绑定框架,助力3D动画制作
|
10月前
|
人工智能 Linux iOS开发
音乐人必看!OpenUtau:开源AI歌声合成神器,快速打造专业级虚拟歌手,中文日文无缝切换
OpenUtau是一款开源的歌声合成工具,兼容UTAU音源库和重采样器,支持多语言界面及预渲染功能,让音乐创作更加高效便捷。
2893 15
音乐人必看!OpenUtau:开源AI歌声合成神器,快速打造专业级虚拟歌手,中文日文无缝切换
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
还在想开题报告?SurveyGO卷姬:清华开源学术论文AI写作神器,一键生成文献综述
SurveyGO是清华与面壁智能联合开源的AI论文写作工具,采用LLMxMapReduce-V2技术实现文献智能聚合,能根据用户输入主题快速生成结构严谨、引用可靠的学术综述。
1324 1
还在想开题报告?SurveyGO卷姬:清华开源学术论文AI写作神器,一键生成文献综述
|
10月前
|
人工智能 自然语言处理 监控
Cooragent:清华 LeapLab 开源 AI Agent 协作框架,一句话召唤AI军团!
Cooragent 是清华大学 LeapLab 团队推出的开源 AI Agent 协作框架,支持基于简单描述快速创建 Agent 并实现多 Agent 协作,具备 Prompt-Free 设计和本地部署能力。
1092 6
Cooragent:清华 LeapLab 开源 AI Agent 协作框架,一句话召唤AI军团!
|
10月前
|
人工智能 JSON 网络协议
音乐人狂喜!AbletonMCP:让AI帮你写歌,一句话生成专业编曲,Demo级作品秒出
AbletonMCP 是一个开源项目,通过模型上下文协议(MCP)将 Ableton Live 与 Claude AI 连接,实现 AI 辅助音乐制作,支持创建、修改 MIDI 和音频轨道等操作。
748 10
音乐人狂喜!AbletonMCP:让AI帮你写歌,一句话生成专业编曲,Demo级作品秒出
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
DeepMesh:3D建模革命!清华团队让AI自动优化拓扑,1秒生成工业级网格
DeepMesh 是由清华大学和南洋理工大学联合开发的 3D 网格生成框架,基于强化学习和自回归变换器,能够生成高质量的 3D 网格,适用于虚拟环境构建、动态内容生成、角色动画等多种场景。
975 4
DeepMesh:3D建模革命!清华团队让AI自动优化拓扑,1秒生成工业级网格
|
11月前
|
机器学习/深度学习 人工智能 并行计算
NotaGen:中央音乐学院联合清华推出AI音乐生成模型,古典乐谱一键生成,音乐性接近人类!
NotaGen 是由中央音乐学院、北京航空航天大学、清华大学等机构联合推出的音乐生成模型,基于模仿大型语言模型的训练范式,能够生成高质量的古典乐谱。该模型通过预训练、微调和强化学习相结合的方式,显著提升了符号音乐生成的艺术性和可控性。
1274 15
NotaGen:中央音乐学院联合清华推出AI音乐生成模型,古典乐谱一键生成,音乐性接近人类!
|
11月前
|
机器学习/深度学习 人工智能 数据库
Mureka V6:10语种AI音乐工厂!昆仑万维「声场黑科技」颠覆作曲
昆仑万维推出的Mureka V6 AI音乐创作基座模型,支持10种语言歌词生成和纯音乐创作,通过自研ICL技术实现声场优化,覆盖爵士/电子/流行等多元风格,为音乐爱好者和专业创作者提供高效工具。
593 11
|
12月前
|
机器学习/深度学习 人工智能 机器人
TIGER:清华突破性模型让AI「听觉」进化:参数量暴降94%,菜市场都能分离清晰人声
TIGER 是清华大学推出的轻量级语音分离模型,通过时频交叉建模和多尺度注意力机制,显著提升语音分离效果,同时降低参数量和计算量。
1171 6
TIGER:清华突破性模型让AI「听觉」进化:参数量暴降94%,菜市场都能分离清晰人声
|
12月前
|
XML 机器学习/深度学习 人工智能
CLaMP 3:音乐搜索AI革命!多模态AI能听懂乐谱/MIDI/音频,用27国语言搜索全球音乐
CLaMP 3是由清华大学团队开发的多模态、多语言音乐信息检索框架,支持27种语言,能够进行跨模态音乐检索、零样本分类和音乐推荐等任务。
915 1
CLaMP 3:音乐搜索AI革命!多模态AI能听懂乐谱/MIDI/音频,用27国语言搜索全球音乐

热门文章

最新文章