MuCodec:清华、腾讯AI、港中文共同推出的超低比特率音乐编解码器

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: MuCodec是由清华大学深圳国际研究生院、腾讯AI实验室和香港中文大学联合开发的超低比特率音乐编解码器。它能够在0.35kbps至1.35kbps的比特率下实现高效的音乐压缩和高保真重建,适用于在线音乐流媒体服务、音乐下载、语言模型建设等多个应用场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

技术合作:清华大学、腾讯AI实验室和香港中文大学联合开发。
功能特点:超低比特率下的音乐压缩与高保真重建。
应用场景:在线音乐流媒体服务、音乐下载、语言模型建设等。

正文(附运行示例)

MuCodec 是什么

公众号: 蚝油菜花 - MuCodec

MuCodec是由清华大学深圳国际研究生院、腾讯AI实验室和香港中文大学的研究人员共同推出的超低比特率音乐编解码器。它能够实现音乐的高效压缩与高保真重建。MuCodec基于MuEncoder提取音乐的声学和语义特征,使用RVQ技术进行特征离散化,并通过流匹配方法重建Mel-VAE特征。最终,通过预训练的Mel-VAE解码器和HiFi-GAN生成重建后的音乐。

MuCodec能够在0.35kbps至1.35kbps的比特率下达到业界领先的压缩效率和音质。

MuCodec 的主要功能

  • 音乐压缩:在极低的比特率下对音乐进行有效压缩,支持0.35kbps的超低比特率。
  • 音乐重建:在超低比特率下,能够重建出高保真的音乐。
  • 特征提取:使用MuEncoder提取音乐的声学和语义特征,捕捉音乐的本质特性。
  • 离散化处理:基于RVQ(Residual Vector Quantization)技术对提取的特征进行离散化处理,便于压缩。
  • 流匹配重建:使用流匹配方法重建Mel-VAE特征,实现更精细的音频重建。
  • 双比特率支持:能够在低比特率(0.35kbps)和高比特率(1.35kbps)下工作,提供灵活的应用选择。

MuCodec 的技术原理

  • MuEncoder:作为特征提取器,基于音乐的两个关键方面——人声和背景音乐,提取声学和语义特征。
  • 两阶段训练
    • 第一阶段:使用掩码语言模型(Mask Language Model)约束学习预测掩码区域,基于未掩码的语音信号,让MuEncoder能感知上下文信息,增强表征能力。
    • 第二阶段:引入重建和歌词识别约束,包括Mel频谱图和CQT(Constant-Q Transform)特征的重建,及确保提取的特征包含语义信息的歌词识别。
  • RVQ(Residual Vector Quantization):选择RVQ来离散化MuEncoder特征,基于残差过程压缩表示,并用级联码本提供更精细的近似。
  • 流匹配:使用基于流匹配的方法进行重建,这种方法相比GAN(Generative Adversarial Networks)方法训练更稳定,且需要更少的训练步骤就能在超低比特率重建任务中取得更好的结果。流匹配用离散化的MuEncoder表示作为条件,基于Diffusion Transformer进行细粒度重建。
  • Mel-VAE解码器和HiFi-GAN:重建的Mel频谱图通过预训练的Mel-VAE解码器恢复,最终用预训练的HiFi-GAN生成重建后的音乐。

如何运行 MuCodec

安装依赖

使用Python 3.8.12,通过以下命令安装必要的依赖:

pip install -r requirements.txt

下载模型

模型检查点已保存在Hugging Face上,地址为:https://huggingface.co/yaoxunxu/mucodec。请将模型下载并保存到以下目录:

  • audioldm_48k.pth 保存到 tools 文件夹。
  • muq.pt 保存到 muq_dev 文件夹。
  • mucodec.pt 保存到 ckpt 文件夹。

确保所有三个检查点都已完全下载,文件路径应为:

tools/audioldm_48k.pth
muq_dev/muq.pt
ckpt/mucodec.pt

运行推理

使用以下命令运行推理:

python3 generate.py

test_wav 文件夹中提供了一个示例歌曲 test.wav,默认输入路径为 test_wav/test.wav,重建后的音频输出路径为 reconstruct/test.wav

generate.py 文件中,实现了多个函数以方便音乐压缩和重建过程。可以使用 sound2code 函数从音频获取压缩后的令牌,并使用 code2sound 函数从令牌重建音频。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
4天前
|
人工智能 自然语言处理 决策智能
DRT-o1:腾讯推出专注于文学翻译的 AI 模型,擅长理解比喻和隐喻等修辞手法,在翻译时保留原文的情感色彩
DRT-o1 是腾讯研究院推出的文学翻译系列 AI 模型,通过长链思考推理技术显著提升翻译质量,特别擅长处理比喻和隐喻等修辞手法。
33 2
DRT-o1:腾讯推出专注于文学翻译的 AI 模型,擅长理解比喻和隐喻等修辞手法,在翻译时保留原文的情感色彩
|
30天前
|
人工智能
AnchorCrafter:中科院联合腾讯推出的AI虚拟主播带货视频制作技术
AnchorCrafter是由中科院和腾讯联合推出的一项AI虚拟主播带货视频制作技术。该技术基于扩散模型,能够自动生成高保真度的主播风格产品推广视频,通过整合人-物交互(HOI)技术,实现对物体外观和运动控制的高度还原。AnchorCrafter在物体外观保持、交互感知以及视频质量方面优于现有方法,为在线广告和消费者参与提供了新的可能性。
155 30
AnchorCrafter:中科院联合腾讯推出的AI虚拟主播带货视频制作技术
|
2月前
|
人工智能 编解码 BI
LEOPARD:腾讯AI Lab西雅图实验室推出的视觉语言模型
LEOPARD是由腾讯AI Lab西雅图实验室推出的视觉语言模型,专为处理含有大量文本的多图像任务设计。该模型通过自适应高分辨率多图像编码模块和大规模多模态指令调优数据集,在多个基准测试中表现卓越,适用于自动化文档理解、教育和学术研究、商业智能和数据分析等多个应用场景。
41 2
LEOPARD:腾讯AI Lab西雅图实验室推出的视觉语言模型
|
2月前
|
人工智能 算法 搜索推荐
清华校友用AI破解162个高数定理,智能体LeanAgent攻克困扰陶哲轩难题!
清华校友开发的LeanAgent智能体在数学推理领域取得重大突破,成功证明了162个未被人类证明的高等数学定理,涵盖抽象代数、代数拓扑等领域。LeanAgent采用“持续学习”框架,通过课程学习、动态数据库和渐进式训练,显著提升了数学定理证明的能力,为数学研究和教育提供了新的思路和方法。
69 3
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
AI在音乐创作中的应用?
【6月更文挑战第27天】AI在音乐创作中的应用?
458 62
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
AI在创造还是毁掉音乐?——探索人工智能对音乐创作的影响
在当今数字化时代,人工智能(AI)技术的快速发展不仅改变了我们的生活方式和工作方式,也在音乐创作领域引发了广泛的讨论和热议。最近,随着各类音乐生成AI模型的涌现,人们开始探讨AI在音乐创作中的作用,以及它对传统音乐产业的潜在影响。
226 5
|
5月前
|
机器学习/深度学习 人工智能 人机交互
ICML 2024:AI也会刷抖音!清华领衔发布短视频全模态理解新模型
【8月更文挑战第20天】SALMONN是由清华大学在ICML 2024发表的一种开创性的多模态模型,专为短视频全模态理解设计。它集成了预训练文本大模型与语音、音频编码器,能直接处理多样音频输入,在自动语音识别、翻译、情绪识别等任务中表现出色。SALMONN展现了令人兴奋的新能力,如翻译未训练语言和基于语音的问答。通过少样本激活微调,可进一步发掘其跨模态潜能。尽管如此,模型的计算成本和泛化能力仍是待克服的挑战。SALMONN标志着AI在具备通用听觉理解方面迈出重要一步。[论文链接: https://arxiv.org/abs/2310.13289]
88 3
|
6月前
|
机器学习/深度学习 人工智能 搜索推荐
AI在创造还是毁掉音乐?
AI在创造还是毁掉音乐?
74 0
|
7月前
|
人工智能 算法 搜索推荐
AI能否理解音乐情感?
【6月更文挑战第1天】AI能否理解音乐情感?
89 4
|
7月前
|
人工智能 搜索推荐
AI在音乐创作中的角色
【6月更文挑战第1天】AI在音乐创作中的角色
121 2

热门文章

最新文章