YuE:开源AI音乐生成模型,能够将歌词转化为完整的歌曲,支持多种语言和多种音乐风格

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: YuE 是香港科技大学和 M-A-P 联合开发的开源 AI 音乐生成模型,能够将歌词转化为完整的歌曲,支持多种音乐风格和多语言。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. YuE 介绍:YuE 是香港科技大学和 M-A-P 团队联合开发的开源 AI 音乐生成模型,能够将歌词转化为完整的歌曲。
  2. 主要功能:支持多种音乐风格、多语言、高质量生成、长时间音乐创作、情感和风格匹配。
  3. 技术原理:通过语义增强音频分词器、双分词技术、歌词链式思维生成和三阶段训练方案,解决长上下文和复杂音乐信号等挑战。

正文(附运行示例)

YuE 是什么

YuE

YuE 是香港科技大学和 Multimodal Art Projection (M-A-P) 团队联合开发的开源 AI 音乐生成模型。它能够将歌词转化为完整的歌曲,支持流行、金属、爵士、嘻哈等多种音乐风格,并且支持英语、中文、日语和韩语等多种语言。

YuE 通过语义增强音频分词器、双分词技术、歌词链式思维生成和三阶段训练方案,解决了音乐生成中的长上下文、复杂音乐信号、语言内容失真等挑战,生成的歌曲具有连贯的音乐结构和吸引人的声乐旋律。

模型完全开源,用户可以自由使用和修改代码。提供了灵活的生成选项,用户可以通过简单的命令行参数调整生成歌曲的风格、声乐类型等细节。

YuE 的主要功能

  • 歌词转歌曲:能将输入的歌词转化为完整的歌曲,包含主唱和伴奏。
  • 多种音乐风格支持:支持流行、金属、爵士、嘻哈等多种音乐风格。
  • 高质量生成:通过多种技术优化,确保生成的歌曲连贯且高质量。
  • 多语言支持:支持英语、中文、日语和韩语等多种语言。
  • 长时间音乐创作:可以生成长达 5 分钟的完整歌曲。
  • 开源与可定制:代码和模型完全开源,用户可以自由使用和修改。
  • 情感和风格匹配:能根据歌词的情感基调生成匹配的音乐风格。
  • 跨模态应用:可以与其他多模态模型结合,用于多媒体艺术创作。

YuE 的技术原理

  • 语义增强音频分词器:YuE 使用语义增强音频分词器来降低训练成本并加速收敛,更好地理解歌词的语义信息,与音乐信号相结合,生成更符合歌词内容的音乐。
  • 双分词技术:YuE 提出了一种双分词技术,在不修改 LLaMa 解码器-only 架构的情况下实现音轨同步的声乐-乐器建模,确保两者在节奏和旋律上的协调性。
  • 歌词链式思维生成:YuE 引入了歌词链式思维生成技术,支持模型在遵循歌词条件的情况下逐步生成整首歌曲,确保生成的歌曲在整体结构上保持连贯性。
  • 三阶段训练方案
    • 第一阶段:基础模型训练,学习音乐生成的基本模式。
    • 第二阶段:风格和情感对齐,通过大量样本来调整模型,能生成特定风格和情感的音乐。
    • 第三阶段:偏好纠正,通过强化学习等技术进一步优化生成结果,确保生成的音乐更符合人类的审美标准。

如何运行 YuE

1. 安装环境和依赖项

确保正确安装 Flash Attention 2 以减少 VRAM 使用。

conda create -n yue python=3.8
conda activate yue
conda install pytorch torchvision torchaudio cudatoolkit=11.8 -c pytorch -c nvidia
pip install -r requirements.txt
pip install flash-attn --no-build-isolation
AI 代码解读

2. 下载推理代码和分词器

git lfs install
git clone https://github.com/multimodal-art-projection/YuE.git
cd YuE/inference/
git clone https://huggingface.co/m-a-p/xcodec_mini_infer
AI 代码解读

3. 运行推理

生成音乐的命令如下:

python infer.py \
    --stage1_model m-a-p/YuE-s1-7B-anneal-en-cot \
    --stage2_model m-a-p/YuE-s2-1B-general \
    --genre_txt genre.txt \
    --lyrics_txt lyrics.txt \
    --run_n_segments 2 \
    --stage2_batch_size 4 \
    --output_dir ./output \
    --cuda_idx 0 \
    --max_new_tokens 3000
AI 代码解读

如果要使用音乐上下文学习(ICL),启用 --use_audio_prompt,指定音频片段的起始和结束时间:

python infer.py \
    --stage1_model m-a-p/YuE-s1-7B-anneal-en-icl \
    --stage2_model m-a-p/YuE-s2-1B-general \
    --genre_txt genre.txt \
    --lyrics_txt lyrics.txt \
    --run_n_segments 2 \
    --stage2_batch_size 4 \
    --output_dir ./output \
    --cuda_idx 0 \
    --max_new_tokens 3000 \
    --audio_prompt_path {
   YOUR_AUDIO_FILE} \
    --prompt_start_time 0 \
    --prompt_end_time 30
AI 代码解读

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


目录
打赏
0
22
24
2
326
分享
相关文章
NotaGen:中央音乐学院联合清华推出AI音乐生成模型,古典乐谱一键生成,音乐性接近人类!
NotaGen 是由中央音乐学院、北京航空航天大学、清华大学等机构联合推出的音乐生成模型,基于模仿大型语言模型的训练范式,能够生成高质量的古典乐谱。该模型通过预训练、微调和强化学习相结合的方式,显著提升了符号音乐生成的艺术性和可控性。
63 15
NotaGen:中央音乐学院联合清华推出AI音乐生成模型,古典乐谱一键生成,音乐性接近人类!
Archon – 开源 AI 智能体框架,自主生成代码构建 AI 智能体
Archon 是一个开源的 AI 智能体框架,能够自主生成代码并优化智能体性能,支持多智能体协作、领域知识集成和文档爬取等功能,适用于企业、教育、智能家居等多个领域。
35 8
Archon – 开源 AI 智能体框架,自主生成代码构建 AI 智能体
OmniAlign-V:20万高质量多模态数据集开源,让AI模型真正对齐人类偏好
OmniAlign-V 是由上海交通大学、上海AI Lab等机构联合推出的高质量多模态数据集,旨在提升多模态大语言模型与人类偏好的对齐能力。该数据集包含约20万个多模态训练样本,涵盖自然图像和信息图表,结合开放式问答对,支持知识问答、推理任务和创造性任务。
43 10
OmniAlign-V:20万高质量多模态数据集开源,让AI模型真正对齐人类偏好
SpatialVLA:上海AI Lab联合上科大推出的空间具身通用操作模型
SpatialVLA 是由上海 AI Lab、中国电信人工智能研究院和上海科技大学等机构共同推出的新型空间具身通用操作模型,基于百万真实数据预训练,赋予机器人强大的3D空间理解能力,支持跨平台泛化控制。
29 7
SpatialVLA:上海AI Lab联合上科大推出的空间具身通用操作模型
AI 世界生存手册(一):从LR到DeepSeek,模型慢慢变大了,也变强了
大家都可以通过写 prompt 来和大模型对话,那大模型之前的算法是怎样的,算法世界经过了哪些比较关键的发展,最后为什么是大模型这条路线走向了 AGI,作者用两篇文章共5.7万字详细探索一下。
AI 世界生存手册(一):从LR到DeepSeek,模型慢慢变大了,也变强了
【01】AI制作音乐之三款AI音乐软件推荐,包含AI编曲-AI伴奏-AI混音合成remix等-其次关于音乐版权的阐述-跟随卓伊凡学习如何AI制作音乐-优雅草卓伊凡
【01】AI制作音乐之三款AI音乐软件推荐,包含AI编曲-AI伴奏-AI混音合成remix等-其次关于音乐版权的阐述-跟随卓伊凡学习如何AI制作音乐-优雅草卓伊凡
73 13
Resume Matcher:增加面试机会!开源AI简历优化工具,一键解析简历和职位描述并优化
Resume Matcher 是一款开源AI简历优化工具,通过解析简历和职位描述,提取关键词并计算文本相似性,帮助求职者优化简历内容,提升通过自动化筛选系统(ATS)的概率,增加面试机会。
37 17
Resume Matcher:增加面试机会!开源AI简历优化工具,一键解析简历和职位描述并优化
还在蹲Manus的邀请码?别等了!开源版Manus为你快速创建AI工位,给AI一台电脑,然后你就玩去吧!
OpenManus 是 MetaGPT 的开源 AI 平台,支持多语言模型和工具链,执行代码、处理文件等任务,具备实时反馈。OWL 基于 CAMEL-AI,支持角色分配、任务分解和记忆功能,实现高效任务自动化。
135 18
还在蹲Manus的邀请码?别等了!开源版Manus为你快速创建AI工位,给AI一台电脑,然后你就玩去吧!
无需邀请码!MetaGPT 开源AI助手 OpenManus,实时反馈+模块化设计,开发者福音
OpenManus 是 MetaGPT 团队推出的开源 AI Agent 复刻版,支持多种语言模型和工具链,能够执行代码、处理文件、搜索网络信息等复杂任务,具备实时反馈机制和灵活的配置选项。
101 17
无需邀请码!MetaGPT 开源AI助手 OpenManus,实时反馈+模块化设计,开发者福音
【活动报名】​AI应用启航workshop:瓴羊+通义助力企业迈入AI驱动的数智营销时代
【活动报名】​AI应用启航workshop:瓴羊+通义助力企业迈入AI驱动的数智营销时代

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等