YuE:开源AI音乐生成模型,能够将歌词转化为完整的歌曲,支持多种语言和多种音乐风格

简介: YuE 是香港科技大学和 M-A-P 联合开发的开源 AI 音乐生成模型,能够将歌词转化为完整的歌曲,支持多种音乐风格和多语言。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. YuE 介绍:YuE 是香港科技大学和 M-A-P 团队联合开发的开源 AI 音乐生成模型,能够将歌词转化为完整的歌曲。
  2. 主要功能:支持多种音乐风格、多语言、高质量生成、长时间音乐创作、情感和风格匹配。
  3. 技术原理:通过语义增强音频分词器、双分词技术、歌词链式思维生成和三阶段训练方案,解决长上下文和复杂音乐信号等挑战。

正文(附运行示例)

YuE 是什么

YuE

YuE 是香港科技大学和 Multimodal Art Projection (M-A-P) 团队联合开发的开源 AI 音乐生成模型。它能够将歌词转化为完整的歌曲,支持流行、金属、爵士、嘻哈等多种音乐风格,并且支持英语、中文、日语和韩语等多种语言。

YuE 通过语义增强音频分词器、双分词技术、歌词链式思维生成和三阶段训练方案,解决了音乐生成中的长上下文、复杂音乐信号、语言内容失真等挑战,生成的歌曲具有连贯的音乐结构和吸引人的声乐旋律。

模型完全开源,用户可以自由使用和修改代码。提供了灵活的生成选项,用户可以通过简单的命令行参数调整生成歌曲的风格、声乐类型等细节。

YuE 的主要功能

  • 歌词转歌曲:能将输入的歌词转化为完整的歌曲,包含主唱和伴奏。
  • 多种音乐风格支持:支持流行、金属、爵士、嘻哈等多种音乐风格。
  • 高质量生成:通过多种技术优化,确保生成的歌曲连贯且高质量。
  • 多语言支持:支持英语、中文、日语和韩语等多种语言。
  • 长时间音乐创作:可以生成长达 5 分钟的完整歌曲。
  • 开源与可定制:代码和模型完全开源,用户可以自由使用和修改。
  • 情感和风格匹配:能根据歌词的情感基调生成匹配的音乐风格。
  • 跨模态应用:可以与其他多模态模型结合,用于多媒体艺术创作。

YuE 的技术原理

  • 语义增强音频分词器:YuE 使用语义增强音频分词器来降低训练成本并加速收敛,更好地理解歌词的语义信息,与音乐信号相结合,生成更符合歌词内容的音乐。
  • 双分词技术:YuE 提出了一种双分词技术,在不修改 LLaMa 解码器-only 架构的情况下实现音轨同步的声乐-乐器建模,确保两者在节奏和旋律上的协调性。
  • 歌词链式思维生成:YuE 引入了歌词链式思维生成技术,支持模型在遵循歌词条件的情况下逐步生成整首歌曲,确保生成的歌曲在整体结构上保持连贯性。
  • 三阶段训练方案
    • 第一阶段:基础模型训练,学习音乐生成的基本模式。
    • 第二阶段:风格和情感对齐,通过大量样本来调整模型,能生成特定风格和情感的音乐。
    • 第三阶段:偏好纠正,通过强化学习等技术进一步优化生成结果,确保生成的音乐更符合人类的审美标准。

如何运行 YuE

1. 安装环境和依赖项

确保正确安装 Flash Attention 2 以减少 VRAM 使用。

conda create -n yue python=3.8
conda activate yue
conda install pytorch torchvision torchaudio cudatoolkit=11.8 -c pytorch -c nvidia
pip install -r requirements.txt
pip install flash-attn --no-build-isolation

2. 下载推理代码和分词器

git lfs install
git clone https://github.com/multimodal-art-projection/YuE.git
cd YuE/inference/
git clone https://huggingface.co/m-a-p/xcodec_mini_infer

3. 运行推理

生成音乐的命令如下:

python infer.py \
    --stage1_model m-a-p/YuE-s1-7B-anneal-en-cot \
    --stage2_model m-a-p/YuE-s2-1B-general \
    --genre_txt genre.txt \
    --lyrics_txt lyrics.txt \
    --run_n_segments 2 \
    --stage2_batch_size 4 \
    --output_dir ./output \
    --cuda_idx 0 \
    --max_new_tokens 3000

如果要使用音乐上下文学习(ICL),启用 --use_audio_prompt,指定音频片段的起始和结束时间:

python infer.py \
    --stage1_model m-a-p/YuE-s1-7B-anneal-en-icl \
    --stage2_model m-a-p/YuE-s2-1B-general \
    --genre_txt genre.txt \
    --lyrics_txt lyrics.txt \
    --run_n_segments 2 \
    --stage2_batch_size 4 \
    --output_dir ./output \
    --cuda_idx 0 \
    --max_new_tokens 3000 \
    --audio_prompt_path {
   YOUR_AUDIO_FILE} \
    --prompt_start_time 0 \
    --prompt_end_time 30

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


相关文章
|
5月前
|
云安全 人工智能 自然语言处理
阿里云x硅基流动:AI安全护栏助力构建可信模型生态
阿里云AI安全护栏:大模型的“智能过滤系统”。
2203 120
|
5月前
|
人工智能 中间件 数据库
沐曦 GPU 融入龙蜥,共筑开源 AI 基础设施新底座
沐曦自加入社区以来,一直与龙蜥社区在推动 AIDC OS 的开源社区建设等方面保持合作。
|
5月前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
6478 92
|
5月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
692 120
|
5月前
|
人工智能 自然语言处理 Shell
我们开源了一款 AI 驱动的用户社区
KoalaQA 是一款开源的 AI 驱动用户社区,支持智能问答、语义搜索、自动运营与辅助创作,助力企业降低客服成本,提升响应效率与用户体验。一键部署,灵活接入大模型,快速构建专属售后服务社区。
536 5
我们开源了一款 AI 驱动的用户社区
|
5月前
|
人工智能 搜索推荐 UED
一个牛逼的国产AI自动化工具,开源了 !
AiPy是国产开源AI工具,结合大语言模型与Python,支持本地部署。用户只需用自然语言描述需求,即可自动生成并执行代码,轻松实现数据分析、清洗、可视化等任务,零基础也能玩转编程,被誉为程序员的智能助手。
|
5月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
1335 55
|
5月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
650 30

热门文章

最新文章