YuE:开源AI音乐生成模型,能够将歌词转化为完整的歌曲,支持多种语言和多种音乐风格

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: YuE 是香港科技大学和 M-A-P 联合开发的开源 AI 音乐生成模型,能够将歌词转化为完整的歌曲,支持多种音乐风格和多语言。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. YuE 介绍:YuE 是香港科技大学和 M-A-P 团队联合开发的开源 AI 音乐生成模型,能够将歌词转化为完整的歌曲。
  2. 主要功能:支持多种音乐风格、多语言、高质量生成、长时间音乐创作、情感和风格匹配。
  3. 技术原理:通过语义增强音频分词器、双分词技术、歌词链式思维生成和三阶段训练方案,解决长上下文和复杂音乐信号等挑战。

正文(附运行示例)

YuE 是什么

YuE

YuE 是香港科技大学和 Multimodal Art Projection (M-A-P) 团队联合开发的开源 AI 音乐生成模型。它能够将歌词转化为完整的歌曲,支持流行、金属、爵士、嘻哈等多种音乐风格,并且支持英语、中文、日语和韩语等多种语言。

YuE 通过语义增强音频分词器、双分词技术、歌词链式思维生成和三阶段训练方案,解决了音乐生成中的长上下文、复杂音乐信号、语言内容失真等挑战,生成的歌曲具有连贯的音乐结构和吸引人的声乐旋律。

模型完全开源,用户可以自由使用和修改代码。提供了灵活的生成选项,用户可以通过简单的命令行参数调整生成歌曲的风格、声乐类型等细节。

YuE 的主要功能

  • 歌词转歌曲:能将输入的歌词转化为完整的歌曲,包含主唱和伴奏。
  • 多种音乐风格支持:支持流行、金属、爵士、嘻哈等多种音乐风格。
  • 高质量生成:通过多种技术优化,确保生成的歌曲连贯且高质量。
  • 多语言支持:支持英语、中文、日语和韩语等多种语言。
  • 长时间音乐创作:可以生成长达 5 分钟的完整歌曲。
  • 开源与可定制:代码和模型完全开源,用户可以自由使用和修改。
  • 情感和风格匹配:能根据歌词的情感基调生成匹配的音乐风格。
  • 跨模态应用:可以与其他多模态模型结合,用于多媒体艺术创作。

YuE 的技术原理

  • 语义增强音频分词器:YuE 使用语义增强音频分词器来降低训练成本并加速收敛,更好地理解歌词的语义信息,与音乐信号相结合,生成更符合歌词内容的音乐。
  • 双分词技术:YuE 提出了一种双分词技术,在不修改 LLaMa 解码器-only 架构的情况下实现音轨同步的声乐-乐器建模,确保两者在节奏和旋律上的协调性。
  • 歌词链式思维生成:YuE 引入了歌词链式思维生成技术,支持模型在遵循歌词条件的情况下逐步生成整首歌曲,确保生成的歌曲在整体结构上保持连贯性。
  • 三阶段训练方案
    • 第一阶段:基础模型训练,学习音乐生成的基本模式。
    • 第二阶段:风格和情感对齐,通过大量样本来调整模型,能生成特定风格和情感的音乐。
    • 第三阶段:偏好纠正,通过强化学习等技术进一步优化生成结果,确保生成的音乐更符合人类的审美标准。

如何运行 YuE

1. 安装环境和依赖项

确保正确安装 Flash Attention 2 以减少 VRAM 使用。

conda create -n yue python=3.8
conda activate yue
conda install pytorch torchvision torchaudio cudatoolkit=11.8 -c pytorch -c nvidia
pip install -r requirements.txt
pip install flash-attn --no-build-isolation

2. 下载推理代码和分词器

git lfs install
git clone https://github.com/multimodal-art-projection/YuE.git
cd YuE/inference/
git clone https://huggingface.co/m-a-p/xcodec_mini_infer

3. 运行推理

生成音乐的命令如下:

python infer.py \
    --stage1_model m-a-p/YuE-s1-7B-anneal-en-cot \
    --stage2_model m-a-p/YuE-s2-1B-general \
    --genre_txt genre.txt \
    --lyrics_txt lyrics.txt \
    --run_n_segments 2 \
    --stage2_batch_size 4 \
    --output_dir ./output \
    --cuda_idx 0 \
    --max_new_tokens 3000

如果要使用音乐上下文学习(ICL),启用 --use_audio_prompt,指定音频片段的起始和结束时间:

python infer.py \
    --stage1_model m-a-p/YuE-s1-7B-anneal-en-icl \
    --stage2_model m-a-p/YuE-s2-1B-general \
    --genre_txt genre.txt \
    --lyrics_txt lyrics.txt \
    --run_n_segments 2 \
    --stage2_batch_size 4 \
    --output_dir ./output \
    --cuda_idx 0 \
    --max_new_tokens 3000 \
    --audio_prompt_path {
   YOUR_AUDIO_FILE} \
    --prompt_start_time 0 \
    --prompt_end_time 30

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


相关文章
|
5天前
|
人工智能 并行计算 语音技术
Open-LLM-VTuber:宅男福音!开源AI老婆离线版上线,实时语音+Live2D互动还会脸红心跳
Open-LLM-VTuber 是一个开源的跨平台语音交互 AI 伴侣项目,支持实时语音对话、视觉感知和生动的 Live2D 动态形象,完全离线运行,保护用户隐私。
123 10
Open-LLM-VTuber:宅男福音!开源AI老婆离线版上线,实时语音+Live2D互动还会脸红心跳
|
1天前
|
人工智能 开发工具 C++
利用通义灵码AI在VS Code中快速开发扫雷游戏:Qwen2.5-Max模型的应用实例
本文介绍了如何利用阿里云通义灵码AI程序员的Qwen2.5-Max模型,在VS Code中一键生成扫雷小游戏。通过安装通义灵码插件并配置模型,输入指令即可自动生成包含游戏逻辑与UI设计的Python代码。生成的游戏支持难度选择,运行稳定无Bug。实践表明,AI工具显著提升开发效率,但人机协作仍是未来趋势。建议开发者积极拥抱新技术,同时不断提升自身技能以适应行业发展需求。
33 3
|
2天前
|
机器学习/深度学习 人工智能 数据处理
OpenBioMed:开源生物医学AI革命!20+工具链破解药物研发「死亡谷」
OpenBioMed 是清华大学智能产业研究院(AIR)和水木分子共同推出的开源平台,专注于 AI 驱动的生物医学研究,提供多模态数据处理、丰富的预训练模型和多样化的计算工具,助力药物研发、精准医疗和多模态理解。
28 1
OpenBioMed:开源生物医学AI革命!20+工具链破解药物研发「死亡谷」
|
6天前
|
存储 人工智能 前端开发
Botgroup.chat:超有趣的开源 AI 聊天室!多个 AI 在线互怼,一键搭建你的专属 AI 社群
Botgroup.chat 是一款基于 React 和 Cloudflare Pages 的开源 AI 聊天应用,支持多个 AI 角色同时参与对话,提供类似群聊的交互体验。
352 28
|
2天前
|
存储 人工智能 物联网
ACK Gateway with AI Extension:大模型推理的模型灰度实践
本文介绍了如何使用 ACK Gateway with AI Extension 组件在云原生环境中实现大语言模型(LLM)推理服务的灰度发布和流量分发。该组件专为 LLM 推理场景设计,支持四层/七层流量路由,并提供基于模型服务器负载感知的智能负载均衡能力。通过自定义资源(CRD),如 InferencePool 和 InferenceModel,可以灵活配置推理服务的流量策略,包括模型灰度发布和流量镜像。
|
4天前
|
Web App开发 人工智能 机器人
牛逼,这款开源聊天应用竟能一键召唤多个AI助手,跨平台通话神器!
`JiwuChat`是一款基于Tauri2和Nuxt3构建的轻量化多平台即时通讯工具,仅约8MB体积却集成了**AI群聊机器人**、**WebRTC音视频通话**、**屏幕共享**等前沿功能。一套代码适配Windows/macOS/Linux/Android/iOS/Web六大平台,堪称开发者学习跨端开发的绝佳样板!
|
2天前
|
机器学习/深度学习 人工智能 运维
AI和开源时代的计算机课程建设和改革建议
人工智能与开源技术正深刻影响高校计算机教育。通过构建“AI+开源”驱动的课程体系,深化专业课AI融合,强化跨学科项目学习,可培养复合型人才。同时,打造开源实验平台、推广智能教学模式、共建产教融合生态,并加强AI伦理教育,将推动教育数字化转型。Websoft9等工具为连接理论与实践提供支持,助力高校培养适应未来的技术人才。
|
1天前
|
机器学习/深度学习 人工智能 数据可视化
1.4K star!几分钟搞定AI视频创作,这个开源神器让故事可视化如此简单!
story-flicks 是一个基于AI技术的自动化视频生成工具,能够将文字剧本快速转化为高质量短视频。开发者@alecm20通过深度学习算法,实现了从文本解析到视频合成的全流程自动化处理,支持多平台适配输出,是内容创作者和自媒体运营者的效率神器。
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
AI 世界生存手册(二):从LR到DeepSeek,模型慢慢变大了,也变强了
大家都可以通过写 prompt 来和大模型对话,那大模型之前的算法是怎样的,算法世界经过了哪些比较关键的发展,最后为什么是大模型这条路线走向了 AGI,作者用两篇文章共5.7万字详细探索一下。 第一篇文章指路👉《AI 世界生存手册(一):从LR到DeepSeek,模型慢慢变大了,也变强了》
AI 世界生存手册(二):从LR到DeepSeek,模型慢慢变大了,也变强了
|
18天前
|
人工智能 弹性计算 Ubuntu
从零开始即刻拥有 DeepSeek-R1 满血版并使用 Dify 部署 AI 应用
本文介绍了如何使用阿里云提供的DeepSeek-R1大模型解决方案,通过Chatbox和Dify平台调用百炼API,实现稳定且高效的模型应用。首先,文章详细描述了如何通过Chatbox配置API并开始对话,适合普通用户快速上手。接着,深入探讨了使用Dify部署AI应用的过程,包括选购云服务器、安装Dify、配置对接DeepSeek-R1模型及创建工作流,展示了更复杂场景下的应用潜力。最后,对比了Chatbox与Dify的输出效果,证明Dify能提供更详尽、精准的回复。总结指出,阿里云的解决方案不仅操作简便,还为专业用户提供了强大的功能支持,极大提升了用户体验和应用效率。
956 19
从零开始即刻拥有 DeepSeek-R1 满血版并使用 Dify 部署 AI 应用

热门文章

最新文章