AI谱曲 | 基于RWKV的最佳开源AI作曲模型魔搭推理实践

简介: AI谱曲 | 基于RWKV的最佳开源AI作曲模型魔搭推理实践

RWKV-4-Music开源直链

模型下载

BlinkDL/rwkv-4-music · Hugging Face

Python代码:

https://github.com/BlinkDL/ChatRWKV/tree/main/music

训练MIDI数据集:

https://huggingface.co/datasets/breadlicker45/bread-midi-dataset

模型链接:

https://modelscope.cn/models/AI-ModelScope/rwkv-4-world/summary

https://modelscope.cn/models/AI-ModelScope/rwkv-4-music/summary

创空间体验链接:

https://modelscope.cn/studios/AI-ModelScope/RWKV-4-Music/summary

https://modelscope.cn/studios/BlinkDL/RWKV-CHN-PRO/summary

RWKV-4-Music模型推理

模型的推理过程分为两步:

1、使用RWKV-4-Music音乐生成模型, 以类似于文本生成的方式生成一长串编码着乐器, 音符, 时长等信息的字符串, 并将字符串保存入txt文件;

2、将txt文件转换wav文件:

  1. 首先将txt文件转成midi格式文件. midi格式是一种数字音乐标准, 是一种通用的音乐文件格式. midi格式文件并不包含声音文件本身, 而是包含一组描述如何播放声音的指令.

  1. 使用midi2audio的python包将midi格式转成wav格式.

当然推理的步骤可能略为繁琐, 我们也提供了创空间平台, 便于大家进行模型体验:

https://modelscope.cn/studios/AI-ModelScope/RWKV-4-Music/summary

以下推理所需的资料可以直接从创空间的git中方便的获取. 或者你也可以从下面提供的网址中进行下载.

请注意: 以下的推理运行需要linux系统环境下进行.

# 安装git, git-lfs. 这里提供两种方式
sudo apt install git git-lfs  # 使用apt安装
# conda install git git-lfs -c conda-forge  # 使用conda安装
git clone http://www.modelscope.cn/studios/AI-ModelScope/RWKV-4-Music.git

1. 生成txt文件

首先, 我们需要准备运行的环境

pip install rwkv tqdm mido midi2audio requests certifi -U
# 安装fluidsynth软件包, 在midi->wav的时候需要. 我们给出了两种安装方式. 
sudo apt install fluidsynth  # 使用apt安装
# conda install fluidsynth -c conda-forge  # 使用conda安装

以下的推理代码参考了作者的github仓库:

https://github.com/BlinkDL/ChatRWKV/blob/main/music/run.py

相关包的导入

import os
import torch
from rwkv.model import RWKV
from rwkv.utils import PIPELINE
from tqdm import tqdm
from modelscope import snapshot_download

使用modelscope的snapshot_download函数下载模型, 并载入.

下载的文件夹中包含120M和560M的模型. 我们使用560M的模型.

model_dir = snapshot_download('AI-ModelScope/rwkv-4-music', revision='v1.0.1')
ckpt_120M_fname = "RWKV-4-MIDI-120M-v1-20230714-ctx4096.pth"
ckpt_560M_fname = "RWKV-4-MIDI-560M-v1-20230717-ctx4096.pth"
ckpt_fpath = os.path.join(model_dir, ckpt_560M_fname)
# tokenizer-midi.json文件下载路径: https://github.com/BlinkDL/ChatRWKV/blob/main/music/tokenizer-midi.json
tokenizer_fpath = "tokenizer-midi.json"
model = RWKV(model=ckpt_fpath, strategy='cuda fp32')
model.eval()
pipeline = PIPELINE(model, tokenizer_fpath)

定义一些参数

# e.g. 
# input_text = 'v:5b:3 v:5b:2 t125 t125 t125 t106 pi:43:5 t24 pi:4a:7 t15 pi:4f:7 t17 pi:56:7 t18 pi:54:7 t125 t49 pi:51:7 t117 pi:4d:7 t125 t125 t111 pi:37:7 t14 pi:3e:6 t15 pi:43:6 t12 pi:4a:7 t17 pi:48:7 t125 t60 pi:45:7 t121 pi:41:7 t125 t117 s:46:5 s:52:5 f:46:5 f:52:5 t121 s:45:5 s:46:0 s:51:5 s:52:0 f:45:5 f:46:0 f:51:5 f:52:0 t121 s:41:5 s:45:0 s:4d:5 s:51:0 f:41:5 f:45:0 f:4d:5 f:51:0 t102 pi:37:0 pi:3e:0 pi:41:0 pi:43:0 pi:45:0 pi:48:0 pi:4a:0 pi:4d:0 pi:4f:0 pi:51:0 pi:54:0 pi:56:0 t19 s:3e:5 s:41:0 s:4a:5 s:4d:0 f:3e:5 f:41:0 f:4a:5 f:4d:0 t121 v:3a:5 t121 v:39:7 t15 v:3a:0 t106 v:35:8 t10 v:39:0 t111 v:30:8 v:35:0 t125 t117 v:32:8 t10 v:30:0 t125 t125 t103 v:5b:0 v:5b:0 t9 pi:4a:7'
input_text = ''
only_piano = False
max_length = 512
max_length = min(max_length, 4096)
temperature = 1
top_k = 8
top_p = 0.8
#
txt_fpath = 'midi.txt'
midi_fpath = 'midi_bin.midi'
wav_fpath = 'wav_bin.wav'

进行模型的推理和文本生成

input_text = input_text.strip()
input_text = f'<pad> {input_text}'
output_text = '<start>'
#
occurrence = {}
state = None
for i in tqdm(range(max_length)):
    if i == 0:
        out, state = model.forward(pipeline.encode(input_text), state)
    else:
        out, state = model.forward([token], state)
    #
    for n in occurrence:
        out[n] -= (0 + occurrence[n] * 0.5)
    out[0] += (i - 2000) / 500  # try not to be too short or too long
    out[127] -= 1  # avoid "t125"
    #
    if only_piano:
        out[128:12416] -= 1e10
        out[13952:20096] -= 1e10
    # find the best sampling for your taste
    token = pipeline.sample_logits(
        out, temperature=temperature, top_k=top_k, top_p=top_p)
    if token == 0:
        break
    for n in occurrence:
        occurrence[n] *= 0.997  # decay repetition penalty
    if token >= 128 or token == 127:
        occurrence[token] = 1 + \
            (occurrence[token] if token in occurrence else 0)
    else:
        occurrence[token] = 0.3 + \
            (occurrence[token] if token in occurrence else 0)
    output_text += f" {pipeline.decode([token])}"
output_text += ' <end>'

将生成的文本写入txt文件

with open(txt_fpath, "w") as f:
    f.write(output_text)

2. txt文件 -> wav文件

当然以下的步骤可能比较繁琐, 我们也可以使用创空间提供的txt -> wav的功能方便的进行格式转换.

https://modelscope.cn/studios/AI-ModelScope/RWKV-4-Music/summary

txt文件 -> midi文件

# midi_util文件下载: https://github.com/briansemrau/MIDI-LLM-tokenizer/blob/main/midi_util.py
# vocab_config文件下载: https://github.com/briansemrau/MIDI-LLM-tokenizer/blob/main/vocab_config.json
import midi_util
from midi_util import VocabConfig
def txt_to_midi(text_fpath: str, output_fpath: str):
    vocab_config = "vocab_config.json"
    cfg = VocabConfig.from_json(vocab_config)
    with open(text_fpath, "r") as f:
        text = f.read()
    text = text.strip()
    mid = midi_util.convert_str_to_midi(cfg, text)
    mid.save(output_fpath)
txt_to_midi(txt_fpath, midi_fpath)

midi文件 -> wav文件

# 这里的.sf2文件下载路径: https://github.com/vyshor/MusicAids/blob/master/default_sound_font.sf2
from midi2audio import FluidSynth
def midi_to_wav(midi_path: str, wav_path: str) -> None:
    # 设置音源,你需要下载一个.sf2文件,这是一个音源文件
    fs = FluidSynth('default_sound_font.sf2')
    fs.midi_to_audio(midi_path, wav_path)
midi_to_wav(midi_fpath, wav_fpath)

然后我们就获得了wav_bin.wav的音频文件, 听一下我们产生的音频啦!!!

效果展示

我们录制了一段魔搭创空间的创作效果,来感受一下AI作曲的创作能力叭!


image.png

(魔搭创空间操作指引,下方阅读原文可直达)

https://modelscope.cn/studios/AI-ModelScope/RWKV-4-Music/summary

原始input曲谱:

image.png

魔搭创空间推荐2组参数生成曲谱效果,看看大家喜欢哪组呢:

only piano:true,max length:512,temperature:1,top_k:8,top_p:0.8

image.png

01:03

only piano:false,max length:512,temperature:1,top_k:10,top_p:0.8

image.png

相关文章
|
4月前
|
人工智能 IDE Java
AI Coding实践:CodeFuse + prompt 从系分到代码
在蚂蚁国际信贷业务系统建设过程中,技术团队始终面临双重考验:一方面需应对日益加速的需求迭代周期,满足严苛的代码质量规范与金融安全合规要求;另一方面,跨地域研发团队的协同效率与代码标准统一性,在传统开发模式下逐渐显现瓶颈。为突破效率制约、提升交付质量,我们积极探索人工智能辅助代码生成技术(AI Coding)的应用实践。本文基于蚂蚁国际信贷技术团队近期的实际项目经验,梳理AI辅助开发在金融级系统快速迭代场景中的实施要点并分享阶段性实践心得。
919 25
AI Coding实践:CodeFuse + prompt 从系分到代码
|
4月前
|
数据采集 存储 人工智能
从0到1:天猫AI测试用例生成的实践与突破
本文系统阐述了天猫技术团队在AI赋能测试领域的深度实践与探索,讲述了智能测试用例生成的落地路径。
从0到1:天猫AI测试用例生成的实践与突破
|
4月前
|
人工智能 新制造
TsingtaoAI受邀参加宁波AI海曙科创训练营并分享技术落地实践
10月12日至15日,由宁波市海曙区组织部主办的AI海曙科创训练营在宁波成功举办。作为受邀企业代表,TsingtaoAI团队深入参与了多项活动,与政府领导、行业专家及科创企业代表围绕AI技术在制造业、成果转化等领域的实际应用展开交流,用真实案例诠释了“技术扎根产业”的价值逻辑。
132 2
|
4月前
|
人工智能 自然语言处理 Shell
我们开源了一款 AI 驱动的用户社区
KoalaQA 是一款开源的 AI 驱动用户社区,支持智能问答、语义搜索、自动运营与辅助创作,助力企业降低客服成本,提升响应效率与用户体验。一键部署,灵活接入大模型,快速构建专属售后服务社区。
430 5
我们开源了一款 AI 驱动的用户社区
|
4月前
|
人工智能 安全 开发工具
C3仓库AI代码门禁通用实践:基于Qwen3-Coder+RAG的代码评审
本文介绍基于Qwen3-Coder、RAG与Iflow在C3级代码仓库落地LLM代码评审的实践,实现AI辅助人工评审。通过CI流水线自动触发,结合私域知识库与生产代码同仓管理,已成功拦截数十次高危缺陷,显著提升评审效率与质量,具备向各类代码门禁平台复用推广的价值。(239字)
879 24
|
机器学习/深度学习 人工智能 算法
如果能在1分钟内训练出个AI模型,你想要什么?
随着人工智能的技术不断成熟,AI逐渐在各行业内落地,比如:在常见的安防监控领域,我们可以通过人脸识别去抓捕逃犯;在教育领域,我们可以使用OCR识别做拍题识别;在新零售领域,我们通过物体识别判断货品位置和数量;甚至在养猪场,我们都能用AI技术检测养猪的位置及数量。
1976 0
如果能在1分钟内训练出个AI模型,你想要什么?
|
4月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
995 50
|
4月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
581 30