通义实验室开源 PrismAudio,一个强大的视频配音(V2A)模型。仅 518M 参数、0.63s 推理时延,在语义、时序、美学、空间及主观评分五项指标上全面超越现有 5B 量级方法。
其核心创新在于将整体推理分解为四路专项 CoT 模块(语义、时序、美学、空间),每路模块配备独立奖励函数,构建精准的 CoT–奖励对应关系,通过多维强化学习后训练实现协同优化,从根本上解决多目标耦合问题。同时提出 Fast-GRPO,采用混合 ODE-SDE 采样策略,大幅降低扩散模型强化学习的训练开销。
开源地址:
模型地址:https://www.modelscope.cn/models/iic/PrismAudio
github:https://github.com/FunAudioLLM/ThinkSound/tree/prismaudio
魔搭创空间体验:
https://www.modelscope.cn/studios/iic/PrismAudio/summary
视频配音效果
Sora2 + PrismAudio
00:48
Veo3 + PrismAudio
00:45
模型原理
视频生成音频(V2A)任务需要在四个关键感知维度之间取得平衡:语义一致性、视听时间同步、美学质量和空间准确性。然而,现有方法存在目标耦合问题——将相互竞争的优化目标混入单一损失函数,同时缺乏对人类偏好的对齐。
PrismAudio是首个将强化学习(RL)与专项思维链(CoT)规划相结合的 V2A 生成框架。具体而言,研究团队将整体推理分解为四个专项 CoT 模块(语义、时序、美学、空间 CoT),每个模块配备独立的奖励函数。这种 CoT-奖励的一一对应关系,使多维强化学习优化成为可能,引导模型从多个视角同步提升推理质量,从根本上解决目标耦合问题,同时保持可解释性。
为降低训练开销,研究团队还提出 Fast-GRPO,采用混合 ODE-SDE 采样策略,相比现有 GRPO 实现大幅减少了训练时间。
左图:利用 Gemini 2.5 Pro 构建 CoT 训练数据,并微调 VideoLLaMA2 以生成分解式 CoT。 右图:基于 Fast-GRPO 的多维 CoT 强化学习框架,用于音频基础模型的后训练阶段。
1. 分解式多维思维链
与其让模型用一条推理路径"包揽一切",不如将其拆解——PrismAudio 设计了四个专门化 CoT 模块,各司其职:
- Semantic CoT → 识别音频事件及其属性
- Temporal CoT → 推断音频事件的时序结构
- Aesthetic CoT → 评估自然度、保真度等音质维度
- Spatial CoT → 分析声源方向与空间位置
四路 CoT 拼接后作为结构化条件,输入音频基础模型,使生成过程有据可循、可解释、可控。
2. 多维度强化学习奖励
每个 CoT 模块配备一个专属奖励函数,形成精准的 CoT–奖励对应关系:
🎯 语义 → MS-CLAP
⏱️ 时序 → Synchformer
🎨 美学 → Meta Audiobox Aesthetics
📍 空间 → StereoCRW
四路奖励聚合后,通过组内归一化计算优势分数,驱动模型在所有感知维度上协同提升,而非顾此失彼。
3. Fast-GRPO:高效扩散强化学习
将强化学习引入扩散模型,训练开销是绕不开的难题。现有 Flow-GRPO 在每步去噪均启用 SDE 采样,代价极高。
Fast-GRPO 的核心思路是把随机性限制在刀刃上:
- 大部分去噪步骤走确定性 ODE,快速高效
- 仅在随机选取的小时间窗口内启用 SDE,保留探索空间
这一设计将函数评估次数从 T 压缩至窗口宽度 w,且理论上保证终端分布不受影响。
在单独优化CLAP的实验中,Fast-GRPO 仅需 200 步即超越 Flow-GRPO 600 步的最终性能,最终指标更高(0.51 vs. 0.47)。
4.音频基础模型的关键优化
在 ThinkSound 架构基础上进行两项关键升级:
- VideoPrism(替换 CLIP):专为视频理解预训练的统一视觉 Transformer,在多事件复杂场景检索中 R@1(Recall@1,即 top-1 检索召回率:正确结果排在第一位的比例)达 51.02%,显著优于 CLIP(26.53%)
- T5-Gemma(替换 T5):具备指令跟随能力的编码器架构,在 3+ 步骤复杂推理任务中准确率达 92%,远超标准 T5-Large(77%)
AudioCanvas 评测基准构建
此外,研究团队构建了 AudioCanvas 评测基准,相比现有数据集具备更均衡的分布和更多样复杂的真实场景,涵盖 300 个单事件类别和 501 个多事件样本。
模型定量结果
域内评估(VGGSound 测试集)
PrismAudio(518M参数)以最小的模型规模,在语义(CLAP 0.47)、时序同步(DeSync 0.41)、美学质量(PQ 6.38)、空间准确性以及主观评分(MOS-Q 4.21 / MOS-C 4.22)上全面超越所有基线,推理速度仅 0.63 秒,远快于 HunyuanVideo-Foley(10.63 秒)和 ThinkSound(1.07 秒)。
域外评估(AudioCanvas 基准)
域外泛化能力同样突出,PrismAudio 在 CLAP(0.52)、DeSync(0.36)、PQ(6.68)等核心指标上均领先,主观评分 MOS-Q 4.12 / MOS-C 4.01,验证了框架的强泛化性。
模型推理
环境安装
git clone -b prismaudio https://github.com/liuhuadai/ThinkSound.git cd ThinkSound conda create -n prismaudio python=3.10 conda activate prismaudio chmod +x scripts/PrismAudio/setup/build_env.sh ./scripts/PrismAudio/setup/build_env.sh # Download pretrained weights to Directory ckpts/ # From Hugging Face: https://huggingface.co/liuhuadai/ThinkSound # From ModelScope: https://www.modelscope.cn/models/iic/ThinkSound git lfs install git clone https://huggingface.co/FunAudioLLM/PrismAudio ckpts
推理脚本
chmod +x scripts/PrismAudio/demo.sh ./scripts/PrismAudio/demo.sh <path-to-your-demo-video> "<CoT description>"
点击即可跳链接