通义实验室开源 PrismAudio:518M 参数全面超越 5B 量级的视频配音模型

简介: 通义实验室开源PrismAudio——轻量高效(518M参数、0.63s延时)的视频配音(V2A)模型,在语义、时序、美学、空间及主观评分五项指标上全面超越5B级方法。首创四路专项CoT模块+多维强化学习,搭配Fast-GRPO加速训练,已开源模型与代码。

通义实验室开源 PrismAudio,一个强大的视频配音(V2A)模型。仅 518M 参数、0.63s 推理时延,在语义、时序、美学、空间及主观评分五项指标上全面超越现有 5B 量级方法。


其核心创新在于将整体推理分解为四路专项 CoT 模块(语义、时序、美学、空间),每路模块配备独立奖励函数,构建精准的 CoT–奖励对应关系,通过多维强化学习后训练实现协同优化,从根本上解决多目标耦合问题。同时提出 Fast-GRPO,采用混合 ODE-SDE 采样策略,大幅降低扩散模型强化学习的训练开销。


开源地址:

模型地址:https://www.modelscope.cn/models/iic/PrismAudio

github:https://github.com/FunAudioLLM/ThinkSound/tree/prismaudio


魔搭创空间体验:

https://www.modelscope.cn/studios/iic/PrismAudio/summary


视频配音效果

Sora2 + PrismAudio

00:48


Veo3 + PrismAudio

00:45

模型原理

视频生成音频(V2A)任务需要在四个关键感知维度之间取得平衡:语义一致性、视听时间同步、美学质量和空间准确性。然而,现有方法存在目标耦合问题——将相互竞争的优化目标混入单一损失函数,同时缺乏对人类偏好的对齐。


PrismAudio是首个将强化学习(RL)与专项思维链(CoT)规划相结合的 V2A 生成框架。具体而言,研究团队将整体推理分解为四个专项 CoT 模块(语义、时序、美学、空间 CoT),每个模块配备独立的奖励函数。这种 CoT-奖励的一一对应关系,使多维强化学习优化成为可能,引导模型从多个视角同步提升推理质量,从根本上解决目标耦合问题,同时保持可解释性。


为降低训练开销,研究团队还提出 Fast-GRPO,采用混合 ODE-SDE 采样策略,相比现有 GRPO 实现大幅减少了训练时间。


左图:利用 Gemini 2.5 Pro 构建 CoT 训练数据,并微调 VideoLLaMA2 以生成分解式 CoT。 右图:基于 Fast-GRPO 的多维 CoT 强化学习框架,用于音频基础模型的后训练阶段。


1. 分解式多维思维链

与其让模型用一条推理路径"包揽一切",不如将其拆解——PrismAudio 设计了四个专门化 CoT 模块,各司其职:

  • Semantic CoT  →  识别音频事件及其属性
  • Temporal CoT  →  推断音频事件的时序结构
  • Aesthetic CoT →  评估自然度、保真度等音质维度
  • Spatial CoT   →  分析声源方向与空间位置  

四路 CoT 拼接后作为结构化条件,输入音频基础模型,使生成过程有据可循、可解释、可控。


2. 多维度强化学习奖励

每个 CoT 模块配备一个专属奖励函数,形成精准的 CoT–奖励对应关系:

🎯 语义  →  MS-CLAP

⏱️ 时序  →  Synchformer

🎨 美学  →  Meta Audiobox Aesthetics

📍 空间  →  StereoCRW

四路奖励聚合后,通过组内归一化计算优势分数,驱动模型在所有感知维度上协同提升,而非顾此失彼。


3. Fast-GRPO:高效扩散强化学习

将强化学习引入扩散模型,训练开销是绕不开的难题。现有 Flow-GRPO 在每步去噪均启用 SDE 采样,代价极高。


Fast-GRPO 的核心思路是把随机性限制在刀刃上

  • 大部分去噪步骤走确定性 ODE,快速高效
  • 仅在随机选取的小时间窗口内启用 SDE,保留探索空间

这一设计将函数评估次数从 T 压缩至窗口宽度 w,且理论上保证终端分布不受影响。

在单独优化CLAP的实验中,Fast-GRPO 仅需 200 步即超越 Flow-GRPO 600 步的最终性能,最终指标更高(0.51 vs. 0.47)。


4.音频基础模型的关键优化

在 ThinkSound 架构基础上进行两项关键升级:

  • VideoPrism(替换 CLIP):专为视频理解预训练的统一视觉 Transformer,在多事件复杂场景检索中 R@1(Recall@1,即 top-1 检索召回率:正确结果排在第一位的比例)达 51.02%,显著优于 CLIP(26.53%)
  • T5-Gemma(替换 T5):具备指令跟随能力的编码器架构,在 3+ 步骤复杂推理任务中准确率达 92%,远超标准 T5-Large(77%)

AudioCanvas 评测基准构建

此外,研究团队构建了 AudioCanvas 评测基准,相比现有数据集具备更均衡的分布和更多样复杂的真实场景,涵盖 300 个单事件类别501 个多事件样本


模型定量结果

域内评估(VGGSound 测试集)

PrismAudio(518M参数)以最小的模型规模,在语义(CLAP 0.47)、时序同步(DeSync 0.41)、美学质量(PQ 6.38)、空间准确性以及主观评分(MOS-Q 4.21 / MOS-C 4.22)上全面超越所有基线,推理速度仅 0.63 秒,远快于 HunyuanVideo-Foley(10.63 秒)和 ThinkSound(1.07 秒)。


域外评估(AudioCanvas 基准)

域外泛化能力同样突出,PrismAudio 在 CLAP(0.52)、DeSync(0.36)、PQ(6.68)等核心指标上均领先,主观评分 MOS-Q 4.12 / MOS-C 4.01,验证了框架的强泛化性。


模型推理

环境安装

git clone -b prismaudio https://github.com/liuhuadai/ThinkSound.git
cd ThinkSound
conda create -n prismaudio python=3.10
conda activate prismaudio
chmod +x scripts/PrismAudio/setup/build_env.sh
./scripts/PrismAudio/setup/build_env.sh
# Download pretrained weights to Directory ckpts/
# From Hugging Face: https://huggingface.co/liuhuadai/ThinkSound
# From ModelScope:   https://www.modelscope.cn/models/iic/ThinkSound
git lfs install
git clone https://huggingface.co/FunAudioLLM/PrismAudio ckpts


推理脚本

chmod +x scripts/PrismAudio/demo.sh
./scripts/PrismAudio/demo.sh <path-to-your-demo-video> "<CoT description>"

点击即可跳链接

https://modelscope.cn/models/iic/PrismAud

目录
相关文章
|
5天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
10731 63
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
5天前
|
人工智能 IDE API
2026年国内 Codex 安装教程和使用教程:GPT-5.4 完整指南
Codex已进化为AI编程智能体,不仅能补全代码,更能理解项目、自动重构、执行任务。本文详解国内安装、GPT-5.4接入、cc-switch中转配置及实战开发流程,助你从零掌握“描述需求→AI实现”的新一代工程范式。(239字)
3111 126
|
1天前
|
人工智能 自然语言处理 供应链
【最新】阿里云ClawHub Skill扫描:3万个AI Agent技能中的安全度量
阿里云扫描3万+AI Skill,发现AI检测引擎可识别80%+威胁,远高于传统引擎。
1199 1
|
11天前
|
人工智能 JavaScript API
解放双手!OpenClaw Agent Browser全攻略(阿里云+本地部署+免费API+网页自动化场景落地)
“让AI聊聊天、写代码不难,难的是让它自己打开网页、填表单、查数据”——2026年,无数OpenClaw用户被这个痛点困扰。参考文章直击核心:当AI只能“纸上谈兵”,无法实际操控浏览器,就永远成不了真正的“数字员工”。而Agent Browser技能的出现,彻底打破了这一壁垒——它给OpenClaw装上“上网的手和眼睛”,让AI能像真人一样打开网页、点击按钮、填写表单、提取数据,24小时不间断完成网页自动化任务。
2563 6
|
25天前
|
人工智能 JavaScript Ubuntu
5分钟上手龙虾AI!OpenClaw部署(阿里云+本地)+ 免费多模型配置保姆级教程(MiniMax、Claude、阿里云百炼)
OpenClaw(昵称“龙虾AI”)作为2026年热门的开源个人AI助手,由PSPDFKit创始人Peter Steinberger开发,核心优势在于“真正执行任务”——不仅能聊天互动,还能自动处理邮件、管理日程、订机票、写代码等,且所有数据本地处理,隐私完全可控。它支持接入MiniMax、Claude、GPT等多类大模型,兼容微信、Telegram、飞书等主流聊天工具,搭配100+可扩展技能,成为兼顾实用性与隐私性的AI工具首选。
24388 122

热门文章

最新文章