通义实验室Fun-CineForge开源:首个支持影视级多场景配音的多模态大模型

简介: 通义实验室开源Fun-CineForge——首个支持多说话人、强时间对齐的多模态电影配音大模型。首创引入时间模态,结合视觉、文本、音频与时间信息,实现高精度唇形同步、音色克隆与情感表达,并开源高质量中文影视配音数据集CineDub-CN及端到端构建流程。(239字)

通义实验室重磅开源Fun-CineForge,一个专为各种电影场景而设计的多模态配音大模型,同时也开源一种从高质量多模态配音数据集构建流程。Fun-CineForge 配音模型首次通过引入时间模态信息,实现了在复杂的影视配音场景下的视频配音。

开源地址:

ModelScope:https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge

GitHub:https://github.com/FunAudioLLM/FunCineForge

Project:https://funcineforge.github.io/

模型介绍

电影配音是指根据视频场景,从配音文本合成语音的任务,该任务要求精确的唇形同步、忠实的音色还原、优质的语音质量,较强的情感表现力,灵活的风格控制。

现有方法面临两大主要局限:

1、现有的高质量的多模态配音数据集规模有限,词错误率高,标注稀疏,依赖人工标注,成本高昂,视频片段过短,仅局限在独白场景,阻碍了多模态大模型的有效训练;

2、现有的配音模型仅依赖说话人的唇部区域来学习合成语音与视觉信息的对齐,这严重限制了它们在复杂多样的真人影视场景中的应用,现有的模型在唇形同步、语音质量、情感表达都表现欠佳,也无法做到精准的时间对齐。

为了解决这些问题,提出了 Fun-CineForge,它包含一个大规模配音数据集的端到端生产流程,和一个多模态配音大模型,专为各种电影场景而设计。构建了首个包含丰富标注的中文影视配音数据集 CineDub-CN Dataset 。在各种复杂场景下, Fun-CineForge 的配音模型在音频质量、时间对齐、唇形同步、音色克隆和指令遵循等方面都优于现有的最先进方法。

下图是 Fun-CineForge 整体的概览图。数据集处理流程管线可自动将原始的长篇影视素材转换为结构化多模态数据,用于训练和评估配音模型。在推理阶段,输入无声视频片段、配音文本、线索描述、时间信息、和参考语音,模型即可生成与影视场景相匹配的语音。



多模态配音大模型

1、丰富的多模态信息输入:视觉模态、文本模态、音频模态、时间模态

  • 视觉模态:稀疏的帧级别的视觉特征,让大模型学习唇部对齐,说话人的面部表情、身份特征。
  • 文本模态:包括鲁棒的线索描述,和配音文本。
  • 音频模态:与视觉特征长度一致的帧级别的语音标记。
  • 时间模态:起止时间信息和说话人信息,让大模型学习到“什么时间段内是什么说话人在说话”。


2、通过三种强弱监督结合的损失约束来训练多模态配音大模型

为应对复杂电影场景中频繁的镜头切换、说话人切换、面部遮挡及面部模糊等问题,并实现精准的视听同步,设计了一种多模态对齐机制,该机制结合强监督与弱监督,联合建模语音出现的位置、语音的具体内容,及精细的唇部-语音对齐。通过三种监督希望告诉大模型以下信息:

  • 在什么时间范围内语音是存在的。为了联合编码时间信息与说话人属性,我们提出了时间戳-说话人分词器(TST),将时间戳和说话人属性映射为离散标记序列。具体而言,每个非静音片段被以下标记元组所表示:(开始时间,说话人ID、说话人性别、说话人年龄、终止时间)。训练过程中未知属性会被掩码。此外,我们定义了帧级的语音活动指示器,用来指示每一帧是静音还是非静音,从而构建了声学活动损失。



  • 具体说了什么语音内容。对于合成的语音标记,使用交叉熵损失约束语音的内容。


  • 在唇部清晰可见时进行细粒度的嘴唇-语音活动的对齐。视觉特征提供说话人属性和表情信息,让大模型理解情感表达,另一方面学习唇部的运动。由于说话人清晰可见的唇部并不总是出现在镜头中,因此采用了一种基于帧级唇部向量与帧级语音标记的对比学习作为弱监督,它仅在非静音时间段内被激活。


3、支持多说话人音色的 Flow 模型

Flow 模型采用了 CosyVoice 3 的主干架构,用于从语音标记中重建梅尔谱图。通过引入一个说话人切换拼接层,根据时间戳信息计算静音结束位置,将每一个语音活动区间的子段与对应的说话人绑定。使每个语音段都匹配一个说话人音色嵌入,基于 DiT 快速采样为梅尔图谱。


数据集的构建与设计

通义实验室严格筛选了350多部中英文影视剧,涵盖多种影视类型,构建了CineDub 数据集,平均片段长度为13 秒,有效语音时长约 10,000小时。

数据集流程:

1、人声分离

为提升语音清晰度,抑制背景音乐,采用重训过的 Mel-RoFormer 模型对人声和乐器声进行分离,提取到纯净的人声轨道。


2、长视频分段与ASR

采用了为长序列语音优化的 FSMN-Monophone VAD 模块提取活跃语音片段,通过自动语音识别(ASR)模型和标点预测模型,对人声轨道进行文本转录,合并 VAD 子段信息,得到规范的字幕(SRT)文件。并基于提取的时间戳信息,将原始视频分割为60秒内,平均13秒的大量片段。


3、音视频双模态的说话人分离

采用视觉增强型的说话人分离框架。音频模态使用 CAM++ 从人声轨道中提取音频向量。视觉模态将 25fps 视频以每5帧采样一次进行帧采样,使用轻量化人脸检测模块检测到采样帧中的所有人脸,获得候选活跃帧。将候选活跃帧的人脸通过 TalkNet-ASD 模块,选取活跃说话人的面部。对活跃面部应用二维人脸关键点检测,提取唇部图像。使用人脸编码器对活跃面部编码得到说话人面部特征向量,并通过归一化处理抑制表情相关变化,保留说话人身份特征。采用联合无监督聚类算法得到说话人分离结果。


4、基于多模态思维链的纠正策略

为了提升数据集质量,流程创新性引入了基于多模态思维链的校正策略。具体而言,输入信息包括人声轨道、ASR 转录文本和说话人日志结果,使用通用大模型如 Gemini-3-Pro,Qwen 3.5,对音频进行深入理解。同时,流程采用了严格的数据清洗,使用一种双向验证机制,来解决通用大模型输出的幻觉问题,并优化专业模型的预测结果。


中文字错率从 4.53% 降低到 0.94%,英文词错率从 9.35% 降至 2.12%。

说话人分离错误率从 8.38% 降低至 1.20%。

实验结果

Fun-CineForge 配音模型在合成语音质量、词错率、语音自然度、唇部对齐、时间对齐、说话人相似度、情感表现力、线索遵循能力上,均优于现有的开源配音模型。

在独白、旁白、对话和多说话人四种场景下均有较好的表现,以独白和旁白场景效果最鲁棒,对话场景和多说话人场景下在时间对齐、唇部对齐、音色切换上也有优异的表现。

点击即可跳转模型链接

https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge



目录
相关文章
|
5天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
10731 63
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
5天前
|
人工智能 IDE API
2026年国内 Codex 安装教程和使用教程:GPT-5.4 完整指南
Codex已进化为AI编程智能体,不仅能补全代码,更能理解项目、自动重构、执行任务。本文详解国内安装、GPT-5.4接入、cc-switch中转配置及实战开发流程,助你从零掌握“描述需求→AI实现”的新一代工程范式。(239字)
3111 126
|
1天前
|
人工智能 自然语言处理 供应链
【最新】阿里云ClawHub Skill扫描:3万个AI Agent技能中的安全度量
阿里云扫描3万+AI Skill,发现AI检测引擎可识别80%+威胁,远高于传统引擎。
1199 1
|
11天前
|
人工智能 JavaScript API
解放双手!OpenClaw Agent Browser全攻略(阿里云+本地部署+免费API+网页自动化场景落地)
“让AI聊聊天、写代码不难,难的是让它自己打开网页、填表单、查数据”——2026年,无数OpenClaw用户被这个痛点困扰。参考文章直击核心:当AI只能“纸上谈兵”,无法实际操控浏览器,就永远成不了真正的“数字员工”。而Agent Browser技能的出现,彻底打破了这一壁垒——它给OpenClaw装上“上网的手和眼睛”,让AI能像真人一样打开网页、点击按钮、填写表单、提取数据,24小时不间断完成网页自动化任务。
2563 6
|
25天前
|
人工智能 JavaScript Ubuntu
5分钟上手龙虾AI!OpenClaw部署(阿里云+本地)+ 免费多模型配置保姆级教程(MiniMax、Claude、阿里云百炼)
OpenClaw(昵称“龙虾AI”)作为2026年热门的开源个人AI助手,由PSPDFKit创始人Peter Steinberger开发,核心优势在于“真正执行任务”——不仅能聊天互动,还能自动处理邮件、管理日程、订机票、写代码等,且所有数据本地处理,隐私完全可控。它支持接入MiniMax、Claude、GPT等多类大模型,兼容微信、Telegram、飞书等主流聊天工具,搭配100+可扩展技能,成为兼顾实用性与隐私性的AI工具首选。
24388 122

热门文章

最新文章