通义实验室重磅开源Fun-CineForge,一个专为各种电影场景而设计的多模态配音大模型,同时也开源一种从高质量多模态配音数据集构建流程。Fun-CineForge 配音模型首次通过引入时间模态信息,实现了在复杂的影视配音场景下的视频配音。
开源地址:
ModelScope:https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge
GitHub:https://github.com/FunAudioLLM/FunCineForge
Project:https://funcineforge.github.io/
模型介绍
电影配音是指根据视频场景,从配音文本合成语音的任务,该任务要求精确的唇形同步、忠实的音色还原、优质的语音质量,较强的情感表现力,灵活的风格控制。
现有方法面临两大主要局限:
1、现有的高质量的多模态配音数据集规模有限,词错误率高,标注稀疏,依赖人工标注,成本高昂,视频片段过短,仅局限在独白场景,阻碍了多模态大模型的有效训练;
2、现有的配音模型仅依赖说话人的唇部区域来学习合成语音与视觉信息的对齐,这严重限制了它们在复杂多样的真人影视场景中的应用,现有的模型在唇形同步、语音质量、情感表达都表现欠佳,也无法做到精准的时间对齐。
为了解决这些问题,提出了 Fun-CineForge,它包含一个大规模配音数据集的端到端生产流程,和一个多模态配音大模型,专为各种电影场景而设计。构建了首个包含丰富标注的中文影视配音数据集 CineDub-CN Dataset 。在各种复杂场景下, Fun-CineForge 的配音模型在音频质量、时间对齐、唇形同步、音色克隆和指令遵循等方面都优于现有的最先进方法。
下图是 Fun-CineForge 整体的概览图。数据集处理流程管线可自动将原始的长篇影视素材转换为结构化多模态数据,用于训练和评估配音模型。在推理阶段,输入无声视频片段、配音文本、线索描述、时间信息、和参考语音,模型即可生成与影视场景相匹配的语音。
多模态配音大模型
1、丰富的多模态信息输入:视觉模态、文本模态、音频模态、时间模态
- 视觉模态:稀疏的帧级别的视觉特征,让大模型学习唇部对齐,说话人的面部表情、身份特征。
- 文本模态:包括鲁棒的线索描述,和配音文本。
- 音频模态:与视觉特征长度一致的帧级别的语音标记。
- 时间模态:起止时间信息和说话人信息,让大模型学习到“什么时间段内是什么说话人在说话”。
2、通过三种强弱监督结合的损失约束来训练多模态配音大模型
为应对复杂电影场景中频繁的镜头切换、说话人切换、面部遮挡及面部模糊等问题,并实现精准的视听同步,设计了一种多模态对齐机制,该机制结合强监督与弱监督,联合建模语音出现的位置、语音的具体内容,及精细的唇部-语音对齐。通过三种监督希望告诉大模型以下信息:
- 在什么时间范围内语音是存在的。为了联合编码时间信息与说话人属性,我们提出了时间戳-说话人分词器(TST),将时间戳和说话人属性映射为离散标记序列。具体而言,每个非静音片段被以下标记元组所表示:(开始时间,说话人ID、说话人性别、说话人年龄、终止时间)。训练过程中未知属性会被掩码。此外,我们定义了帧级的语音活动指示器,用来指示每一帧是静音还是非静音,从而构建了声学活动损失。
- 具体说了什么语音内容。对于合成的语音标记,使用交叉熵损失约束语音的内容。
- 在唇部清晰可见时进行细粒度的嘴唇-语音活动的对齐。视觉特征提供说话人属性和表情信息,让大模型理解情感表达,另一方面学习唇部的运动。由于说话人清晰可见的唇部并不总是出现在镜头中,因此采用了一种基于帧级唇部向量与帧级语音标记的对比学习作为弱监督,它仅在非静音时间段内被激活。
3、支持多说话人音色的 Flow 模型
Flow 模型采用了 CosyVoice 3 的主干架构,用于从语音标记中重建梅尔谱图。通过引入一个说话人切换拼接层,根据时间戳信息计算静音结束位置,将每一个语音活动区间的子段与对应的说话人绑定。使每个语音段都匹配一个说话人音色嵌入,基于 DiT 快速采样为梅尔图谱。
数据集的构建与设计
通义实验室严格筛选了350多部中英文影视剧,涵盖多种影视类型,构建了CineDub 数据集,平均片段长度为13 秒,有效语音时长约 10,000小时。
数据集流程:
1、人声分离
为提升语音清晰度,抑制背景音乐,采用重训过的 Mel-RoFormer 模型对人声和乐器声进行分离,提取到纯净的人声轨道。
2、长视频分段与ASR
采用了为长序列语音优化的 FSMN-Monophone VAD 模块提取活跃语音片段,通过自动语音识别(ASR)模型和标点预测模型,对人声轨道进行文本转录,合并 VAD 子段信息,得到规范的字幕(SRT)文件。并基于提取的时间戳信息,将原始视频分割为60秒内,平均13秒的大量片段。
3、音视频双模态的说话人分离
采用视觉增强型的说话人分离框架。音频模态使用 CAM++ 从人声轨道中提取音频向量。视觉模态将 25fps 视频以每5帧采样一次进行帧采样,使用轻量化人脸检测模块检测到采样帧中的所有人脸,获得候选活跃帧。将候选活跃帧的人脸通过 TalkNet-ASD 模块,选取活跃说话人的面部。对活跃面部应用二维人脸关键点检测,提取唇部图像。使用人脸编码器对活跃面部编码得到说话人面部特征向量,并通过归一化处理抑制表情相关变化,保留说话人身份特征。采用联合无监督聚类算法得到说话人分离结果。
4、基于多模态思维链的纠正策略
为了提升数据集质量,流程创新性引入了基于多模态思维链的校正策略。具体而言,输入信息包括人声轨道、ASR 转录文本和说话人日志结果,使用通用大模型如 Gemini-3-Pro,Qwen 3.5,对音频进行深入理解。同时,流程采用了严格的数据清洗,使用一种双向验证机制,来解决通用大模型输出的幻觉问题,并优化专业模型的预测结果。
中文字错率从 4.53% 降低到 0.94%,英文词错率从 9.35% 降至 2.12%。
说话人分离错误率从 8.38% 降低至 1.20%。
实验结果
Fun-CineForge 配音模型在合成语音质量、词错率、语音自然度、唇部对齐、时间对齐、说话人相似度、情感表现力、线索遵循能力上,均优于现有的开源配音模型。
在独白、旁白、对话和多说话人四种场景下均有较好的表现,以独白和旁白场景效果最鲁棒,对话场景和多说话人场景下在时间对齐、唇部对齐、音色切换上也有优异的表现。
点击即可跳转模型链接
https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge