通义实验室Fun-CineForge开源:首个支持影视级多场景配音的多模态大模型

简介: 通义实验室开源Fun-CineForge——首个支持多说话人、强时间对齐的多模态电影配音大模型。首创引入时间模态,结合视觉、文本、音频与时间信息,实现高精度唇形同步、音色克隆与情感表达,并开源高质量中文影视配音数据集CineDub-CN及端到端构建流程。(239字)

通义实验室重磅开源Fun-CineForge,一个专为各种电影场景而设计的多模态配音大模型,同时也开源一种从高质量多模态配音数据集构建流程。Fun-CineForge 配音模型首次通过引入时间模态信息,实现了在复杂的影视配音场景下的视频配音。

开源地址:

ModelScope:https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge

GitHub:https://github.com/FunAudioLLM/FunCineForge

Project:https://funcineforge.github.io/

模型介绍

电影配音是指根据视频场景,从配音文本合成语音的任务,该任务要求精确的唇形同步、忠实的音色还原、优质的语音质量,较强的情感表现力,灵活的风格控制。

现有方法面临两大主要局限:

1、现有的高质量的多模态配音数据集规模有限,词错误率高,标注稀疏,依赖人工标注,成本高昂,视频片段过短,仅局限在独白场景,阻碍了多模态大模型的有效训练;

2、现有的配音模型仅依赖说话人的唇部区域来学习合成语音与视觉信息的对齐,这严重限制了它们在复杂多样的真人影视场景中的应用,现有的模型在唇形同步、语音质量、情感表达都表现欠佳,也无法做到精准的时间对齐。

为了解决这些问题,提出了 Fun-CineForge,它包含一个大规模配音数据集的端到端生产流程,和一个多模态配音大模型,专为各种电影场景而设计。构建了首个包含丰富标注的中文影视配音数据集 CineDub-CN Dataset 。在各种复杂场景下, Fun-CineForge 的配音模型在音频质量、时间对齐、唇形同步、音色克隆和指令遵循等方面都优于现有的最先进方法。

下图是 Fun-CineForge 整体的概览图。数据集处理流程管线可自动将原始的长篇影视素材转换为结构化多模态数据,用于训练和评估配音模型。在推理阶段,输入无声视频片段、配音文本、线索描述、时间信息、和参考语音,模型即可生成与影视场景相匹配的语音。



多模态配音大模型

1、丰富的多模态信息输入:视觉模态、文本模态、音频模态、时间模态

  • 视觉模态:稀疏的帧级别的视觉特征,让大模型学习唇部对齐,说话人的面部表情、身份特征。
  • 文本模态:包括鲁棒的线索描述,和配音文本。
  • 音频模态:与视觉特征长度一致的帧级别的语音标记。
  • 时间模态:起止时间信息和说话人信息,让大模型学习到“什么时间段内是什么说话人在说话”。


2、通过三种强弱监督结合的损失约束来训练多模态配音大模型

为应对复杂电影场景中频繁的镜头切换、说话人切换、面部遮挡及面部模糊等问题,并实现精准的视听同步,设计了一种多模态对齐机制,该机制结合强监督与弱监督,联合建模语音出现的位置、语音的具体内容,及精细的唇部-语音对齐。通过三种监督希望告诉大模型以下信息:

  • 在什么时间范围内语音是存在的。为了联合编码时间信息与说话人属性,我们提出了时间戳-说话人分词器(TST),将时间戳和说话人属性映射为离散标记序列。具体而言,每个非静音片段被以下标记元组所表示:(开始时间,说话人ID、说话人性别、说话人年龄、终止时间)。训练过程中未知属性会被掩码。此外,我们定义了帧级的语音活动指示器,用来指示每一帧是静音还是非静音,从而构建了声学活动损失。



  • 具体说了什么语音内容。对于合成的语音标记,使用交叉熵损失约束语音的内容。


  • 在唇部清晰可见时进行细粒度的嘴唇-语音活动的对齐。视觉特征提供说话人属性和表情信息,让大模型理解情感表达,另一方面学习唇部的运动。由于说话人清晰可见的唇部并不总是出现在镜头中,因此采用了一种基于帧级唇部向量与帧级语音标记的对比学习作为弱监督,它仅在非静音时间段内被激活。


3、支持多说话人音色的 Flow 模型

Flow 模型采用了 CosyVoice 3 的主干架构,用于从语音标记中重建梅尔谱图。通过引入一个说话人切换拼接层,根据时间戳信息计算静音结束位置,将每一个语音活动区间的子段与对应的说话人绑定。使每个语音段都匹配一个说话人音色嵌入,基于 DiT 快速采样为梅尔图谱。


数据集的构建与设计

通义实验室严格筛选了350多部中英文影视剧,涵盖多种影视类型,构建了CineDub 数据集,平均片段长度为13 秒,有效语音时长约 10,000小时。

数据集流程:

1、人声分离

为提升语音清晰度,抑制背景音乐,采用重训过的 Mel-RoFormer 模型对人声和乐器声进行分离,提取到纯净的人声轨道。


2、长视频分段与ASR

采用了为长序列语音优化的 FSMN-Monophone VAD 模块提取活跃语音片段,通过自动语音识别(ASR)模型和标点预测模型,对人声轨道进行文本转录,合并 VAD 子段信息,得到规范的字幕(SRT)文件。并基于提取的时间戳信息,将原始视频分割为60秒内,平均13秒的大量片段。


3、音视频双模态的说话人分离

采用视觉增强型的说话人分离框架。音频模态使用 CAM++ 从人声轨道中提取音频向量。视觉模态将 25fps 视频以每5帧采样一次进行帧采样,使用轻量化人脸检测模块检测到采样帧中的所有人脸,获得候选活跃帧。将候选活跃帧的人脸通过 TalkNet-ASD 模块,选取活跃说话人的面部。对活跃面部应用二维人脸关键点检测,提取唇部图像。使用人脸编码器对活跃面部编码得到说话人面部特征向量,并通过归一化处理抑制表情相关变化,保留说话人身份特征。采用联合无监督聚类算法得到说话人分离结果。


4、基于多模态思维链的纠正策略

为了提升数据集质量,流程创新性引入了基于多模态思维链的校正策略。具体而言,输入信息包括人声轨道、ASR 转录文本和说话人日志结果,使用通用大模型如 Gemini-3-Pro,Qwen 3.5,对音频进行深入理解。同时,流程采用了严格的数据清洗,使用一种双向验证机制,来解决通用大模型输出的幻觉问题,并优化专业模型的预测结果。


中文字错率从 4.53% 降低到 0.94%,英文词错率从 9.35% 降至 2.12%。

说话人分离错误率从 8.38% 降低至 1.20%。

实验结果

Fun-CineForge 配音模型在合成语音质量、词错率、语音自然度、唇部对齐、时间对齐、说话人相似度、情感表现力、线索遵循能力上,均优于现有的开源配音模型。

在独白、旁白、对话和多说话人四种场景下均有较好的表现,以独白和旁白场景效果最鲁棒,对话场景和多说话人场景下在时间对齐、唇部对齐、音色切换上也有优异的表现。

点击即可跳转模型链接

https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge



目录
相关文章
|
23天前
|
人工智能 IDE 前端开发
|
25天前
|
JSON API PHP
使用PHP对接美股股票市场API 实时数据、IPO和K线(Kline)的PHP对接方案
StockTV API 面向开发者,提供美股实时行情、历史K线(5分钟至1月)、IPO日历等数据,支持HTTP/WS双接入,全接口返回标准JSON,含纽交所(ex=1)与纳斯达克(ex=2)标识。(239字)
|
1月前
|
人工智能 自然语言处理 监控
AI生成内容幻觉检测技术难点:从事实核查到逻辑溯源的深层挑战
幻觉检测面临知识边界模糊、推理链条黑箱及实时性滞后三大核心难题。百搜科技、哈耶普斯广告、智擎营销、DOUBAOMKT及doubaoAD等服务商正通过构建权威知识库与自研监测系统,尝试在GEO服务中突破这一技术瓶颈,确保品牌信息的准确呈现。
|
1月前
|
网络协议 编译器 C语言
C语言深度解析:内存对齐与结构体填充的底层逻辑
C语言中,内存对齐是CPU硬件强制要求的底层规则,直接影响结构体大小、访问性能与硬件兼容性。合理排列成员可减少填充、节省内存;滥用`#pragma pack`则易致崩溃或性能暴跌。嵌入式、网络协议与跨平台开发必备核心知识。(239字)
286 14
|
24天前
|
人工智能 文字识别 运维
InternVerse具身数据平台发布,从数据供给到模型迭代,助力物理智能全链路提效
百度千帆发布端到端文档智能模型Qianfan-OCR,4B参数统一视觉语言架构,融合版面分析、文字识别与语义理解。在OmniDocBench等权威评测中全面领先,支持复杂图表与多栏文档解析,已开源并上线千帆平台。(239字)
133 7
|
17天前
|
传感器
300 万对 RGB-D 深度数据集 LingBot-Depth-Dataset,正式开源!
LingBot-Depth-Dataset是目前最大规模真实场景RGB-D数据集,含300万高质量样本(200万实采+100万渲染),覆盖6款主流深度相机,总规模2.71TB。填补了高保真、多设备深度数据空白,助力空间智能与具身智能发展。
170 20

热门文章

最新文章

下一篇
开通oss服务