论文链接:
https://ieeexplore.ieee.org/document/10890216
Demo 页面:
https://coder-jzq.github.io/ICASSP2025-IIICSS-Website
模型链接:
https://www.modelscope.cn/models/CoderJzq/IIICSS
01.论文解读
对话式语音合成(Conversational Speech Synthesis,CSS)旨在有效地利用多模态对话历史(Multimodal Dialogue History,MDH)生成具有适当会话语境的目标语音。CSS的关键挑战在于对MDH和目标话语之间的交互进行建模。需要注意的是,在MDH中,文本和语音模态具有独特的跨模态影响,同时它们又相互补充以对目标话语的表达产生综合影响。先前的研究没有显式建模这种模态内部和模态间的交互。为了解决这个问题, S2Lab 团队提出了一种新的基于模态内和模态间上下文交互方案的CSS系统,称为I³-CSS。
具体来说,在训练阶段,我们将MDH与目标话语中的文本和语音模态相结合,得到四种模态组合,包括“历史文本-下一个文本”,“历史语音-下一个语音”,“历史文本-下一个语音”和“历史语音-下一个文本”。然后,我们分别设计了两个基于对比学习的模态内交互和两个模态间交互模块,以深入学习模态内和模态间的上下文交互影响。在推理阶段,输入MDH到训练好的四个交互模块来充分推断目标话语文本内容的语音韵律。在DailyTalk数据集上进行的主观和客观实验表明,I³-CSS在韵律表达方面优于先进的基线模型。代码和语音样本可在https://github.com/AI-S2-Lab/I3CSS中获得。
02.论文实验
如表I 所示,I³-CSS 相较于各项基线方法在整体性能上表现最佳。在主观指标方面,I³-CSS 在 N-DMOS(3.864)和 P-DMOS(3.876)上均优于所有基线方法。在客观指标方面,I³-CSS 在 MAE-P(0.450)、MAE-E(0.310)和 MAE-D(0.129)上也取得了最优结果。实验结果表明,通过建模多轮对话历史与目标语句之间的模态内与模态间交互,I³-CSS 可以更好地捕捉对话历史的语义和韵律变化,从而生成具有符合对话韵律的目标语音。
点击链接,即可跳转模型链接~
https://www.modelscope.cn/models/CoderJzq/IIICSS