面向对话语音合成的模态间与模态内上下文交互建模

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 面向对话语音合成的模态间与模态内上下文交互建模

论文链接:

https://ieeexplore.ieee.org/document/10890216

Demo 页面:
https://coder-jzq.github.io/ICASSP2025-IIICSS-Website

模型链接:

https://www.modelscope.cn/models/CoderJzq/IIICSS

01.论文解读

对话式语音合成(Conversational Speech Synthesis,CSS)旨在有效地利用多模态对话历史(Multimodal Dialogue History,MDH)生成具有适当会话语境的目标语音。CSS的关键挑战在于对MDH和目标话语之间的交互进行建模。需要注意的是,在MDH中,文本和语音模态具有独特的跨模态影响,同时它们相互补充以对目标话语的表达产生综合影响。先前的研究没有显式建模这种模态内部和模态间的交互。为了解决这个问题, S2Lab 团队提出了一种新的基于模态内和模态间上下文交互方案的CSS系统,称为I³-CSS。

具体来说,在训练阶段,我们将MDH与目标话语中的文本和语音模态相结合,得到四种模态组合,包括“历史文本-下一个文本”,“历史语音-下一个语音”,“历史文本-下一个语音”和“历史语音-下一个文本”。然后,我们分别设计了两个基于对比学习的模态内交互和两个模态间交互模块,以深入学习模态内和模态间上下文交互影响。在推理阶段,输入MDH训练好的四个交互模块来充分推断目标话语文本内容的语音韵律。在DailyTalk数据集上进行的主观和客观实验表明,I³-CSS在韵律表达方面优于先进的基线模型。代码和语音样本可在https://github.com/AI-S2-Lab/I3CSS中获得。

image.png

02.论文实验

如表I 所示,I³-CSS 相较于各项基线方法在整体性能上表现最佳。在主观指标方面,I³-CSS 在 N-DMOS(3.864)和 P-DMOS(3.876)上均优于所有基线方法。在客观指标方面,I³-CSS 在 MAE-P(0.450)、MAE-E(0.310)和 MAE-D(0.129)上也取得了最优结果。实验结果表明,通过建模多轮对话历史与目标语句之间的模态内与模态间交互,I³-CSS 可以更好地捕捉对话历史的语义和韵律变化,从而生成具有符合对话韵律的目标语音。

image.png

点击链接,即可跳转模型链接~

https://www.modelscope.cn/models/CoderJzq/IIICSS



目录
打赏
0
8
8
1
253
分享
相关文章
阿里云智能语音交互异步长文本语音合成接收回调Java示例
本文详细介绍如何使用异步长文本语音合成接收服务回调数据的Java示例
750 0
阿里云智能语音交互异步长文本语音合成接收回调Java示例
阿里云智能语音交互中长文本语音合成服务的restful api 中python3调用
智能语音交互产品基于语音识别、语音合成、自然语言理解等技术,实现“能听、会说、懂你”式的智能人机交互体验,适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景,长文本语音合成功能提供了将超长文本(如千字或者万字)合成为语音二进制数据的功能,此篇文章简单介绍基于python的简单调用
1162 0
阿里云智能语音交互中长文本语音合成服务的restful api 中python3调用
阿里云智能语音交互语音合成高频SSML标记语言使用介绍
SSML是一种基于XML的语音合成标记语言。与纯文本的合成相比,使用SSML可以充实合成的内容,为最终合成效果带来更多变化。SSML不仅控制语音合成能读什么,更能控制语音合成可以怎么读,包括控制断句分词方式、发音、速度、停顿、声调和音量等特征,甚至加入背景音乐。本文用来收录一些在使用过程中高频出现的标签
1522 0
阿里云智能语音交互--语音合成Java SDK使用示例
智能语音交互(Intelligent Speech Interaction)是基于语音识别、语音合成、自然语言理解等技术,为企业在多种实际应用场景下,赋予产品“能听、会说、懂你”式的智能人机交互功能。适用于智能问答、智能质检、法庭庭审实时记录、实时演讲字幕、访谈录音转写等场景,在金融、司法、电商等多个领域均有应用。语音合成通过先进的深度学习技术,可将文本转换成自然流畅的语音。目前有多种音色可供选择,并提供调节语速、语调、音量等功能。适用于智能客服、语音交互、文学有声阅读和无障碍播报等场景。本文将使用Java SDK演示语音合成服务的快速调用以供参考。
1471 1
阿里云智能语音交互语音合成Java SDK使用说明
语音合成为您提供将输入文本合成为语音二进制数据的功能。本文介绍如何使用阿里云智能语音服务提供的Java SDK,包括SDK的安装方法及SDK代码示例。
933 0
阿里云智能语音交互--长文本语音合成Java SDK Quick Start
智能语音交互(Intelligent Speech Interaction)是基于语音识别、语音合成、自然语言理解等技术,为企业在多种实际应用场景下,赋予产品“能听、会说、懂你”式的智能人机交互功能。适用于智能问答、智能质检、法庭庭审实时记录、实时演讲字幕、访谈录音转写等场景,在金融、司法、电商等多个领域均有应用。长文本语音合成服务可以将超长文本(十万字)合成为接近真人的语音服务,包含男女童音、多语言和方言(且拥有音频重复使用权),适用于文学伴读、新闻阅读等场景。本文将使用Java SDK演示长文本语音合成服务的快速调用以供参考。
1123 0
阿里云智能语音交互长文本语音合成Java SDK使用说明
长文本语音合成功能提供了将超长文本(如千字或者万字)合成为语音二进制数据的功能。本文介绍如何使用阿里云智能语音服务提供的Java SDK,包括SDK的安装方法及SDK代码示例。
612 0
LatentLM:微软联合清华大学推出的多模态生成模型,能够统一处理和生成图像、文本、音频和语音合成
LatentLM是由微软研究院和清华大学联合推出的多模态生成模型,能够统一处理离散和连续数据,具备高性能图像生成、多模态大型语言模型集成等功能,展现出卓越的多模态任务处理能力。
162 29
LatentLM:微软联合清华大学推出的多模态生成模型,能够统一处理和生成图像、文本、音频和语音合成
Fish Speech 1.5:Fish Audio 推出的零样本语音合成模型,支持13种语言
Fish Speech 1.5 是由 Fish Audio 推出的先进文本到语音(TTS)模型,支持13种语言,具备零样本和少样本语音合成能力,语音克隆延迟时间不到150毫秒。该模型基于深度学习技术如Transformer、VITS、VQVAE和GPT,具有高度准确性和快速合成能力,适用于多种应用场景。
468 3
Fish Speech 1.5:Fish Audio 推出的零样本语音合成模型,支持13种语言

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等