达摩院 KAN-TTS|学习笔记

简介: 快速学习达摩院 KAN-TTS

开发者学堂课程【达摩院智能语音交互 - 语音合成技术达摩院KAN-TTS】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/46/detail/981


达摩院KAN-TTS


KAN-TTS

Knowledge-aware Neural TTS 系统中,结合传统语音合成技术与端到端语音合成技术。输入的文本经过与传统语音合成系统类似的模块,得到相应的语言学信息。

image.png

这些语言学信息再输入端到端模型进行建模,没有采用所有的语言学信息,因为经过细致的分析和实验,仅采用这些原学信息可以获得比采用所有语言学特征更好的效果。

为了进一步提高合成效果以及稳定性,还利用了上百个人的几百小时数据,构建了基于海量数据的多翻译成语音合成系统,并在多翻译能模型的基础上,尝试了针对特定发音人,特定风格数据的迁移学习。

实验结果表明,采用迁移学习后,合成效果得到了进一步提升,逼近了真实录音的效果。

之前介绍过端到端系统中存在效果不稳定的问题,最主要的是丢字漏字问题,以及多音字的发音错误问题,因为端到端系统直接输入文本,音库对于文本以及多音字的覆盖率是比较有限的。

在系统中,结合了传统的语音合成系统,其中利用了海量文本,相关数据训练的高稳定性的文本分析模块。在合成语音的稳定性上,可以得到传统语音合成系统相当的一个效果。

KAN-TTS优势

(1)优势一:高表现力

Knowledge-aware Neural TTS 系统相对于传统的 TTS 系统具有两大优势,一个是高表现力。

MOS是云合成领域主观测试打分标准,满分为五分,为了便于衡量合成语音与录音的差距,将录音的MOS作为基准,将各系统的MOS除以录音的MOS,分子越接近于百分百,说明合成的效果越好,录音的得分,始终为百分百。

image.png

从图上可以看到,传统的拼接合成系统和传统的参数系统分别可以获得85%-90%的接近录音程度,采用了 Knowledge-aware Neural TTS 系统,新歌 speaker 数据也可获得95%以上的接近录音的程度,采用了多发音能以及迁移学习技术之后,可以获得97%以上的相似度。可以听一下案例,例举了三个例子

传统的拼接合成系统的合成效果。

传统的参数合成的效果。

现在的合成效果。

(2)超低成本

第二个优势,是超低成本,现在这种定制方案相对于传统的定制方案,在需要的用户规模、需要的录音时间以及以及录音的成本上,相对于传统方案都有明显的一个优势

相关文章
|
7月前
|
人工智能 算法 机器人
Claude 3超越ChatGPT4与Gemini Ultra
Claude 3超越ChatGPT4与Gemini Ultra
166 6
|
14天前
|
人工智能 文字识别 测试技术
Florence-VL:微软和马里兰大学共同开源的多模态大语言模型
Florence-VL是由微软和马里兰大学共同开源的多模态大语言模型,结合生成式视觉基础模型Florence-2和深度-广度融合技术,实现视觉与语言理解的深度融合,适用于多种下游任务。
100 29
Florence-VL:微软和马里兰大学共同开源的多模态大语言模型
|
22天前
|
机器学习/深度学习 人工智能 自然语言处理
Voice-Pro:开源AI音频处理工具,集成转录、翻译、TTS等一站式服务
Voice-Pro是一款开源的多功能音频处理工具,集成了语音转文字、文本转语音、实时翻译、YouTube视频下载和人声分离等多种功能。它支持超过100种语言,适用于教育、娱乐和商业等多个领域,为用户提供一站式的音频处理解决方案,极大地提高工作效率和音频处理的便捷性。
92 10
Voice-Pro:开源AI音频处理工具,集成转录、翻译、TTS等一站式服务
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
GLM-Edge:智谱开源的端侧大语言和多模态系列模型
GLM-Edge是智谱开源的一系列端侧部署优化的大语言对话模型和多模态理解模型,旨在实现模型性能、实机推理效果和落地便利性之间的最佳平衡。该系列模型支持在手机、车机和PC等端侧设备上高效运行,适用于智能助手、聊天机器人、图像标注等多种应用场景。
57 7
GLM-Edge:智谱开源的端侧大语言和多模态系列模型
|
27天前
|
机器学习/深度学习 人工智能 自然语言处理
LTX Video:Lightricks推出的开源AI视频生成模型
LTX Video是由Lightricks推出的开源AI视频生成模型,能够在4秒内生成5秒的高质量视频。该模型基于2亿参数的DiT架构,确保帧间平滑运动和结构一致性,支持长视频制作,适用于多种场景,如游戏图形升级和电子商务广告变体制作。
93 1
LTX Video:Lightricks推出的开源AI视频生成模型
|
2月前
|
人工智能 JSON API
利用TTS技术让你的AI Agent发声
【10月更文挑战第5天】
110 4
利用TTS技术让你的AI Agent发声
|
24天前
|
数据采集 文字识别 测试技术
智谱开源端侧大语言和多模态模型GLM-Edge系列!
GLM-Edge系列模型是由智谱开源,专为端侧应用设计的大语言对话模型和多模态理解模型,包括GLM-Edge-1.5B-Chat、GLM-Edge-4B-Chat、GLM-Edge-V-2B和GLM-Edge-V-5B四种尺寸。这些模型针对手机、车机及PC等不同平台进行了优化,通过量化的技术手段,实现了高效运行。例如,在高通骁龙8 Elite平台上,1.5B对话模型和2B多模态模型能够达到每秒60 tokens以上的解码速度,而通过应用投机采样技术,这一数字可提升至100 tokens以上。
智谱开源端侧大语言和多模态模型GLM-Edge系列!
|
1月前
|
机器学习/深度学习 人工智能 测试技术
NeurIPS D&B 2024 突破短视频局限!MMBench-Video解读MLLM视频理解能力
GPT-4o 四月发布会掀起了视频理解的热潮,而开源领军者Qwen2也对视频毫不手软,在各个视频评测基准上狠狠秀了一把肌肉。
|
2月前
|
人工智能 小程序 语音技术
GLM-4-Voice,智谱开源版“Her”来了!
智谱 AI 推出并开源端到端语音模型 GLM-4-Voice!GLM-4-Voice 能够直接理解和生成中英文语音,进行实时语音对话,并且能够遵循用户的指令要求改变语音的情感、语调、语速、方言等属性。
|
2月前
|
自然语言处理 语音技术
交大x-lance跨媒体语言智能实验室等联合开源F5-TTS!零样本语音复刻,生成流畅,情感丰富!
上海交大x-lance跨媒体语言智能实验室联合剑桥大学、吉利汽车研究院(宁波)公司开源了一种基于流匹配的扩散变换器(Diffusion Transformer,DiT)的完全非自回归TTS模型-F5-TTS。