语音合成简介|学习笔记

简介: 快速学习语音合成简介

开发者学堂课程【达摩院智能语音交互 - 语音合成技术:语音合成简介】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/46/detail/979


语音合成简介


本节课介绍一下语音合成技术。首先是语音合成的简介,这部分内容中会给大家介绍一下什么是语音合成技术,语音合成技术的一个应用场景,以及他的研究领域。然后会分别介绍一下传统的语音合成技术,端到端的语音合成技术,以及阿里的knowledge of new ts技术,最后是一些样音展示。

语音合成简介

接下来看一下语音合成简介。语音合成可以看成一个sequence to sequence的问题,与此类似的还有语音识别及其翻译。

1、语音合成技术

在语音识别里面,是从语音转化为文本。在机器翻译里面,是从一个语言的文本转化为另外一个语言的文本。在语音合成里面,则是从文本转化语音。下面是语音合成示意图。

image.png

首先输入一段文本,阿里云大学阿里云官方创新人才培养平台,经过合成系统,可以得到一个合成的语音,这个声音是合成的一个结果。

2、应用场景

语音合成的应用场景实际上十分广泛。比如说在一些语音助理里面,Apple Siri、 Google system 里面都用到了语音合成技术,语音合成技术,是语音助理的一个重要组成部分。在智能音箱里面,比如说 Google home、天猫精灵,需要对用户的需求进行响应,比如说用户对音响说讲个笑话,说播报天气播报新闻,智能音箱就需要通过语音合成技术对用户的需求进行一个反馈。

另外在一些地图导航软件里面,比如说高德地图,因为司机不方便时时看手机,就要通过与合成技术,对一些路线信息进行一个播报。

另外还有新闻客户端,也继承了语音合成技术,因为有些情况下用户不方便看手机,就可以选择语音合成,进行一些新闻播报。

另外还有智能客服,比如说拨打10086查话费,简单的一些功能通过人工成本是不合算的,通过一些智能客服,就可以通过语音合成技术,把对用户的一些需求进行一个反馈。还有一些呼叫中心,也用到了语音合成技术。

语音合成的研究领域,最主要的是文字到语音的转换,另外还有一些细分的方向。比如说个性化语音合成,用特定说话的音色来进行语音合成。还有一个方向是说话,转换它的输入,不是文本,是原说话的声音,经过双转换系统之后可以得到目标说话的声音。还有一个方向是歌唱合成,它的输入是歌词,输出是清唱的一个效果。

3、语音合成历史

语音合成研究历史可以追溯到18到19世纪基于机械专制的语音合成,而真正走向使用的是20世纪末基于统计参数的语音合成,达摩院与要求团队成立于2014年底,在2015年8月上线了基于参数的语音合成系统,包含两个voice,这是当时阿里云大学阿里云官方创新人才培养平台。

在2016年4月基于拼接的语音合成系统上线,达到了85%以上的智能接近程度。2016年10月,上线了基于大规模数据和深度神经网络的发音消息模型,2016年12月,上线了基于深度神经网络的病例模型。2017年12月,上线了全深度神经网络的语音合成技术解决方案。2018年11月,上线了 knowledge 系统,率先推出了下一代中文语音合成技术,达到了95%以上的智能接近程度。然后在2019年一月份,公有云上上线了16个 voice,包含了众多基于下一代技术的 voice,提供用户多种选择。

image.png

相关文章
|
机器学习/深度学习 自然语言处理 达摩院
语音合成技术|学习笔记
快速学习语音合成技术
573 0
语音合成技术|学习笔记
|
算法 语音技术 开发工具
通过 SDK 使用语音合成功能 | 学习笔记
快速学习 通过 SDK 使用语音合成功能
185 0
|
机器学习/深度学习 人工智能 自然语言处理
语音合成技术及应用 | 学习笔记
快速学习 语音合成技术及应用
488 0
语音合成技术及应用 | 学习笔记
|
算法 语音技术
基于MFCC特征提取和HMM模型的语音合成算法matlab仿真
基于MFCC特征提取和HMM模型的语音合成算法matlab仿真
|
7天前
|
人工智能 数据处理 语音技术
LatentLM:微软联合清华大学推出的多模态生成模型,能够统一处理和生成图像、文本、音频和语音合成
LatentLM是由微软研究院和清华大学联合推出的多模态生成模型,能够统一处理离散和连续数据,具备高性能图像生成、多模态大型语言模型集成等功能,展现出卓越的多模态任务处理能力。
63 29
LatentLM:微软联合清华大学推出的多模态生成模型,能够统一处理和生成图像、文本、音频和语音合成
|
16天前
|
机器学习/深度学习 人工智能 Linux
Fish Speech 1.5:Fish Audio 推出的零样本语音合成模型,支持13种语言
Fish Speech 1.5 是由 Fish Audio 推出的先进文本到语音(TTS)模型,支持13种语言,具备零样本和少样本语音合成能力,语音克隆延迟时间不到150毫秒。该模型基于深度学习技术如Transformer、VITS、VQVAE和GPT,具有高度准确性和快速合成能力,适用于多种应用场景。
89 3
Fish Speech 1.5:Fish Audio 推出的零样本语音合成模型,支持13种语言
|
4月前
|
自然语言处理 语音技术 开发者
ChatTTS超真实自然的语音合成模型
ChatTTS超真实自然的语音合成模型
151 3
|
5月前
|
机器学习/深度学习 TensorFlow 语音技术
使用Python实现深度学习模型:语音合成与语音转换
【7月更文挑战第19天】 使用Python实现深度学习模型:语音合成与语音转换
116 1
|
6月前
|
语音技术
【手把手教学】最新ChatTTS语音合成项目使用指南【附所有源码与模型】
【手把手教学】最新ChatTTS语音合成项目使用指南【附所有源码与模型】
|
7月前
|
自然语言处理 文字识别 Linux
ModelScope运行语音合成模型的官网代码示例报错如何解决
ModelScope模型报错是指在使用ModelScope平台进行模型训练或部署时遇到的错误和问题;本合集将收集ModelScope模型报错的常见情况和排查方法,帮助用户快速定位问题并采取有效措施。
196 0

热门文章

最新文章