语音合成简介|学习笔记

简介: 快速学习语音合成简介

开发者学堂课程【达摩院智能语音交互 - 语音合成技术:语音合成简介】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/46/detail/979


语音合成简介


本节课介绍一下语音合成技术。首先是语音合成的简介,这部分内容中会给大家介绍一下什么是语音合成技术,语音合成技术的一个应用场景,以及他的研究领域。然后会分别介绍一下传统的语音合成技术,端到端的语音合成技术,以及阿里的knowledge of new ts技术,最后是一些样音展示。

语音合成简介

接下来看一下语音合成简介。语音合成可以看成一个sequence to sequence的问题,与此类似的还有语音识别及其翻译。

1、语音合成技术

在语音识别里面,是从语音转化为文本。在机器翻译里面,是从一个语言的文本转化为另外一个语言的文本。在语音合成里面,则是从文本转化语音。下面是语音合成示意图。

image.png

首先输入一段文本,阿里云大学阿里云官方创新人才培养平台,经过合成系统,可以得到一个合成的语音,这个声音是合成的一个结果。

2、应用场景

语音合成的应用场景实际上十分广泛。比如说在一些语音助理里面,Apple Siri、 Google system 里面都用到了语音合成技术,语音合成技术,是语音助理的一个重要组成部分。在智能音箱里面,比如说 Google home、天猫精灵,需要对用户的需求进行响应,比如说用户对音响说讲个笑话,说播报天气播报新闻,智能音箱就需要通过语音合成技术对用户的需求进行一个反馈。

另外在一些地图导航软件里面,比如说高德地图,因为司机不方便时时看手机,就要通过与合成技术,对一些路线信息进行一个播报。

另外还有新闻客户端,也继承了语音合成技术,因为有些情况下用户不方便看手机,就可以选择语音合成,进行一些新闻播报。

另外还有智能客服,比如说拨打10086查话费,简单的一些功能通过人工成本是不合算的,通过一些智能客服,就可以通过语音合成技术,把对用户的一些需求进行一个反馈。还有一些呼叫中心,也用到了语音合成技术。

语音合成的研究领域,最主要的是文字到语音的转换,另外还有一些细分的方向。比如说个性化语音合成,用特定说话的音色来进行语音合成。还有一个方向是说话,转换它的输入,不是文本,是原说话的声音,经过双转换系统之后可以得到目标说话的声音。还有一个方向是歌唱合成,它的输入是歌词,输出是清唱的一个效果。

3、语音合成历史

语音合成研究历史可以追溯到18到19世纪基于机械专制的语音合成,而真正走向使用的是20世纪末基于统计参数的语音合成,达摩院与要求团队成立于2014年底,在2015年8月上线了基于参数的语音合成系统,包含两个voice,这是当时阿里云大学阿里云官方创新人才培养平台。

在2016年4月基于拼接的语音合成系统上线,达到了85%以上的智能接近程度。2016年10月,上线了基于大规模数据和深度神经网络的发音消息模型,2016年12月,上线了基于深度神经网络的病例模型。2017年12月,上线了全深度神经网络的语音合成技术解决方案。2018年11月,上线了 knowledge 系统,率先推出了下一代中文语音合成技术,达到了95%以上的智能接近程度。然后在2019年一月份,公有云上上线了16个 voice,包含了众多基于下一代技术的 voice,提供用户多种选择。

image.png

相关文章
|
机器学习/深度学习 自然语言处理 达摩院
语音合成技术|学习笔记
快速学习语音合成技术
513 0
语音合成技术|学习笔记
|
算法 语音技术 开发工具
通过 SDK 使用语音合成功能 | 学习笔记
快速学习 通过 SDK 使用语音合成功能
178 0
|
机器学习/深度学习 人工智能 自然语言处理
语音合成技术及应用 | 学习笔记
快速学习 语音合成技术及应用
451 0
语音合成技术及应用 | 学习笔记
|
算法 语音技术
基于MFCC特征提取和HMM模型的语音合成算法matlab仿真
基于MFCC特征提取和HMM模型的语音合成算法matlab仿真
|
3月前
|
自然语言处理 语音技术 开发者
ChatTTS超真实自然的语音合成模型
ChatTTS超真实自然的语音合成模型
123 3
|
4月前
|
机器学习/深度学习 TensorFlow 语音技术
使用Python实现深度学习模型:语音合成与语音转换
【7月更文挑战第19天】 使用Python实现深度学习模型:语音合成与语音转换
92 1
|
5月前
|
语音技术
【手把手教学】最新ChatTTS语音合成项目使用指南【附所有源码与模型】
【手把手教学】最新ChatTTS语音合成项目使用指南【附所有源码与模型】
|
6月前
|
自然语言处理 文字识别 Linux
ModelScope运行语音合成模型的官网代码示例报错如何解决
ModelScope模型报错是指在使用ModelScope平台进行模型训练或部署时遇到的错误和问题;本合集将收集ModelScope模型报错的常见情况和排查方法,帮助用户快速定位问题并采取有效措施。
182 0
|
6月前
|
自然语言处理 搜索推荐 PyTorch
ModelScope问题之NoteBook训练个性化语音合成模型报错如何解决
ModelScope训练是指在ModelScope平台上对机器学习模型进行训练的活动;本合集将介绍ModelScope训练流程、模型优化技巧和训练过程中的常见问题解决方法。
103 0
|
6月前
|
监控 语音技术 异构计算
使用开源的模型(像speech_sambert-hifigan_tts_zhida_zh-cn_16k)进行语音合成任务的推理时,推理速度太慢了,500字大约需要1分钟,为什么会这么慢
使用开源的模型(像speech_sambert-hifigan_tts_zhida_zh-cn_16k)进行语音合成任务的推理时,推理速度太慢了,500字大约需要1分钟,为什么会这么慢
564 2