开发者学堂课程【达摩院智能语音交互 - 语音合成技术:语音合成简介】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/46/detail/979
语音合成简介
本节课介绍一下语音合成技术。首先是语音合成的简介,这部分内容中会给大家介绍一下什么是语音合成技术,语音合成技术的一个应用场景,以及他的研究领域。然后会分别介绍一下传统的语音合成技术,端到端的语音合成技术,以及阿里的knowledge of new ts技术,最后是一些样音展示。
语音合成简介
接下来看一下语音合成简介。语音合成可以看成一个sequence to sequence的问题,与此类似的还有语音识别及其翻译。
1、语音合成技术
在语音识别里面,是从语音转化为文本。在机器翻译里面,是从一个语言的文本转化为另外一个语言的文本。在语音合成里面,则是从文本转化语音。下面是语音合成示意图。
首先输入一段文本,阿里云大学阿里云官方创新人才培养平台,经过合成系统,可以得到一个合成的语音,这个声音是合成的一个结果。
2、应用场景
语音合成的应用场景实际上十分广泛。比如说在一些语音助理里面,Apple Siri、 Google system 里面都用到了语音合成技术,语音合成技术,是语音助理的一个重要组成部分。在智能音箱里面,比如说 Google home、天猫精灵,需要对用户的需求进行响应,比如说用户对音响说讲个笑话,说播报天气播报新闻,智能音箱就需要通过语音合成技术对用户的需求进行一个反馈。
另外在一些地图导航软件里面,比如说高德地图,因为司机不方便时时看手机,就要通过与合成技术,对一些路线信息进行一个播报。
另外还有新闻客户端,也继承了语音合成技术,因为有些情况下用户不方便看手机,就可以选择语音合成,进行一些新闻播报。
另外还有智能客服,比如说拨打10086查话费,简单的一些功能通过人工成本是不合算的,通过一些智能客服,就可以通过语音合成技术,把对用户的一些需求进行一个反馈。还有一些呼叫中心,也用到了语音合成技术。
语音合成的研究领域,最主要的是文字到语音的转换,另外还有一些细分的方向。比如说个性化语音合成,用特定说话的音色来进行语音合成。还有一个方向是说话,转换它的输入,不是文本,是原说话的声音,经过双转换系统之后可以得到目标说话的声音。还有一个方向是歌唱合成,它的输入是歌词,输出是清唱的一个效果。
3、语音合成历史
语音合成研究历史可以追溯到18到19世纪基于机械专制的语音合成,而真正走向使用的是20世纪末基于统计参数的语音合成,达摩院与要求团队成立于2014年底,在2015年8月上线了基于参数的语音合成系统,包含两个voice,这是当时阿里云大学阿里云官方创新人才培养平台。
在2016年4月基于拼接的语音合成系统上线,达到了85%以上的智能接近程度。2016年10月,上线了基于大规模数据和深度神经网络的发音消息模型,2016年12月,上线了基于深度神经网络的病例模型。2017年12月,上线了全深度神经网络的语音合成技术解决方案。2018年11月,上线了 knowledge 系统,率先推出了下一代中文语音合成技术,达到了95%以上的智能接近程度。然后在2019年一月份,公有云上上线了16个 voice,包含了众多基于下一代技术的 voice,提供用户多种选择。