语音合成简介|学习笔记

简介: 快速学习语音合成简介

开发者学堂课程【达摩院智能语音交互 - 语音合成技术:语音合成简介】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/46/detail/979


语音合成简介


本节课介绍一下语音合成技术。首先是语音合成的简介,这部分内容中会给大家介绍一下什么是语音合成技术,语音合成技术的一个应用场景,以及他的研究领域。然后会分别介绍一下传统的语音合成技术,端到端的语音合成技术,以及阿里的knowledge of new ts技术,最后是一些样音展示。

语音合成简介

接下来看一下语音合成简介。语音合成可以看成一个sequence to sequence的问题,与此类似的还有语音识别及其翻译。

1、语音合成技术

在语音识别里面,是从语音转化为文本。在机器翻译里面,是从一个语言的文本转化为另外一个语言的文本。在语音合成里面,则是从文本转化语音。下面是语音合成示意图。

image.png

首先输入一段文本,阿里云大学阿里云官方创新人才培养平台,经过合成系统,可以得到一个合成的语音,这个声音是合成的一个结果。

2、应用场景

语音合成的应用场景实际上十分广泛。比如说在一些语音助理里面,Apple Siri、 Google system 里面都用到了语音合成技术,语音合成技术,是语音助理的一个重要组成部分。在智能音箱里面,比如说 Google home、天猫精灵,需要对用户的需求进行响应,比如说用户对音响说讲个笑话,说播报天气播报新闻,智能音箱就需要通过语音合成技术对用户的需求进行一个反馈。

另外在一些地图导航软件里面,比如说高德地图,因为司机不方便时时看手机,就要通过与合成技术,对一些路线信息进行一个播报。

另外还有新闻客户端,也继承了语音合成技术,因为有些情况下用户不方便看手机,就可以选择语音合成,进行一些新闻播报。

另外还有智能客服,比如说拨打10086查话费,简单的一些功能通过人工成本是不合算的,通过一些智能客服,就可以通过语音合成技术,把对用户的一些需求进行一个反馈。还有一些呼叫中心,也用到了语音合成技术。

语音合成的研究领域,最主要的是文字到语音的转换,另外还有一些细分的方向。比如说个性化语音合成,用特定说话的音色来进行语音合成。还有一个方向是说话,转换它的输入,不是文本,是原说话的声音,经过双转换系统之后可以得到目标说话的声音。还有一个方向是歌唱合成,它的输入是歌词,输出是清唱的一个效果。

3、语音合成历史

语音合成研究历史可以追溯到18到19世纪基于机械专制的语音合成,而真正走向使用的是20世纪末基于统计参数的语音合成,达摩院与要求团队成立于2014年底,在2015年8月上线了基于参数的语音合成系统,包含两个voice,这是当时阿里云大学阿里云官方创新人才培养平台。

在2016年4月基于拼接的语音合成系统上线,达到了85%以上的智能接近程度。2016年10月,上线了基于大规模数据和深度神经网络的发音消息模型,2016年12月,上线了基于深度神经网络的病例模型。2017年12月,上线了全深度神经网络的语音合成技术解决方案。2018年11月,上线了 knowledge 系统,率先推出了下一代中文语音合成技术,达到了95%以上的智能接近程度。然后在2019年一月份,公有云上上线了16个 voice,包含了众多基于下一代技术的 voice,提供用户多种选择。

image.png

相关文章
|
机器学习/深度学习 自然语言处理 达摩院
语音合成技术|学习笔记
快速学习语音合成技术
407 0
语音合成技术|学习笔记
|
机器学习/深度学习 人工智能 自然语言处理
语音合成技术及应用 | 学习笔记
快速学习 语音合成技术及应用
331 0
语音合成技术及应用 | 学习笔记
|
算法 语音技术 开发工具
通过 SDK 使用语音合成功能 | 学习笔记
快速学习 通过 SDK 使用语音合成功能
138 0
|
人工智能 Java 语音技术
《阿里云AI产品必知必会系列电子书》——智能语音交互——语音合成QuickStart使用教程
《阿里云AI产品必知必会系列电子书》——智能语音交互——语音合成QuickStart使用教程
752 0
|
机器学习/深度学习 自然语言处理 搜索推荐
阿里云智能语音交互产品测评:基于语音识别、语音合成、自然语言理解等技术
智能语音交互基于语音识别、语音合成、自然语言理解等技术,实现“能听、会说、懂你”式的智能人机交互体验,适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景。 目前已上线实时语音识别、一句话识别、录音文件识别、语音合成等多款产品,您可以在控制台页面进行试用,也可以通过API调用相关能力。
43881 4
阿里云智能语音交互产品测评:基于语音识别、语音合成、自然语言理解等技术
|
自然语言处理 API 语音技术
阿里云语音合成,录音文件识别,自然语言分析,rest 调用 python实现
阿里云语音合成,录音文件识别,自然语言分析,rest 调用 python实现
293 0
阿里云语音合成,录音文件识别,自然语言分析,rest 调用 python实现
|
XML 语音技术 数据格式
status: 41020001, status_text: TTS:TtsClientError:Illegal ssml text阿里云语音合成报错处理分享
使用阿里云语音合成ssml标签报错,不知该如何查找错误地方,可以参考下以下的内容
639 0
status: 41020001, status_text: TTS:TtsClientError:Illegal ssml text阿里云语音合成报错处理分享
|
Java 语音技术 微服务
阿里云智能语音交互异步长文本语音合成接收回调Java示例
本文详细介绍如何使用异步长文本语音合成接收服务回调数据的Java示例
672 0
阿里云智能语音交互异步长文本语音合成接收回调Java示例
|
自然语言处理 Java 人机交互
阿里云长文本语音合成接口的JavaSDK调用
智能语音交互(Intelligent Speech Interaction),是基于语音识别、语音合成、自然语言理解等技术,为企业在多种实际应用场景下,赋予产品“能听、会说、懂你”式的智能人机交互体验。适用于多个应用场景中,包括智能问答、智能质检、法庭庭审实时记录、实时演讲字幕、访谈录音转写等场景,在金融、保险、司法、电商等多个领域均有应用案例。本文介绍如何使用阿里云智能语音服务提供的长文本语音合成Java SDK,包括SDK的安装方法及SDK代码示例。
701 0
阿里云长文本语音合成接口的JavaSDK调用
|
自然语言处理 人机交互 语音技术
阿里云语音合成接口的JavaSDK调用
智能语音交互(Intelligent Speech Interaction),是基于语音识别、语音合成、自然语言理解等技术,为企业在多种实际应用场景下,赋予产品“能听、会说、懂你”式的智能人机交互体验。适用于多个应用场景中,包括智能问答、智能质检、法庭庭审实时记录、实时演讲字幕、访谈录音转写等场景,在金融、保险、司法、电商等多个领域均有应用案例,其中,语音合成为您提供将输入文本合成为语音二进制数据的功能。此篇文章简单介绍下JavaSDK方式调用此服务
1302 0
阿里云语音合成接口的JavaSDK调用

热门文章

最新文章