开发者学习笔记【阿里云人工智能工程师ACA认证(2023版):智能语音技术的相关技术(二)】
课程地址:https://edu.aliyun.com/course/3112108/lesson/19285
智能语音技术的相关技术(二)
三、语音唤醒技术介绍
1、语音唤醒技术的定义
语音唤醒技术,它其实是语音识别任务的一个分支,它有叫关键词检测Kws,keyword。语音唤醒技术指的是在一串语音流里面预先检测出预先定义的激活词或者是关键词。这个过程并不需要给所有的语音进行识别,这种技术是单手机智能音箱是他们能够拥有语音交互能力的基础,除了我们画出来的像手机,智能音箱这种可能。还有机器人,智能家居,还有车载的设备和端穿戴的设备等等。比如天猫精灵的环境键词就是天猫灵,语音唤醒技术其实很容易理解,就是当你说出这个唤醒词之后,你的设备就被你叫醒了有点像咒语啊,有点像阿里巴巴十大道里面的个芝麻,这个门就打开了。虽然它是语音识别任务的一个分支,但实际上它他对于这个语音识别的准确率还有一些使用场景的要求是不同的,所以说语音唤醒技术呢,会单独的拿出来解释,
1、语音唤醒模型的实现流程。
语音唤醒模型的实现流程语音唤醒能力,它主要依赖于语音唤醒模型的支持,这也是语音唤醒技术的核心。
一般的是,内语音唤醒模型,大概需要4个步骤,训练的流程如图,首先第一步是要定义唤醒词,定义唤醒词有下面几个要求,或者说几个原则,首先第一个是易唤醒,你的定义的唤醒词不能太长,然后是要低唤醒这个低物唤性的,要求你的唤醒词也不能太短,也不能是太常见的发音,还要跟其他很容易发出的音,避免出现重构的情况,要不然就会出现频繁的勿唤醒,可能没有真的想去叫醒他,他就一直会启动被唤醒,所以一般这个唤醒词都定义你在两三个词,三四个字,三四个音节。第三个原则是品牌性,这个唤醒词一般会跟你的品牌有关系,比如说天猫的产品都叫天猫精灵。你喊他的说候,天猫精灵,比如说高德地图,第4个原则是一记一读,一读就叫就好,说了一记,也很重要,就像那个台门语一样,没有记住的话,就不用打开了。定义好了,唤醒词之后,接下来要收集发音的,收集这个发音的数据一定要注意下面两点。
一个是发音的清晰程度,一个是收集,要收集相近的音件,从理论上来说是发音的人越多,发音的场景越丰富,那它唤醒唤醒的效果就会越好,收体的时候要考虑发音的清晰程度,有时候甚至要把相细的音节也放到训练模型,防止用户因为发音的问题导致无法唤醒。如果用果用户的群体非常庞大,有很多人是使用方言的,那么也要考虑这个唤像词收集,它的方言的发音。在收集准备完数据之后,就可以构建模型了,就开始使用这些数据进行训练,这个时候我们会使用到深度学习的算法。经过训练得到这个模型之后,就可以开始测试,测试通过,然后就可以上线,那么在使用的过程中还可能进行迭代,测试的时候,一般会分为性能测试和效果测试,性能测试,包括响应时间,工耗并发。用户可能会更关注效果测试,具体的效果测试会考虑唤醒率啊,勿换率。理解起来也理解起来也很简单,唤醒率就是我在呼唤它的时候有多少情况下是能把它唤醒的。呼唤率就是这种指标,这种叫唤醒的性能,那如果语音唤醒模型正式上线了之后,还可还是可以继续收集用户的唤醒数据。然后重复训练复迭代,唤醒模型的效果就会越来越好,会不断的得到提升。以上就是语音唤醒模型的实现流程几个阶段先定义,然后收集数据进行学习训练,训练完之后,进行测试和迭代。
四、智能语音技术的相关技术
1、语音合成技术的定义
语音合成技术的定义,什么是语音合成技术?
是一种通过机械的,电子的方法产生人造语音的技术。这里合成就是把这个声音造出来。这种技术就叫文语转换。Tt s就是text tt s,因为我们大部分的时候输入的都是文本,语音合成针对的是怎么样把文本转换成相应的语音,我们希望能够语音合成技术,能够把任意输入的文本都能转换成语音,可以将基本语音信息数字化,并利用计算机系统仿真出人类的声音,比如说这里输入的文字是文本,
那经过语音合成技术之后呢?希望能输出音频。这个过程有点像我们人看到之后去读,语音合成技术跟人去读是很类似的,所以有时候把语音合成技术,去分成语言分析的部分,或者叫前端部分和后端部分。
2、语音合成技术的原理——传统语音合成
我们来研究一下语音合成技术的原理,我们来看一下语音合成技术里面的传统的语音合成的方式,传统的语音合成分成两个部分,一部分是前面的,语言分析部分,然后是升学系统部分。
拿到文本之后,我们先要做语言分析,语言分析是根据输入的文字信息进行分析生成的,叫语言学规格书,这个生成语言学规格书,这个主要有以下的阶段,输入文本,然后句子结构分析文本,政策文本转因素及韵律预测。升学系统部分是根据前面语言分析部分得到的结果,然后用一定的方法去生成语音模型,但是目前这个部分能够仍然需要人工的界定,人工可以来挑选规则和参数,这个过程。语言分析分部分,其实跟我们看到一段文字把它读出来是一样的过程,我们看到文字之后,一样也要分析句子是怎么样的,文本是怎么拆分,比如说怎么分词,然后该想上该怎么读出来。在通过发生,通过控制你的这个发生的机官发声音发出来,传统的语音合成系统都是非常复杂的系统,比如说前端,我们叫语言分析部分是前端,前端需要很强的语言学的背景,并且不同语言的语言学的知识差别还非常明显,因此可能需要特定的专家的支持,那后端的模块里面的参数,它是对语音的发送机理要有一定的的了解,由于传统的参数模型在建模是它存在信息损失,限制了合成语音的表现力的提升,而后端的这个拼接系统他对语音数据库的要求又非常高,需要人工介入,整体上来说,这个传统的语音合成已经发展好多年了,现在的基础也算是很成熟,有一些接的这个配音已经达到了能够以假论真的程度和用文本去合成的语音,可能不注意的话,已经听不出来是用语音合成技术做出来的。
3、语音合成技术的原理——端到端语音合成
下面我们来谈一下端到端语音合成,传统的语音合成技术都是基于拼接和参数合成的的技术,它在效果上跟真人的这种语言的自然度还是有一点差距的,效果已经到了上线,它在实现上也比较依赖于复杂的流水线,也能看到它的成本非常高,然后为了解决传统语音合成的弊端,促进了我们现在要说的端到端语音合成的出现。研究者本人希望能够使这个合成系统能够尽量的简化,减少人工干预对语言写相关背景知识的要求。所谓端到端,其实就是直接从字符文本来合成语音这种方式打破了那以前那种各个传统组件之间的壁垒。这种方式,它是从文本的文本到声音文本到这个音频到声音。
在这个文本声音配备的推配对的这个字符集上,完全的随机的来从头训练。
从论文来看,它的这个合成的效果是比传统的方法要好的。它的这种方式就降低了对语言学知识的要求,然后很容易在不同语种上进行复制,还可以批量的实现更多一种的合成系统,并且很有意思的是,这种端到端语音合成系统还表现出强大的发音风格和韵律表现力,说端到端语音合成这么多的优点,但是它也存在一点问题,它的灵活性会降低,比如说不能对生存的语音进行调优。
五、本节回顾
本节回顾通过本节的学习,我们学习到了语音降噪与增强,云音降噪,从带有噪声的语音信号里面去提取出来云信号一直噪声,降低噪声的干扰,云音识别云声识别就是让机器识别和理解把语音性信号转换成相应的文本或者是命令。
语音唤醒检测出预先定义的这个激活词关键词,它不是对所有的语音进行识别,比如说天猫精灵语音合成技术,语音合成就是将基本的语音信息数字化,然后让计算机模仿出人类的声音。