学习中心> 达摩院智能语音交互 - 声纹识别技术> 正文

达摩院智能语音交互 - 声纹识别技术

4课时 |
2646人已学 |
免费
课程介绍

声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种:

  • 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题
  • 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是)

按照应用具体分为两种:

  • 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式)
  • 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高

本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。

讲师介绍:

郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。

技术介绍

 

内容介绍

一、含义
二、原型技术
三、关键点

四、声纹识别中常用的评价指标

 

从四个部分介绍达摩院声纹识别技术,首先介绍声纹的一些基本技术和梗概,然后大致介绍声纹识别系统的概述,之后介绍声纹的一些具体应用案例,最后列举一些具体参数指标

一、含义

1. 声纹识别技术是说话人识别,基于每个发音人的发音器官构造不同识别当前发音人的身份。

2. 声纹识别技术按照任务具体分为两种:

(1)声纹辨认∶从说话人集合中判别出测试语音所属的说话人,是一对多的问题。

(2)声纹确认∶已知一个目标说话人,判断这两条声音是否属于同一人。是一个是或者不是的确认问题。

  1. 按照应用的文本内容具体分为两种:

(1)文本相关︰要求说话人使用指定的话语,通常包含与训练信息相同的文本,这样可以保证较高的精度和安全性。

(2)文本无关:说话人可以随意说话,对说话人的发音内容和语言没有特定的要求,这种方式受信道环境影响比较大,适用于对安全性要求不高,对便利性要求较高的场景。

 

二、原型技术

通常声纹识别的技术流程分为几块进行。

1、首先获得一段原始语音,对语音进行 Speech VAD 的提取,从而获得与说话人发音相关的一些信息,同时排除一些无用的背景声。

2、获取与说话人相关的语音后,进行特征参数的提取,提取的特征包括梅尔频谱,MCC,有时也会用到一些 peach 相关的信息,或者LPC 方面的一些频谱参数。

3、提取完前端特征之后,按这些特征输入进一个说话人识别模型中从而训练一个背景模型。通常使用的训练模型包括 GMM,HMM,这是通常常用的,后来也会用到 DNN,VQ 等模型。

4、通过训练得到模型提取到关于所有说话人的一些特征向量,对这些特征向量分类打分。常用的打分包括 LR-Compute PLDA Classify Cosine Scoring余弦距离打分,如果加上后端的信道补偿技术通常使用 LDA 或者 PLDA 打分。

 

三、关键点

下面是对声纹识别系统的性能的准确率有比较大影响的关键点

1、注册语音长度

注册语音越长系统性能越好。在实际应用中,获取长语音比较困难,可以通过用户历史语音的访问积累得到较长的注册语音,或者可以通过指定给用户文本,控制注册语音长度。

2、测试语音长度

在理想状况中,测试语音越长系统性能越好。在实际应用中,用户所通话的有效语音长度可以采用对话引导模式,让用户说出符合长度的注册文本。

3、多信道的影响

注册语音和测试语音的信道如果不同,系统性能会有比较大的折扣。所以在实际的应用中,可以对用户语音进行分类,同一个用户可以建立多个模型。也可以尽可能的收集到用户能在多个信道下的注册语音数据建立一个模型。

4、常用的应用场景包括远近场,电话、录音笔、麦克风等或者是在.端上与云上的声纹识别应用。

 

四、声纹识别中常用的评价指标

1、首先提出两个概念:“同”比对和“异”比对

“同”比对:A 的测试语音和 A 的注册语音进行比对。

“异”比对:B 的测试语音和说话人 A 的注册语音进行比对。

2、漏警与虚警

漏警:指正常进入反被拒绝,一次“同”比对,判决结果为“否”称为一次漏警。

虚警:指冒充成功,一次“异”比对,判决结果为“是”,称为一次虚警。

3、常用声纹识别的准确率的判别指标

(1)、漏警率︰漏警数和“同”比对总数的比值

(2)、虚警率∶虚警数和“异”比对总数的比值

(3)、等错率︰漏警率和虚警率相等时的值,也称为 EER

我的学习进度
请登录后查看您的学习进度!
立即登录
本课程相关云产品