开发者学堂课程【达摩院智能语音交互 - 声纹识别技术:技术介绍】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/775/detail/13638
技术介绍
内容介绍
一、 含义
二、原型技术
三、关键点
四、声纹识别中常用的评价指标
从四个部分介绍达摩院声纹识别技术,首先介绍声纹的一些基本技术和梗概,然后大致介绍声纹识别系统的概述,之后介绍声纹的一些具体应用案例,最后列举一些具体参数指标
一、含义
1.声纹识别技术是说话人识别,基于每个发音人的发音器官构造不同识别当前发音人的身份。
2.声纹识别技术按照任务具体分为两种:
(1)声纹辨认∶从说话人集合中判别出测试语音所属的说话人,是一对多的问题。
(2)声纹确认∶已知一个目标说话人,判断这两条声音是否属于同一人。是一个是或者不是的确认问题。
3. 按照应用的文本内容具体分为两种:
(1)文本相关︰要求说话人使用指定的话语,通常包含与训练信息相同的文本,这样可以保证较高的精度和安全性。
(2)文本无关:说话人可以随意说话,对说话人的发音内容和语言没有特定的要求,这种方式受信道环境影响比较大,适用于对安全性要求不高,对便利性要求较高的场景。
二、原型技术
通常声纹识别的技术流程分为几块进行。
1、首先获得一段原始语音,对语音进行 Speech VAD 的提取,从而获得与说话人发音相关的一些信息,同时排除一些无用的背景声。
2、获取与说话人相关的语音后,进行特征参数的提取,提取的特征包括梅尔频谱,MCC,有时也会用到一些 peach 相关的信息,或者LPC 方面的一些频谱参数。
3、提取完前端特征之后,按这些特征输入进一个说话人识别模型中从而训练一个背景模型。通常使用的训练模型包括 GMM,HMM,这是通常常用的,后来也会用到 DNN,VQ 等模型。
4、通过训练得到模型提取到关于所有说话人的一些特征向量,对这些特征向量分类打分。常用的打分包括LR-Compute PLDA Classify Cosine Scoring余弦距离打分,如果加上后端的信道补偿技术通常使用LDA 或者 PLDA 打分。
三、关键点
下面是对声纹识别系统的性能的准确率有比较大影响的关键点
1、注册语音长度
注册语音越长系统性能越好。在实际应用中,获取长语音比较困难,可以通过用户历史语音的访问积累得到较长的注册语音,或者可以通过指定给用户文本,控制注册语音长度。
2、测试语音长度
在理想状况中,测试语音越长系统性能越好。在实际应用中,用户所通话的有效语音长度可以采用对话引导模式,让用户说出符合长度的注册文本。
3、多信道的影响
注册语音和测试语音的信道如果不同,系统性能会有比较大的折扣。所以在实际的应用中,可以对用户语音进行分类,同一个用户可以建立多个模型。也可以尽可能的收集到用户能在多个信道下的注册语音数据建立一个模型。
4、常用的应用场景包括远近场,电话、录音笔、麦克风等或者是在.端上与云上的声纹识别应用。
四、声纹识别中常用的评价指标
1、首先提出两个概念:“同”比对和“异”比对
“同”比对:A 的测试语音和 A 的注册语音进行比对。
“异”比对:B 的测试语音和说话人 A 的注册语音进行比对。
2、漏警与虚警
漏警:指正常进入反被拒绝,一次“同”比对,判决结果为“否”称为一次漏警。
虚警:指冒充成功,一次“异”比对,判决结果为“是”,称为一次虚警。
3、常用声纹识别的准确率的判别指标
(1)、漏警率︰漏警数和“同”比对总数的比值
(2)、虚警率∶虚警数和“异”比对总数的比值
(3)、等错率︰漏警率和虚警率相等时的值,也称为EER