【技术揭秘】使用无监督方式训练声纹识别模型的探索-阿里云开发者社区

【技术揭秘】使用无监督方式训练声纹识别模型的探索

2021-07-09 801

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在声纹识别的应用中，常遇到的一个挑战是，应用场景需求的多样性、复杂性、以及明显的信道差异，使得基础声纹模型无法适配多个场景，声纹识别效果不理想。在跨信道、跨领域时，声纹识别性能会明显下降。为确保高准确率，通常需要针对应用场景精确地标注数据，从而优化训练出特定模型。然而，昂贵的标注成本意味着无法对众多独立的应用场景进行数据标注。在产品更新换代速度极快的互联网时代，人工标注的效率也时常难以跟上产品迭代的速度。因此，工业界急需一套能在无标注数据的情况下，利用海量线上未标注数据，实现非监督自我学习的训练框架。

来源阿里语音AI 公众号

背景

在声纹识别的应用中，常遇到的一个挑战是，应用场景需求的多样性、复杂性、以及明显的信道差异，使得基础声纹模型无法适配多个场景，声纹识别效果不理想。在跨信道、跨领域时，声纹识别性能会明显下降。为确保高准确率，通常需要针对应用场景精确地标注数据，从而优化训练出特定模型。然而，昂贵的标注成本意味着无法对众多独立的应用场景进行数据标注。在产品更新换代速度极快的互联网时代，人工标注的效率也时常难以跟上产品迭代的速度。因此，工业界急需一套能在无标注数据的情况下，利用海量线上未标注数据，实现非监督自我学习的训练框架。

算法探讨

作为智能家居的重要产品之一，智能音箱的声纹技术在落地应用中遇到的挑战是一个典型案例。自首款音箱推出起，短短两年时间内，市场上已出现上百款不同型号的产品，以满足不同消费者群体的需求。由于不同产品型号的硬件设备存在差异（6麦克风阵列vs. 2麦克风阵列、带屏幕vs. 不带屏幕，等等），信道差异对声音信号的影响使得无法使用一套普适性的声纹识别模型去应对不同产品和使用场景的需求。面对这个难题，为智能家居提供声纹技术能力的算法团队进行了一系列算法上的探索和尝试，并取得了效果上的显著提升。
尝试一：提出了一套基于CurriculumLearning思想的半监督训练框架。如下图所示，针对于智能家居场景数据，通过Curriculum Learning的方式，让模型从简到难学习到掌握不同数据、不同信道、不同文本内容的能力；在模型的每次迭代过程中，系统通过对未知数据的聚类打标，自我更新，并对先前标签的纠正，逐渐增加模型鲁棒性；同时，针对智能音箱特有的用户主动注册数据，引入了Denoising Autoencoder将远场说话人语音映射到近场向量自空间上，来减少远场带来的影响。

尝试二：上述自我打标迭代的过程中，依然无法避免错误labels的产生。因此，更加细化的三种regularization方法被引入到自学习过程，以减少错误的labels给训练带来的负效应。

首先，在损失函数上，引入了置信度的概念，计算loss的时候，对每一条语音的后验概率输出加上对该label的置信度判断。

cross entropyloss:

Regularizedentropy loss:

其次，通过对聚类中置信度低的音频数据进行切片和随机reshuffle拼接，即避免了有效信息的丢失，又起到了dataaugmentation的作用。对于置信度较低的语音，一些传统方法会选择直接丢弃，不进入训练过程。这种方式损失了许多有效信息，由于这部分信息被当前模型认为置信度较低，无法确认，该信息又恰恰是对模型优化迭代最有帮助的。因此，相比于直接抛弃，采用随机拼接的方法，保全了有效信息。同时，若是保留了错误信息，是否会伤害训练效果？相关实验结果显示是不会的。因为在随机拼接的片段中，即便是保留了错误label的信息，也能起到数据增强的作用。众多研究已证明，在声纹训练数据中引入背景声、音乐声等噪声进行数据增强，可以提升模型性能。使用同源干扰人噪声作为数据增强，在特定家用智能音箱中，这种干扰人噪声往往来自于同一家庭下的其他成员，其声音时常作为背景噪声出现在实际环境中，因此数据增强效果更为显著。

最后，利用co-training的思想，通过两套独立空间的相互监督，进一步提升了最终系统的鲁棒性。

实验结果

从下表中显示，以上几种方法，在不同测试集上，相比于传统方法，取得了相对30%-50%的性能提升。
(1)设备型号A,使用尝试一中提到的无监督训练框架和算法，快速大幅度增加训练数据，使得EER从10.86%下降到6.28%。

(2)设备型号B, 使用尝试一中提到的无监督训练框架和算法，快速大幅度增加训练数据，使得EER从9.08%下降到5.44%。

(3)设备型号A+B，对比使用三种regularization方法的实验结果。

技术应用

上述技术的落地，使得声纹识别技术可以在原本的许多“无数据，不可用”的场景中落地应用。在无人工标注数据的情况下，通过模型的自动标签与迭代，快速支持多款不同需求的智能音箱产品上线；基于远场交互的声纹识别技术，也在其它智能家居场景上成功落地应用。

参考文献

[1] S. Zheng, G. Liu, H. Suo, and Y. Lei,“Autoencoder-based semi-supervised curriculum learning for out-of-domainspeaker verification,” in INTERSPEECH2019 – 20th Annual Conference of the International SpeechCommunication Association, September 15-19, Graz, Austria, Proceedings, 2019.

[2] S. Zheng, G. Liu, H. Suo, and Y. Lei, “TowardsA Fault-tolerant Speaker Verification System,” in INTERSPEECH 2019 – 20th Annual Conference of theInternational Speech Communication Association, September 15-19, Graz, Austria,Proceedings, 2019.

【技术揭秘】使用无监督方式训练声纹识别模型的探索

背景

算法探讨

实验结果

技术应用

参考文献

达摩院语音实验室

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【技术揭秘】使用无监督方式训练声纹识别模型的探索

背景

算法探讨

实验结果

技术应用

参考文献

达摩院语音实验室

热门文章

最新文章

相关课程

相关电子书

相关实验场景