【技术揭秘】使用无监督方式训练声纹识别模型的探索

简介: 在声纹识别的应用中,常遇到的一个挑战是,应用场景需求的多样性、复杂性、以及明显的信道差异,使得基础声纹模型无法适配多个场景,声纹识别效果不理想。在跨信道、跨领域时,声纹识别性能会明显下降。为确保高准确率,通常需要针对应用场景精确地标注数据,从而优化训练出特定模型。然而,昂贵的标注成本意味着无法对众多独立的应用场景进行数据标注。在产品更新换代速度极快的互联网时代,人工标注的效率也时常难以跟上产品迭代的速度。因此,工业界急需一套能在无标注数据的情况下,利用海量线上未标注数据,实现非监督自我学习的训练框架。
来源 阿里语音AI 公众号

背景

在声纹识别的应用中,常遇到的一个挑战是,应用场景需求的多样性、复杂性、以及明显的信道差异,使得基础声纹模型无法适配多个场景,声纹识别效果不理想。在跨信道、跨领域时,声纹识别性能会明显下降。为确保高准确率,通常需要针对应用场景精确地标注数据,从而优化训练出特定模型。然而,昂贵的标注成本意味着无法对众多独立的应用场景进行数据标注。在产品更新换代速度极快的互联网时代,人工标注的效率也时常难以跟上产品迭代的速度。因此,工业界急需一套能在无标注数据的情况下,利用海量线上未标注数据,实现非监督自我学习的训练框架。

算法探讨

作为智能家居的重要产品之一,智能音箱的声纹技术在落地应用中遇到的挑战是一个典型案例。自首款音箱推出起,短短两年时间内,市场上已出现上百款不同型号的产品,以满足不同消费者群体的需求。由于不同产品型号的硬件设备存在差异(6麦克风阵列vs. 2麦克风阵列、带屏幕vs. 不带屏幕,等等),信道差异对声音信号的影响使得无法使用一套普适性的声纹识别模型去应对不同产品和使用场景的需求。面对这个难题,为智能家居提供声纹技术能力的算法团队进行了一系列算法上的探索和尝试,并取得了效果上的显著提升。
尝试一:提出了一套基于CurriculumLearning思想的半监督训练框架。如下图所示,针对于智能家居场景数据,通过Curriculum Learning的方式,让模型从简到难学习到掌握不同数据、不同信道、不同文本内容的能力;在模型的每次迭代过程中,系统通过对未知数据的聚类打标,自我更新,并对先前标签的纠正,逐渐增加模型鲁棒性;同时,针对智能音箱特有的用户主动注册数据,引入了Denoising Autoencoder将远场说话人语音映射到近场向量自空间上,来减少远场带来的影响。

image.png
image.png

尝试二:上述自我打标迭代的过程中,依然无法避免错误labels的产生。因此,更加细化的三种regularization方法被引入到自学习过程,以减少错误的labels给训练带来的负效应。

首先,在损失函数上,引入了置信度的概念,计算loss的时候,对每一条语音的后验概率输出加上对该label的置信度判断。

cross entropyloss:

image.png

Regularizedentropy loss:

image.png

其次,通过对聚类中置信度低的音频数据进行切片和随机reshuffle拼接,即避免了有效信息的丢失,又起到了dataaugmentation的作用。对于置信度较低的语音,一些传统方法会选择直接丢弃,不进入训练过程。这种方式损失了许多有效信息,由于这部分信息被当前模型认为置信度较低,无法确认,该信息又恰恰是对模型优化迭代最有帮助的。因此,相比于直接抛弃,采用随机拼接的方法,保全了有效信息。同时,若是保留了错误信息,是否会伤害训练效果?相关实验结果显示是不会的。因为在随机拼接的片段中,即便是保留了错误label的信息,也能起到数据增强的作用。众多研究已证明,在声纹训练数据中引入背景声、音乐声等噪声进行数据增强,可以提升模型性能。使用同源干扰人噪声作为数据增强,在特定家用智能音箱中,这种干扰人噪声往往来自于同一家庭下的其他成员,其声音时常作为背景噪声出现在实际环境中,因此数据增强效果更为显著。

image.png

最后,利用co-training的思想,通过两套独立空间的相互监督,进一步提升了最终系统的鲁棒性。

image.png

实验结果

从下表中显示,以上几种方法,在不同测试集上,相比于传统方法,取得了相对30%-50%的性能提升。
(1)设备型号A,使用尝试一中提到的无监督训练框架和算法,快速大幅度增加训练数据,使得EER从10.86%下降到6.28%。

image.png

(2)设备型号B, 使用尝试一中提到的无监督训练框架和算法,快速大幅度增加训练数据,使得EER从9.08%下降到5.44%。

image.png

(3)设备型号A+B,对比使用三种regularization方法的实验结果。

image.png

技术应用

上述技术的落地,使得声纹识别技术可以在原本的许多“无数据,不可用”的场景中落地应用。在无人工标注数据的情况下,通过模型的自动标签与迭代,快速支持多款不同需求的智能音箱产品上线;基于远场交互的声纹识别技术,也在其它智能家居场景上成功落地应用。

image.png

参考文献

[1] S. Zheng, G. Liu, H. Suo, and Y. Lei,“Autoencoder-based semi-supervised curriculum learning for out-of-domainspeaker verification,” in INTERSPEECH2019 – 20th Annual Conference of the International SpeechCommunication Association, September 15-19, Graz, Austria, Proceedings, 2019.

[2] S. Zheng, G. Liu, H. Suo, and Y. Lei, “TowardsA Fault-tolerant Speaker Verification System,” in INTERSPEECH 2019 – 20th Annual Conference of theInternational Speech Communication Association, September 15-19, Graz, Austria,Proceedings, 2019.

相关文章
|
11天前
|
机器学习/深度学习 数据采集 存储
使用Python实现深度学习模型:智能保险风险评估
使用Python实现深度学习模型:智能保险风险评估
51 12
|
4月前
|
存储 机器学习/深度学习 人工智能
AIGC训练场景下的存储特征研究
在今天这样以AIGC为代表的AI时代下,了解训练场景对于存储的具体诉求同样是至关重要的。本文将尝试解读WEKA的一个相关报告,来看看AIGC对于存储有哪些具体的性能要求。
94935 8
|
1月前
|
API 异构计算
4.3.2 图像分类ResNet实战:眼疾识别——模型构建
这篇文章介绍了如何使用飞桨框架中的ResNet50模型进行眼疾识别的实战,通过5个epoch的训练,在验证集上达到了约96%的准确率,并提供了模型构建、训练、评估和预测的详细代码实现。
|
2月前
|
机器学习/深度学习 搜索推荐 TensorFlow
使用Python实现深度学习模型:用户行为预测与个性化服务
【7月更文挑战第23天】 使用Python实现深度学习模型:用户行为预测与个性化服务
84 3
|
3月前
|
机器学习/深度学习 人工智能 算法
【机器学习】RLHF:在线方法与离线算法在大模型语言模型校准中的博弈
【机器学习】RLHF:在线方法与离线算法在大模型语言模型校准中的博弈
294 6
|
3月前
|
Python
技术心得:判别式模型vs.生成式模型
技术心得:判别式模型vs.生成式模型
17 0
|
4月前
|
测试技术 决策智能
专业智能体指导让小模型学会数学推理!微调Mistral-7B实现86.81%准确率
【5月更文挑战第13天】Orca-Math研究展示如何用小模型解决小学数学题,通过70亿参数的SLM在GSM8K基准测试上达到86.81%准确率。采用合成数据集和迭代学习技术,包括多智能体协作创建问题集及“偏好学习”优化解决方案。虽优于其他大、小模型,但可能不适用于复杂数学问题,且依赖高质量合成数据集的创建。[论文链接](https://arxiv.org/abs/2402.14830)
143 4
|
4月前
|
机器学习/深度学习 自然语言处理 数据可视化
揭秘深度学习模型中的“黑箱”:理解与优化网络决策过程
【5月更文挑战第28天】 在深度学习领域,神经网络因其卓越的性能被广泛应用于图像识别、自然语言处理等任务。然而,这些复杂的模型往往被视作“黑箱”,其内部决策过程难以解释。本文将深入探讨深度学习模型的可解释性问题,并提出几种方法来揭示和优化网络的决策机制。我们将从模型可视化、敏感性分析到高级解释框架,一步步剖析模型行为,旨在为研究者提供更透明、可靠的深度学习解决方案。
|
4月前
|
机器学习/深度学习 人工智能 关系型数据库
南京大学提出量化特征蒸馏方法QFD | 完美结合量化与蒸馏,让AI落地更进一步!!!
南京大学提出量化特征蒸馏方法QFD | 完美结合量化与蒸馏,让AI落地更进一步!!!
192 0
|
4月前
|
机器学习/深度学习 计算机视觉
【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究
【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究
82 0