【技术揭秘】使用无监督方式训练声纹识别模型的探索

简介: 在声纹识别的应用中,常遇到的一个挑战是,应用场景需求的多样性、复杂性、以及明显的信道差异,使得基础声纹模型无法适配多个场景,声纹识别效果不理想。在跨信道、跨领域时,声纹识别性能会明显下降。为确保高准确率,通常需要针对应用场景精确地标注数据,从而优化训练出特定模型。然而,昂贵的标注成本意味着无法对众多独立的应用场景进行数据标注。在产品更新换代速度极快的互联网时代,人工标注的效率也时常难以跟上产品迭代的速度。因此,工业界急需一套能在无标注数据的情况下,利用海量线上未标注数据,实现非监督自我学习的训练框架。
来源 阿里语音AI 公众号

背景

在声纹识别的应用中,常遇到的一个挑战是,应用场景需求的多样性、复杂性、以及明显的信道差异,使得基础声纹模型无法适配多个场景,声纹识别效果不理想。在跨信道、跨领域时,声纹识别性能会明显下降。为确保高准确率,通常需要针对应用场景精确地标注数据,从而优化训练出特定模型。然而,昂贵的标注成本意味着无法对众多独立的应用场景进行数据标注。在产品更新换代速度极快的互联网时代,人工标注的效率也时常难以跟上产品迭代的速度。因此,工业界急需一套能在无标注数据的情况下,利用海量线上未标注数据,实现非监督自我学习的训练框架。

算法探讨

作为智能家居的重要产品之一,智能音箱的声纹技术在落地应用中遇到的挑战是一个典型案例。自首款音箱推出起,短短两年时间内,市场上已出现上百款不同型号的产品,以满足不同消费者群体的需求。由于不同产品型号的硬件设备存在差异(6麦克风阵列vs. 2麦克风阵列、带屏幕vs. 不带屏幕,等等),信道差异对声音信号的影响使得无法使用一套普适性的声纹识别模型去应对不同产品和使用场景的需求。面对这个难题,为智能家居提供声纹技术能力的算法团队进行了一系列算法上的探索和尝试,并取得了效果上的显著提升。
尝试一:提出了一套基于CurriculumLearning思想的半监督训练框架。如下图所示,针对于智能家居场景数据,通过Curriculum Learning的方式,让模型从简到难学习到掌握不同数据、不同信道、不同文本内容的能力;在模型的每次迭代过程中,系统通过对未知数据的聚类打标,自我更新,并对先前标签的纠正,逐渐增加模型鲁棒性;同时,针对智能音箱特有的用户主动注册数据,引入了Denoising Autoencoder将远场说话人语音映射到近场向量自空间上,来减少远场带来的影响。

image.png
image.png

尝试二:上述自我打标迭代的过程中,依然无法避免错误labels的产生。因此,更加细化的三种regularization方法被引入到自学习过程,以减少错误的labels给训练带来的负效应。

首先,在损失函数上,引入了置信度的概念,计算loss的时候,对每一条语音的后验概率输出加上对该label的置信度判断。

cross entropyloss:

image.png

Regularizedentropy loss:

image.png

其次,通过对聚类中置信度低的音频数据进行切片和随机reshuffle拼接,即避免了有效信息的丢失,又起到了dataaugmentation的作用。对于置信度较低的语音,一些传统方法会选择直接丢弃,不进入训练过程。这种方式损失了许多有效信息,由于这部分信息被当前模型认为置信度较低,无法确认,该信息又恰恰是对模型优化迭代最有帮助的。因此,相比于直接抛弃,采用随机拼接的方法,保全了有效信息。同时,若是保留了错误信息,是否会伤害训练效果?相关实验结果显示是不会的。因为在随机拼接的片段中,即便是保留了错误label的信息,也能起到数据增强的作用。众多研究已证明,在声纹训练数据中引入背景声、音乐声等噪声进行数据增强,可以提升模型性能。使用同源干扰人噪声作为数据增强,在特定家用智能音箱中,这种干扰人噪声往往来自于同一家庭下的其他成员,其声音时常作为背景噪声出现在实际环境中,因此数据增强效果更为显著。

image.png

最后,利用co-training的思想,通过两套独立空间的相互监督,进一步提升了最终系统的鲁棒性。

image.png

实验结果

从下表中显示,以上几种方法,在不同测试集上,相比于传统方法,取得了相对30%-50%的性能提升。
(1)设备型号A,使用尝试一中提到的无监督训练框架和算法,快速大幅度增加训练数据,使得EER从10.86%下降到6.28%。

image.png

(2)设备型号B, 使用尝试一中提到的无监督训练框架和算法,快速大幅度增加训练数据,使得EER从9.08%下降到5.44%。

image.png

(3)设备型号A+B,对比使用三种regularization方法的实验结果。

image.png

技术应用

上述技术的落地,使得声纹识别技术可以在原本的许多“无数据,不可用”的场景中落地应用。在无人工标注数据的情况下,通过模型的自动标签与迭代,快速支持多款不同需求的智能音箱产品上线;基于远场交互的声纹识别技术,也在其它智能家居场景上成功落地应用。

image.png

参考文献

[1] S. Zheng, G. Liu, H. Suo, and Y. Lei,“Autoencoder-based semi-supervised curriculum learning for out-of-domainspeaker verification,” in INTERSPEECH2019 – 20th Annual Conference of the International SpeechCommunication Association, September 15-19, Graz, Austria, Proceedings, 2019.

[2] S. Zheng, G. Liu, H. Suo, and Y. Lei, “TowardsA Fault-tolerant Speaker Verification System,” in INTERSPEECH 2019 – 20th Annual Conference of theInternational Speech Communication Association, September 15-19, Graz, Austria,Proceedings, 2019.

相关文章
|
2月前
|
机器学习/深度学习 数据采集 人工智能
深度学习之稳健的模型推理与不确定性建模
基于深度学习的稳健模型推理与不确定性建模,是现代AI系统中至关重要的研究方向。随着深度学习在各类应用中的成功,如何保证模型在面对未知或不确定性输入时仍能做出稳健的推理,并能够量化这种不确定性,成为关键问题。稳健性与不确定性建模可以提高模型的安全性、可靠性,尤其在自动驾驶、医疗诊断等高风险领域。
56 0
|
7月前
|
机器学习/深度学习 编解码 PyTorch
训练Sora模型,你可能需要这些(开源代码,模型,数据集及算力评估)
在之前的文章《复刻Sora有多难?一张图带你读懂Sora的技术路径》,《一文看Sora技术推演》我们总结了Sora模型上用到的一些核心技术和论文,今天这篇文章我们将整理和总结现有的一些开源代码、模型、数据集,以及初步训练的算力评估,希望可以帮助到国内的创业公司和个人开发者展开更深的研究。
|
6月前
|
机器学习/深度学习 人工智能 算法
【机器学习】RLHF:在线方法与离线算法在大模型语言模型校准中的博弈
【机器学习】RLHF:在线方法与离线算法在大模型语言模型校准中的博弈
359 6
|
6月前
|
Python
技术心得:判别式模型vs.生成式模型
技术心得:判别式模型vs.生成式模型
31 0
|
7月前
|
机器学习/深度学习 计算机视觉
【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究
【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究
114 0
|
机器学习/深度学习 数据采集 编解码
深度学习如何训练出好的模型
深度学习如何训练出好的模型
|
人工智能 编解码 自然语言处理
一句话生成3D模型:AI扩散模型的突破,让建模师慌了
一句话生成3D模型:AI扩散模型的突破,让建模师慌了
841 0
|
机器学习/深度学习 人工智能 自然语言处理
LeCun预言的自监督模型来了:首个多模态高性能自监督算法,语音、图像文本全部SOTA
LeCun预言的自监督模型来了:首个多模态高性能自监督算法,语音、图像文本全部SOTA
250 0
|
自然语言处理 计算机视觉
多模态学习加持,蛋白质预训练模型S2F准确预测PPI
多模态学习加持,蛋白质预训练模型S2F准确预测PPI
200 0
|
机器学习/深度学习 人工智能 自然语言处理
多模态如何自监督?爱丁堡等最新「自监督多模态学习」综述:目标函数、数据对齐和模型架构
多模态如何自监督?爱丁堡等最新「自监督多模态学习」综述:目标函数、数据对齐和模型架构
787 0
下一篇
DataWorks