【技术揭秘】使用无监督方式训练声纹识别模型的探索

简介: 在声纹识别的应用中,常遇到的一个挑战是,应用场景需求的多样性、复杂性、以及明显的信道差异,使得基础声纹模型无法适配多个场景,声纹识别效果不理想。在跨信道、跨领域时,声纹识别性能会明显下降。为确保高准确率,通常需要针对应用场景精确地标注数据,从而优化训练出特定模型。然而,昂贵的标注成本意味着无法对众多独立的应用场景进行数据标注。在产品更新换代速度极快的互联网时代,人工标注的效率也时常难以跟上产品迭代的速度。因此,工业界急需一套能在无标注数据的情况下,利用海量线上未标注数据,实现非监督自我学习的训练框架。
来源 阿里语音AI 公众号

背景

在声纹识别的应用中,常遇到的一个挑战是,应用场景需求的多样性、复杂性、以及明显的信道差异,使得基础声纹模型无法适配多个场景,声纹识别效果不理想。在跨信道、跨领域时,声纹识别性能会明显下降。为确保高准确率,通常需要针对应用场景精确地标注数据,从而优化训练出特定模型。然而,昂贵的标注成本意味着无法对众多独立的应用场景进行数据标注。在产品更新换代速度极快的互联网时代,人工标注的效率也时常难以跟上产品迭代的速度。因此,工业界急需一套能在无标注数据的情况下,利用海量线上未标注数据,实现非监督自我学习的训练框架。

算法探讨

作为智能家居的重要产品之一,智能音箱的声纹技术在落地应用中遇到的挑战是一个典型案例。自首款音箱推出起,短短两年时间内,市场上已出现上百款不同型号的产品,以满足不同消费者群体的需求。由于不同产品型号的硬件设备存在差异(6麦克风阵列vs. 2麦克风阵列、带屏幕vs. 不带屏幕,等等),信道差异对声音信号的影响使得无法使用一套普适性的声纹识别模型去应对不同产品和使用场景的需求。面对这个难题,为智能家居提供声纹技术能力的算法团队进行了一系列算法上的探索和尝试,并取得了效果上的显著提升。
尝试一:提出了一套基于CurriculumLearning思想的半监督训练框架。如下图所示,针对于智能家居场景数据,通过Curriculum Learning的方式,让模型从简到难学习到掌握不同数据、不同信道、不同文本内容的能力;在模型的每次迭代过程中,系统通过对未知数据的聚类打标,自我更新,并对先前标签的纠正,逐渐增加模型鲁棒性;同时,针对智能音箱特有的用户主动注册数据,引入了Denoising Autoencoder将远场说话人语音映射到近场向量自空间上,来减少远场带来的影响。

image.png
image.png

尝试二:上述自我打标迭代的过程中,依然无法避免错误labels的产生。因此,更加细化的三种regularization方法被引入到自学习过程,以减少错误的labels给训练带来的负效应。

首先,在损失函数上,引入了置信度的概念,计算loss的时候,对每一条语音的后验概率输出加上对该label的置信度判断。

cross entropyloss:

image.png

Regularizedentropy loss:

image.png

其次,通过对聚类中置信度低的音频数据进行切片和随机reshuffle拼接,即避免了有效信息的丢失,又起到了dataaugmentation的作用。对于置信度较低的语音,一些传统方法会选择直接丢弃,不进入训练过程。这种方式损失了许多有效信息,由于这部分信息被当前模型认为置信度较低,无法确认,该信息又恰恰是对模型优化迭代最有帮助的。因此,相比于直接抛弃,采用随机拼接的方法,保全了有效信息。同时,若是保留了错误信息,是否会伤害训练效果?相关实验结果显示是不会的。因为在随机拼接的片段中,即便是保留了错误label的信息,也能起到数据增强的作用。众多研究已证明,在声纹训练数据中引入背景声、音乐声等噪声进行数据增强,可以提升模型性能。使用同源干扰人噪声作为数据增强,在特定家用智能音箱中,这种干扰人噪声往往来自于同一家庭下的其他成员,其声音时常作为背景噪声出现在实际环境中,因此数据增强效果更为显著。

image.png

最后,利用co-training的思想,通过两套独立空间的相互监督,进一步提升了最终系统的鲁棒性。

image.png

实验结果

从下表中显示,以上几种方法,在不同测试集上,相比于传统方法,取得了相对30%-50%的性能提升。
(1)设备型号A,使用尝试一中提到的无监督训练框架和算法,快速大幅度增加训练数据,使得EER从10.86%下降到6.28%。

image.png

(2)设备型号B, 使用尝试一中提到的无监督训练框架和算法,快速大幅度增加训练数据,使得EER从9.08%下降到5.44%。

image.png

(3)设备型号A+B,对比使用三种regularization方法的实验结果。

image.png

技术应用

上述技术的落地,使得声纹识别技术可以在原本的许多“无数据,不可用”的场景中落地应用。在无人工标注数据的情况下,通过模型的自动标签与迭代,快速支持多款不同需求的智能音箱产品上线;基于远场交互的声纹识别技术,也在其它智能家居场景上成功落地应用。

image.png

参考文献

[1] S. Zheng, G. Liu, H. Suo, and Y. Lei,“Autoencoder-based semi-supervised curriculum learning for out-of-domainspeaker verification,” in INTERSPEECH2019 – 20th Annual Conference of the International SpeechCommunication Association, September 15-19, Graz, Austria, Proceedings, 2019.

[2] S. Zheng, G. Liu, H. Suo, and Y. Lei, “TowardsA Fault-tolerant Speaker Verification System,” in INTERSPEECH 2019 – 20th Annual Conference of theInternational Speech Communication Association, September 15-19, Graz, Austria,Proceedings, 2019.

相关文章
|
人工智能 算法 数据挖掘
【技术揭秘】解锁声纹技术中的说话人日志
说话人日志(speaker diarization)也叫说话人分离,它是从一个连续的多人说话的语音中切分出不同说话人的片段,并且判断出每个片段是哪个说话人的过程。借助说话人日志技术可以完成对音频数据流的结构化管理,具有广泛的应用价值,例如可以利用分离结果进行说话人自适应,以提高语音识别的准确率;可以辅助会议、电话数据进行自动转写构建说话人的音频档案;也可以利用说话人分离技术,实现语料库的自动跟踪和标注。
【技术揭秘】解锁声纹技术中的说话人日志
|
语音技术 异构计算
FunASR项目支持实时语音识别
FunASR项目支持实时语音识别【1月更文挑战第7篇】
4960 1
|
机器学习/深度学习 存储 并行计算
深度学习之声纹识别
基于深度学习的声纹识别(Speaker Recognition)是一种通过分析和识别人的声音特征来确认身份的技术。
3080 2
|
11月前
|
存储 Kubernetes 异构计算
Qwen3 大模型在阿里云容器服务上的极简部署教程
通义千问 Qwen3 是 Qwen 系列最新推出的首个混合推理模型,其在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比,表现出极具竞争力的结果。
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【Head】| (独家改进)结合 ICME-2024 中的PPA注意力模块,自研带有注意力机制的小目标检测头
YOLOv11改进策略【Head】| (独家改进)结合 ICME-2024 中的PPA注意力模块,自研带有注意力机制的小目标检测头
370 10
YOLOv11改进策略【Head】| (独家改进)结合 ICME-2024 中的PPA注意力模块,自研带有注意力机制的小目标检测头
|
人工智能 监控 算法
3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录
3D-Speaker是阿里巴巴通义实验室推出的多模态说话人识别开源项目,结合声学、语义和视觉信息,提供高精度的说话人识别和语种识别功能。项目包含工业级模型、训练和推理代码,以及大规模多设备、多距离、多方言的数据集,适用于多种应用场景。
3850 18
3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录
|
数据采集 机器学习/深度学习 TensorFlow
声纹识别实战:从数据采集到模型训练
【10月更文挑战第16天】声纹识别技术通过分析个人的语音特征来验证其身份,具有无接触、便捷的特点。本文将带你从零开始,一步步完成声纹识别系统的构建,包括数据采集、音频预处理、特征提取、模型训练及评估等关键步骤。我们将使用Python语言和相关的科学计算库来进行实践。
2783 0
|
机器学习/深度学习 人工智能 自然语言处理
揭开模型微调Fine-Tuning的神秘面纱:如何在预训练基础上巧妙调整,解锁定制AI解决方案的秘密武器
【10月更文挑战第8天】模型微调是在预训练模型基础上,利用特定领域数据进一步训练,以优化模型在特定任务上的表现。此方法广泛应用于自然语言处理和计算机视觉等领域,通过调整预训练模型的部分或全部参数,结合适当的正则化手段,有效提升模型性能。例如,使用Hugging Face的Transformers库对BERT模型进行微调,以改善文本匹配任务的准确率。
487 1
|
机器学习/深度学习 生物认证 语音技术
声纹识别入门:原理与基础知识
【10月更文挑战第16天】声纹识别(Voice Biometrics)是生物特征识别技术的一种,它通过分析个人的语音特征来验证身份。与指纹识别或面部识别相比,声纹识别具有非接触性、易于远程操作等特点,因此在电话银行、客户服务、智能家居等领域得到了广泛应用。
3340 0

热门文章

最新文章