【技术揭秘】使用无监督方式训练声纹识别模型的探索

简介: 在声纹识别的应用中,常遇到的一个挑战是,应用场景需求的多样性、复杂性、以及明显的信道差异,使得基础声纹模型无法适配多个场景,声纹识别效果不理想。在跨信道、跨领域时,声纹识别性能会明显下降。为确保高准确率,通常需要针对应用场景精确地标注数据,从而优化训练出特定模型。然而,昂贵的标注成本意味着无法对众多独立的应用场景进行数据标注。在产品更新换代速度极快的互联网时代,人工标注的效率也时常难以跟上产品迭代的速度。因此,工业界急需一套能在无标注数据的情况下,利用海量线上未标注数据,实现非监督自我学习的训练框架。
来源 阿里语音AI 公众号

背景

在声纹识别的应用中,常遇到的一个挑战是,应用场景需求的多样性、复杂性、以及明显的信道差异,使得基础声纹模型无法适配多个场景,声纹识别效果不理想。在跨信道、跨领域时,声纹识别性能会明显下降。为确保高准确率,通常需要针对应用场景精确地标注数据,从而优化训练出特定模型。然而,昂贵的标注成本意味着无法对众多独立的应用场景进行数据标注。在产品更新换代速度极快的互联网时代,人工标注的效率也时常难以跟上产品迭代的速度。因此,工业界急需一套能在无标注数据的情况下,利用海量线上未标注数据,实现非监督自我学习的训练框架。

算法探讨

作为智能家居的重要产品之一,智能音箱的声纹技术在落地应用中遇到的挑战是一个典型案例。自首款音箱推出起,短短两年时间内,市场上已出现上百款不同型号的产品,以满足不同消费者群体的需求。由于不同产品型号的硬件设备存在差异(6麦克风阵列vs. 2麦克风阵列、带屏幕vs. 不带屏幕,等等),信道差异对声音信号的影响使得无法使用一套普适性的声纹识别模型去应对不同产品和使用场景的需求。面对这个难题,为智能家居提供声纹技术能力的算法团队进行了一系列算法上的探索和尝试,并取得了效果上的显著提升。
尝试一:提出了一套基于CurriculumLearning思想的半监督训练框架。如下图所示,针对于智能家居场景数据,通过Curriculum Learning的方式,让模型从简到难学习到掌握不同数据、不同信道、不同文本内容的能力;在模型的每次迭代过程中,系统通过对未知数据的聚类打标,自我更新,并对先前标签的纠正,逐渐增加模型鲁棒性;同时,针对智能音箱特有的用户主动注册数据,引入了Denoising Autoencoder将远场说话人语音映射到近场向量自空间上,来减少远场带来的影响。

image.png
image.png

尝试二:上述自我打标迭代的过程中,依然无法避免错误labels的产生。因此,更加细化的三种regularization方法被引入到自学习过程,以减少错误的labels给训练带来的负效应。

首先,在损失函数上,引入了置信度的概念,计算loss的时候,对每一条语音的后验概率输出加上对该label的置信度判断。

cross entropyloss:

image.png

Regularizedentropy loss:

image.png

其次,通过对聚类中置信度低的音频数据进行切片和随机reshuffle拼接,即避免了有效信息的丢失,又起到了dataaugmentation的作用。对于置信度较低的语音,一些传统方法会选择直接丢弃,不进入训练过程。这种方式损失了许多有效信息,由于这部分信息被当前模型认为置信度较低,无法确认,该信息又恰恰是对模型优化迭代最有帮助的。因此,相比于直接抛弃,采用随机拼接的方法,保全了有效信息。同时,若是保留了错误信息,是否会伤害训练效果?相关实验结果显示是不会的。因为在随机拼接的片段中,即便是保留了错误label的信息,也能起到数据增强的作用。众多研究已证明,在声纹训练数据中引入背景声、音乐声等噪声进行数据增强,可以提升模型性能。使用同源干扰人噪声作为数据增强,在特定家用智能音箱中,这种干扰人噪声往往来自于同一家庭下的其他成员,其声音时常作为背景噪声出现在实际环境中,因此数据增强效果更为显著。

image.png

最后,利用co-training的思想,通过两套独立空间的相互监督,进一步提升了最终系统的鲁棒性。

image.png

实验结果

从下表中显示,以上几种方法,在不同测试集上,相比于传统方法,取得了相对30%-50%的性能提升。
(1)设备型号A,使用尝试一中提到的无监督训练框架和算法,快速大幅度增加训练数据,使得EER从10.86%下降到6.28%。

image.png

(2)设备型号B, 使用尝试一中提到的无监督训练框架和算法,快速大幅度增加训练数据,使得EER从9.08%下降到5.44%。

image.png

(3)设备型号A+B,对比使用三种regularization方法的实验结果。

image.png

技术应用

上述技术的落地,使得声纹识别技术可以在原本的许多“无数据,不可用”的场景中落地应用。在无人工标注数据的情况下,通过模型的自动标签与迭代,快速支持多款不同需求的智能音箱产品上线;基于远场交互的声纹识别技术,也在其它智能家居场景上成功落地应用。

image.png

参考文献

[1] S. Zheng, G. Liu, H. Suo, and Y. Lei,“Autoencoder-based semi-supervised curriculum learning for out-of-domainspeaker verification,” in INTERSPEECH2019 – 20th Annual Conference of the International SpeechCommunication Association, September 15-19, Graz, Austria, Proceedings, 2019.

[2] S. Zheng, G. Liu, H. Suo, and Y. Lei, “TowardsA Fault-tolerant Speaker Verification System,” in INTERSPEECH 2019 – 20th Annual Conference of theInternational Speech Communication Association, September 15-19, Graz, Austria,Proceedings, 2019.

相关文章
|
人工智能 算法 数据挖掘
【技术揭秘】解锁声纹技术中的说话人日志
说话人日志(speaker diarization)也叫说话人分离,它是从一个连续的多人说话的语音中切分出不同说话人的片段,并且判断出每个片段是哪个说话人的过程。借助说话人日志技术可以完成对音频数据流的结构化管理,具有广泛的应用价值,例如可以利用分离结果进行说话人自适应,以提高语音识别的准确率;可以辅助会议、电话数据进行自动转写构建说话人的音频档案;也可以利用说话人分离技术,实现语料库的自动跟踪和标注。
【技术揭秘】解锁声纹技术中的说话人日志
|
PyTorch 算法框架/工具
torch中的随机数种子
如何在torch生成随机数时,设置随机种子,要求每次调用生成的随机数都一样
1547 0
|
11月前
|
数据采集 机器学习/深度学习 TensorFlow
声纹识别实战:从数据采集到模型训练
【10月更文挑战第16天】声纹识别技术通过分析个人的语音特征来验证其身份,具有无接触、便捷的特点。本文将带你从零开始,一步步完成声纹识别系统的构建,包括数据采集、音频预处理、特征提取、模型训练及评估等关键步骤。我们将使用Python语言和相关的科学计算库来进行实践。
1817 0
|
3月前
|
JSON 数据格式
本地部署的qwen3-8b模型和百炼上的qwen3-8b模型效果不一致
我在使用Function Call时发现,百炼平台上的Qwen3-8B模型与本地部署的Qwen3-8B模型效果存在差异,主要体现在函数参数生成上,本地模型常出现漏参或JSON格式错误,而百炼模型表现正常。想确认百炼平台的Qwen3-8B是否为更高版本?
|
11月前
|
机器学习/深度学习 存储 并行计算
深度学习之声纹识别
基于深度学习的声纹识别(Speaker Recognition)是一种通过分析和识别人的声音特征来确认身份的技术。
1765 2
|
人工智能 算法 数据挖掘
技术沙龙直播|3D-Speaker多模态说话人开源详解
技术沙龙直播|3D-Speaker多模态说话人开源详解
|
9月前
|
人工智能 自然语言处理 语音技术
Ultravox:端到端多模态大模型,能直接理解文本和语音内容,无需依赖语音识别
Ultravox是一款端到端的多模态大模型,能够直接理解文本和人类语音,无需依赖单独的语音识别阶段。该模型通过多模态投影器技术将音频数据转换为高维空间表示,显著提高了处理速度和响应时间。Ultravox具备实时语音理解、多模态交互、低成本部署等主要功能,适用于智能客服、虚拟助手、语言学习等多个应用场景。
537 14
Ultravox:端到端多模态大模型,能直接理解文本和语音内容,无需依赖语音识别
|
机器学习/深度学习 人工智能 算法
技术开源|FunASR升级第三代热词方案
技术开源|FunASR升级第三代热词方案
2980 62
|
11月前
|
机器学习/深度学习 生物认证 语音技术
声纹识别入门:原理与基础知识
【10月更文挑战第16天】声纹识别(Voice Biometrics)是生物特征识别技术的一种,它通过分析个人的语音特征来验证身份。与指纹识别或面部识别相比,声纹识别具有非接触性、易于远程操作等特点,因此在电话银行、客户服务、智能家居等领域得到了广泛应用。
1889 0
|
人工智能 分布式计算 算法
3D-Speaker多模态说话人问题之3D-Speaker的开源代码和数据集如何获取
3D-Speaker多模态说话人问题之3D-Speaker的开源代码和数据集如何获取
320 1

热门文章

最新文章