语音顶会Interspeech 论文解读|Autoencoder-based Semi-Supervised Curriculum Learning For Out-of-domain Speaker Verification

简介: Interspeech是世界上规模最大,最全面的顶级语音领域会议,本文为Siqi Zheng, Gang Liu, Hongbin Suo, Yun Lei的入选论文

2019年,国际语音交流协会INTERSPEECH第20届年会将于9月15日至19日在奥地利格拉茨举行。Interspeech是世界上规模最大,最全面的顶级语音领域会议,近2000名一线业界和学界人士将会参与包括主题演讲,Tutorial,论文讲解和主会展览等活动,本次阿里论文有8篇入选,本文为Siqi Zheng, Gang Liu, Hongbin Suo, Yun Lei的论文《Autoencoder-based Semi-Supervised Curriculum Learning For Out-of-domain Speaker Verification》

点击下载论文

文章解读

本文提出了一种基于Denoising Autoencoder的跨信道声纹识别无监督训练框架。当声纹识别模型的训练数据与测试数据存在信道差异时,识别性能会出现明显下降。而获得同信道的精标数据通常较为昂贵。因此,需要我们能够有效利用线上积累的同信道未标注数据,用无监督的方式训练模型。
基于Curriculum Learning的思想,本文提出了一套无监督声纹训练框架。以家用智能音箱的线上交互数据为训练集,通过从易到难,层层递进的方式,让模型不能学习到解决更复杂任务的能力。从一开始的精标数据、文本相关、同信道数据开始,逐渐增加数据的复杂度,最终让模型学习到跨信道、文本无关条件下的识别能力。在每一轮的迭代中,不断通过上一轮迭代的中间模型,去对新的无监督数据进行聚类打标,聚类的结果再筛选进入下一轮的迭代中。

4-1.png

除此以外,在家用智能音箱等远场声纹识别场景中,声音信号采集设备与声源的距离和相对位置时刻在发生变化,给声纹识别带来了额外的难度。因此,本文引入Denoising Autoencoder,通过将说话人的远场与近场的语音分别作为input和target,训练DAE网络,将远场的说话人embedding映射到近场的embedding空间中,从而增加了模型在远场说话人识别中的鲁棒性。

文章摘要

This study aims to improve the performance of speaker verification system when no labeled out-of-domain data is available. An autoencoder-based semi-supervised curriculum learning scheme is proposed to automatically cluster unlabeled data and iteratively update the corpus during training. This new training scheme allows us to (1) progressively expand the size of training corpus by utilizing unlabeled data and correcting previous labels at run-time; and (2) improve robustness when generalizing to multiple conditions, such as out-of-domain and text-independent speaker verification tasks. It is also discovered that a denoising autoencoder can significantly enhance the clustering accuracy when it is trained on carefully-selected subset
of speakers. Our experimental results show a relative reduction of 30% − 50% in EER compared to the baseline.
Index Terms: Speaker Verification, Semi-Supervised Learning, Curriculum Learning, Denoising Autoencoder, SSCL

阿里云开发者社区整理

相关文章
|
弹性计算 运维 监控
深度解读:为什么会有ECS经济型e实例及其背后思考
本文浅入深出的分析了ECS经济型e实例的产品思考,怎么更好让ECS助力客户业务。
|
数据采集 分布式计算 Hadoop
开源数据质量解决方案——Apache Griffin入门宝典(上)
开源数据质量解决方案——Apache Griffin入门宝典
2750 0
|
关系型数据库 MySQL 数据库
n8n自动化工具部署与使用
n8n是一款开源的工作流自动化工具,类似于IFTTT。它的优点是开源、可以自托管、下载安装方便、易于使用,可以互联上百种服务。n8n基于节点能够将任何工具连接在一起,轻松部署不同类型的任务。它可以做很多事情,比如:从数据库中获取数据后下载为excel然后通过邮件发送给其他人。
11455 1
VS中出现的printf,scanf等函数不安全而报错的问题的全面解决方法
VS中出现的printf,scanf等函数不安全而报错的问题的全面解决方法
1971 0
|
5月前
|
机器学习/深度学习 人工智能 算法
处理AI音乐深度技术详解《AU 把 AI 音乐拉回人间》系列专栏总纲(卓伊凡)
处理AI音乐深度技术详解《AU 把 AI 音乐拉回人间》系列专栏总纲(卓伊凡)
405 1
|
5月前
|
人工智能 算法 Shell
音乐中EQ均衡器到底是什么?卓伊凡 · 从技术角度解析什么是 EQ?
音乐中EQ均衡器到底是什么?卓伊凡 · 从技术角度解析什么是 EQ?
1648 0
|
3月前
|
机器学习/深度学习 缓存 监控
大模型应用:矩阵乘加(GEMM)全解析:大模型算力消耗的逻辑与优化.68
GEMM(矩阵乘加)是大模型算力核心,占Transformer计算量90%以上。本文系统解析其数学原理、高维适配、算力测算公式,并详解INT8/INT4量化、矩阵分块、硬件加速与批处理四大优化策略,结合代码示例与性能监控方法,助力高效推理落地。
628 17
|
11月前
|
关系型数据库 应用服务中间件 nginx
Docker一键安装中间件(RocketMq、Nginx、MySql、Minio、Jenkins、Redis)
本系列脚本提供RocketMQ、Nginx、MySQL、MinIO、Jenkins和Redis的Docker一键安装与配置方案,适用于快速部署微服务基础环境。
|
5月前
|
人工智能 算法 C++
处理AI音乐深度技术详解《AU 把 AI 音乐拉回人间》第一章Spectral详解(卓伊凡)
处理AI音乐深度技术详解《AU 把 AI 音乐拉回人间》第一章Spectral详解(卓伊凡)
337 5
|
7月前
|
缓存 并行计算 算法
TensorRT 和 ONNX Runtime 推理优化实战:10 个降低延迟的工程技巧
模型性能优化关键在于细节:固定输入形状、预热、I/O绑定、精度量化、图优化与CUDA Graph等小技巧,无需重构代码即可显著降低延迟。结合ONNX Runtime与TensorRT最佳实践,每个环节节省几毫秒,累积提升用户体验。生产环境实测有效,低延迟从此有据可依。
665 9