语音顶会Interspeech 论文解读|Autoencoder-based Semi-Supervised Curriculum Learning For Out-of-domain Speaker Verification

简介: Interspeech是世界上规模最大,最全面的顶级语音领域会议,本文为Siqi Zheng, Gang Liu, Hongbin Suo, Yun Lei的入选论文

2019年,国际语音交流协会INTERSPEECH第20届年会将于9月15日至19日在奥地利格拉茨举行。Interspeech是世界上规模最大,最全面的顶级语音领域会议,近2000名一线业界和学界人士将会参与包括主题演讲,Tutorial,论文讲解和主会展览等活动,本次阿里论文有8篇入选,本文为Siqi Zheng, Gang Liu, Hongbin Suo, Yun Lei的论文《Autoencoder-based Semi-Supervised Curriculum Learning For Out-of-domain Speaker Verification》

点击下载论文

文章解读

本文提出了一种基于Denoising Autoencoder的跨信道声纹识别无监督训练框架。当声纹识别模型的训练数据与测试数据存在信道差异时,识别性能会出现明显下降。而获得同信道的精标数据通常较为昂贵。因此,需要我们能够有效利用线上积累的同信道未标注数据,用无监督的方式训练模型。
基于Curriculum Learning的思想,本文提出了一套无监督声纹训练框架。以家用智能音箱的线上交互数据为训练集,通过从易到难,层层递进的方式,让模型不能学习到解决更复杂任务的能力。从一开始的精标数据、文本相关、同信道数据开始,逐渐增加数据的复杂度,最终让模型学习到跨信道、文本无关条件下的识别能力。在每一轮的迭代中,不断通过上一轮迭代的中间模型,去对新的无监督数据进行聚类打标,聚类的结果再筛选进入下一轮的迭代中。

4-1.png

除此以外,在家用智能音箱等远场声纹识别场景中,声音信号采集设备与声源的距离和相对位置时刻在发生变化,给声纹识别带来了额外的难度。因此,本文引入Denoising Autoencoder,通过将说话人的远场与近场的语音分别作为input和target,训练DAE网络,将远场的说话人embedding映射到近场的embedding空间中,从而增加了模型在远场说话人识别中的鲁棒性。

文章摘要

This study aims to improve the performance of speaker verification system when no labeled out-of-domain data is available. An autoencoder-based semi-supervised curriculum learning scheme is proposed to automatically cluster unlabeled data and iteratively update the corpus during training. This new training scheme allows us to (1) progressively expand the size of training corpus by utilizing unlabeled data and correcting previous labels at run-time; and (2) improve robustness when generalizing to multiple conditions, such as out-of-domain and text-independent speaker verification tasks. It is also discovered that a denoising autoencoder can significantly enhance the clustering accuracy when it is trained on carefully-selected subset
of speakers. Our experimental results show a relative reduction of 30% − 50% in EER compared to the baseline.
Index Terms: Speaker Verification, Semi-Supervised Learning, Curriculum Learning, Denoising Autoencoder, SSCL

阿里云开发者社区整理

相关文章
|
弹性计算 运维 监控
深度解读:为什么会有ECS经济型e实例及其背后思考
本文浅入深出的分析了ECS经济型e实例的产品思考,怎么更好让ECS助力客户业务。
|
数据采集 分布式计算 Hadoop
开源数据质量解决方案——Apache Griffin入门宝典(上)
开源数据质量解决方案——Apache Griffin入门宝典
2366 0
VS中出现的printf,scanf等函数不安全而报错的问题的全面解决方法
VS中出现的printf,scanf等函数不安全而报错的问题的全面解决方法
1741 0
|
7月前
|
关系型数据库 应用服务中间件 nginx
Docker一键安装中间件(RocketMq、Nginx、MySql、Minio、Jenkins、Redis)
本系列脚本提供RocketMQ、Nginx、MySQL、MinIO、Jenkins和Redis的Docker一键安装与配置方案,适用于快速部署微服务基础环境。
|
缓存 应用服务中间件 nginx
Web服务器的缓存机制与内容分发网络(CDN)
【8月更文第28天】随着互联网应用的发展,用户对网站响应速度的要求越来越高。为了提升用户体验,Web服务器通常会采用多种技术手段来优化页面加载速度,其中最重要的两种技术就是缓存机制和内容分发网络(CDN)。本文将深入探讨这两种技术的工作原理及其实现方法,并通过具体的代码示例加以说明。
1084 1
|
8月前
|
人工智能 自然语言处理 搜索推荐
Spark-TTS: AI语音合成的"变声大师"
Spark-TTS 是一款革命性的语音合成模型,被誉为“变声大师”。它通过创新的 BiCodec 技术将语音分解为语义和全局两种 Token,实现对音色、性别、语速等属性的精细控制。结合统一的 LLM 架构,Spark-TTS 简化了传统 TTS 的复杂流程,同时提供了前所未有的灵活性。此外,团队还发布了 VoxBox 开源数据集,为行业提供标准评估基准。尽管在零样本场景下仍存改进空间,但 Spark-TTS 已经开启了语音合成新时代,让个性化、可控的 AI 语音成为可能。
901 5
|
11月前
|
IDE Java 开发工具
如何在代码审查中高效地发现数组越界问题?
如何在代码审查中高效地发现数组越界问题?
370 56
|
人工智能 算法 API
构建基于 Elasticsearch 的企业级 AI 搜索应用
本文介绍了基于Elasticsearch构建企业级AI搜索应用的方案,重点讲解了RAG(检索增强生成)架构的实现。通过阿里云上的Elasticsearch AI搜索平台,简化了知识库文档抽取、文本切片等复杂流程,并结合稠密和稀疏向量的混合搜索技术,提升了召回和排序的准确性。此外,还探讨了Elastic的向量数据库优化措施及推理API的应用,展示了如何在云端高效实现精准的搜索与推理服务。未来将拓展至多模态数据和知识图谱,进一步提升RAG效果。
463 1
|
机器学习/深度学习 人工智能 机器人
语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员
【8月更文挑战第10天】微软的VALL-E 2模型标志零样本语音合成新高度,通过重复感知采样与分组编码建模,显著提升语音合成的稳定性与效率。在LibriSpeech等数据集上,VALL-E 2的语音自然度与说话者相似度超越前代和其他系统,达到人类水平。然而,其卓越性能也引发了潜在滥用风险的关注。尽管如此,VALL-E 2在辅助沟通、教育、娱乐等领域的应用前景广阔。[论文](https://arxiv.org/pdf/2406.05370)
436 64
|
监控 安全 Java
Java多线程调试技巧:如何定位和解决线程安全问题
Java多线程调试技巧:如何定位和解决线程安全问题
329 2