开放下载!8篇入选顶级语音领域会议的阿里论文抢先看

简介: Interspeech是世界上规模最大,最全面的顶级语音领域会议,近2000名一线业界和学界人士将会参与包括主题演讲,Tutorial,论文讲解和主会展览等活动,本次阿里论文有8篇入选,本文为8篇论文合辑,欢迎大家下载观看。

2019年,国际语音交流协会INTERSPEECH第20届年会将于9月15日至19日在奥地利格拉茨举行。Interspeech是世界上规模最大,最全面的顶级语音领域会议,近2000名一线业界和学界人士将会参与包括主题演讲,Tutorial,论文讲解和主会展览等活动,本次阿里论文有8篇入选,本文为8篇论文合辑,欢迎大家下载观看。


1.Multi-Task Multi-Network Joint-Learning of Deep Residual Networks and Cycle-Consistency Generative Adversarial Networks for Robust Speech Recognition

论文导读:采用先进的循环一致性对抗性生成网络(CycleGAN)来解决由于常规对抗性生成网络模式崩溃导致的训练失败问题,结合最近流行的深度残差网络(ResNets),进一步将多任务学习方案扩展为多任务多网络联合学习方案,以实现更强大的降噪功能和模型自适应训练功能。

点击下载论文

2.Fast Learning for Non-Parallel Many-to-Many Voice Conversion with Residual Star Generative Adversarial Networks

论文导读:基于对抗生成网络(GAN)的StarGAN被引入到语音转换的问题中,利用其多对多的域映射性能和无需并行数据的训练性能,仅使用语音特征和域信息作为输入,获得了较成功的多对多不同说话者之间的语音转换实验结果。本文在上述StarGAN-VC方法的基础上,通过添加残差训练机制,提出了一种快速学习训练框架,我们的方法称为Res-StarGAN- VC,其主要思想是基于转换过程中的源语音特征和目标语音特征之间的语言内容共享,通过添加输入到输出的快捷连接方式(shortcut connections)来实现残差映射。

点击下载论文

3.Towards A Fault-Tolerant Speaker Verification System: A Regularization Approach To Reduce The Condition Number

论文导读:利用Co-Training的思想,同时训练两个说话人空间,当两个说话人空间相对独立时,在说话人空间A中呈现高置信度的数据样本,当投影到说话人空间B中时,其分布会呈一定随机性。因此,这些样本对说话人空间B的训练更有帮助。反之亦然。两个说话人空间的在训练过程中的相互监督,可减少误标数据带来的影响,从而达到降低condition number的目的。

点击下载论文

4.Autoencoder-based Semi-Supervised Curriculum Learning For Out-of-domain Speaker Verification

论文导读:本文提出了一种基于Denoising Autoencoder的跨信道声纹识别无监督训练框架。当声纹识别模型的训练数据与测试数据存在信道差异时,识别性能会出现明显下降。而获得同信道的精标数据通常较为昂贵。因此,需要我们能够有效利用线上积累的同信道未标注数据,用无监督的方式训练模型。

点击下载论文

5.Constrained Output Embeddings for End-to-End Code-Switching Speech Recognition with Only Monolingual Data

论文导读:在这项工作中,我们的目标是仅仅应用两种单一语言语音数据,在没有任何的CS语音和文本数据的条件下来实现端到端的CS语音识别(E2E-CS-ASR),这种目标设置对于许多低资源的CS语音识别尤其重要。

点击下载论文

6.Investigation of Transformer based Spelling Correction Model for CTC-based End-to-End Mandarin Speech Recognition

论文导读:目前CTC声学模型通过联合N-gram语言模型进行解码。从而导致很多同音替换错误依旧没法解码。针对这个问题我们提出了一个基于Transformer的后处理纠错模型,可以有效的纠正大量识别的替换错误。在一个2万小时中文数据库上的实验表明,通过引入纠错模型,我们可以获得3.41%的字错误率,相比于基线的CTC系统可以获得相对22.9%的性能提升。

点击下载论文

7.Towards Language-Universal Mandarin-English Speech Recognition

论文导读:如何训练一个通用的中英文语音识别系统,可以不需要语种先验信息的前提下可以同时识别中文、英文、以及中英文混读是一个研究难点。针对这个问题,本次INTERSPEECH论文,我们提出一种新颖的bilingual-AM (acoustic model)。

点击下载论文

8.Audio Tagging with Compact Feedforward Sequential Memory Network and Audio-to-Audio Ratio Based Data Augmentation

论文导读:在本次INTERSPEECH2019的工作中,我们将紧凑前馈序列记忆网络(compact Feedforward Sequential Memory Network, cFSMN)应用于音频打标任务,以解决模型复杂度高的问题。同时,我们还提出了一种基于音频-音频能量比(audio-to-audio ratio, AAR)的数据扩增方法,来提升低资源情况下音频打标的性能。

点击下载论文





阿里云开发者社区整理

相关文章
|
canal 分布式计算 Hadoop
canal针对分库分表场景的高可用架构设计与应用
canal针对分库分表场景的高可用架构设计与应用
|
2月前
|
Linux 网络安全 文件存储
继《小爱音响》详细说下怎么部署,尤其是关于Docker部分
本文手把手教零基础用户安装配置Docker,轻松部署xiaomusic——把小爱音箱变私人点唱机。涵盖NAS图形界面、Docker Compose、SSH终端三种部署方式,避坑提示细致,命令可直接复制运行,真正“照着做就能成”。
418 2
|
SQL 存储 分布式计算
ODPS跨集群迁移与数据同步经验分享
集团业务的迅猛发展带来数据量的激增,存储容量告急,迫切需要将生产集群PA上的大量数据迁移到其它集群。如何安全地跨集群迁移几十PB的数据和其上相关业务,是我们面临的第一个挑战。数据迁移之后,两个集群间存在大量的数据依赖,需要互相访问最新的数据,如何安全快速地实现跨集群数据同步,这是紧跟其后的第二个挑战
4495 0
|
3月前
|
机器学习/深度学习 数据采集 人工智能
零代码基础也能懂的LoRA微调全指南
LoRA(低秩适应)让普通人也能用消费级显卡高效微调大模型。它不改动原模型,仅添加小型“适配模块”,以0.1%-1%的参数量实现接近全量微调的效果,快速打造专属AI助手,推动AI民主化。
278 0
|
4月前
|
Ubuntu 网络协议 Linux
Linux网络接口配置(从零开始掌握网络设置)
本教程来源https://www.vps5.cn/详解Linux网络配置核心方法,涵盖网络接口概念、查看状态、临时与永久IP设置(如Netplan配置),并提供常见问题排查技巧,助你掌握ip命令等工具,轻松应对服务器管理与网络调试。
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
通义千问Qwen3,开源!
Qwen3正式发布并全部开源啦!
5851 50
|
人工智能 缓存 程序员
大模型文生图服务API设计原来如此简单(1)
文生图大模型的API设计其实很简单!无论是Midjourney这样的商业产品,还是ComfyUI这样的开源工具,它们的核心API设计都遵循着相似的简单原则。
525 1
|
人工智能 编解码 算法
八大科技创新应用——中央广播电视总台2025蛇年春晚打造视听盛宴
八大科技创新应用——中央广播电视总台2025蛇年春晚打造视听盛宴
|
应用服务中间件 测试技术 nginx
金丝雀发布(灰度发布)介绍 及 声明式管理方法简介
金丝雀发布(灰度发布)介绍 及 声明式管理方法简介
|
数据挖掘 测试技术 BI
正交缺陷分类(ODC)流程简介及应用经验分享
正交缺陷分类(ODC)是一种缺陷分析方法,合理的把它运用在项目中,可以帮助测试、开发团队改进工作,从而提高产品质量。明确 ODC 的流程及各阶段的工作重点,并借鉴本文中提到的经验建议,会让读者在运用 ODC 时更加得心应手。
870 7
正交缺陷分类(ODC)流程简介及应用经验分享