开放下载!8篇入选顶级语音领域会议的阿里论文抢先看

简介: Interspeech是世界上规模最大,最全面的顶级语音领域会议,近2000名一线业界和学界人士将会参与包括主题演讲,Tutorial,论文讲解和主会展览等活动,本次阿里论文有8篇入选,本文为8篇论文合辑,欢迎大家下载观看。

2019年,国际语音交流协会INTERSPEECH第20届年会将于9月15日至19日在奥地利格拉茨举行。Interspeech是世界上规模最大,最全面的顶级语音领域会议,近2000名一线业界和学界人士将会参与包括主题演讲,Tutorial,论文讲解和主会展览等活动,本次阿里论文有8篇入选,本文为8篇论文合辑,欢迎大家下载观看。


1.Multi-Task Multi-Network Joint-Learning of Deep Residual Networks and Cycle-Consistency Generative Adversarial Networks for Robust Speech Recognition

论文导读:采用先进的循环一致性对抗性生成网络(CycleGAN)来解决由于常规对抗性生成网络模式崩溃导致的训练失败问题,结合最近流行的深度残差网络(ResNets),进一步将多任务学习方案扩展为多任务多网络联合学习方案,以实现更强大的降噪功能和模型自适应训练功能。

点击下载论文

2.Fast Learning for Non-Parallel Many-to-Many Voice Conversion with Residual Star Generative Adversarial Networks

论文导读:基于对抗生成网络(GAN)的StarGAN被引入到语音转换的问题中,利用其多对多的域映射性能和无需并行数据的训练性能,仅使用语音特征和域信息作为输入,获得了较成功的多对多不同说话者之间的语音转换实验结果。本文在上述StarGAN-VC方法的基础上,通过添加残差训练机制,提出了一种快速学习训练框架,我们的方法称为Res-StarGAN- VC,其主要思想是基于转换过程中的源语音特征和目标语音特征之间的语言内容共享,通过添加输入到输出的快捷连接方式(shortcut connections)来实现残差映射。

点击下载论文

3.Towards A Fault-Tolerant Speaker Verification System: A Regularization Approach To Reduce The Condition Number

论文导读:利用Co-Training的思想,同时训练两个说话人空间,当两个说话人空间相对独立时,在说话人空间A中呈现高置信度的数据样本,当投影到说话人空间B中时,其分布会呈一定随机性。因此,这些样本对说话人空间B的训练更有帮助。反之亦然。两个说话人空间的在训练过程中的相互监督,可减少误标数据带来的影响,从而达到降低condition number的目的。

点击下载论文

4.Autoencoder-based Semi-Supervised Curriculum Learning For Out-of-domain Speaker Verification

论文导读:本文提出了一种基于Denoising Autoencoder的跨信道声纹识别无监督训练框架。当声纹识别模型的训练数据与测试数据存在信道差异时,识别性能会出现明显下降。而获得同信道的精标数据通常较为昂贵。因此,需要我们能够有效利用线上积累的同信道未标注数据,用无监督的方式训练模型。

点击下载论文

5.Constrained Output Embeddings for End-to-End Code-Switching Speech Recognition with Only Monolingual Data

论文导读:在这项工作中,我们的目标是仅仅应用两种单一语言语音数据,在没有任何的CS语音和文本数据的条件下来实现端到端的CS语音识别(E2E-CS-ASR),这种目标设置对于许多低资源的CS语音识别尤其重要。

点击下载论文

6.Investigation of Transformer based Spelling Correction Model for CTC-based End-to-End Mandarin Speech Recognition

论文导读:目前CTC声学模型通过联合N-gram语言模型进行解码。从而导致很多同音替换错误依旧没法解码。针对这个问题我们提出了一个基于Transformer的后处理纠错模型,可以有效的纠正大量识别的替换错误。在一个2万小时中文数据库上的实验表明,通过引入纠错模型,我们可以获得3.41%的字错误率,相比于基线的CTC系统可以获得相对22.9%的性能提升。

点击下载论文

7.Towards Language-Universal Mandarin-English Speech Recognition

论文导读:如何训练一个通用的中英文语音识别系统,可以不需要语种先验信息的前提下可以同时识别中文、英文、以及中英文混读是一个研究难点。针对这个问题,本次INTERSPEECH论文,我们提出一种新颖的bilingual-AM (acoustic model)。

点击下载论文

8.Audio Tagging with Compact Feedforward Sequential Memory Network and Audio-to-Audio Ratio Based Data Augmentation

论文导读:在本次INTERSPEECH2019的工作中,我们将紧凑前馈序列记忆网络(compact Feedforward Sequential Memory Network, cFSMN)应用于音频打标任务,以解决模型复杂度高的问题。同时,我们还提出了一种基于音频-音频能量比(audio-to-audio ratio, AAR)的数据扩增方法,来提升低资源情况下音频打标的性能。

点击下载论文





阿里云开发者社区整理

相关文章
|
3月前
|
人工智能 自然语言处理 搜索推荐
杭州悦数受邀参加《大模型驱动的智能知识图谱》标准首次专家研讨会
在数字化转型的大潮中,越来越多的数据正在以图的形式发生关联。有效地挖掘这些数据中的知识,以满足专业化和个性化需求的增长,已经成为一个迫切需要解决的问题。大语言模型(LLM)和知识图谱(KG)作为两种关键的知识处理技术,它们的能力具有高度的互补性,并正在经历深度融合的发展。
|
12月前
|
机器学习/深度学习 达摩院 算法
阿里达摩院获KDD 2022最佳论文,国内企业首次获奖
阿里达摩院获KDD 2022最佳论文,国内企业首次获奖
|
12月前
|
数据安全/隐私保护
直播预告 | 对话全球顶级主题娱乐大师,探索IP商业化运营密码
编者按: 《阿凡达》作为全球有史以来票房最高的电影一直备受人们关注。5月初,迪士尼发布了2022年压轴大作《阿凡达:水之道》的首支预告片和先导海报,再度引爆全球科幻风,娱乐市场的未来依旧令人期待。 阿里云研究院与长江商学院再度强强联合,特别邀请了四位全球娱乐领域的重磅嘉宾来到线上直播间,分享后疫情时代的主题娱乐发展机遇和挑战。在当下影院主题公园等娱乐场集体“沉寂”时期,和大家一同储备打造“快乐”的知识武器。
136 0
|
机器学习/深度学习 人工智能 搜索推荐
2022 阿里灵杰AI开发者峰会内容抢先看!
阿里灵杰AI开发者峰会将于2022年12月22日14:00准时开启线上直播。
2022 阿里灵杰AI开发者峰会内容抢先看!
|
中间件 Linux 云栖大会
首次!龙蜥社区生态用户实践精选集发布在即
《2022龙蜥操作系统生态用户实践精选》将于云栖大会上正式发布,另云栖大会报名截止今日24:00。
首次!龙蜥社区生态用户实践精选集发布在即
|
人工智能 分布式计算 Cloud Native
权威发布丨2021 中国开源先锋 33 人之心尖上的开源人物
权威发布丨2021 中国开源先锋 33 人之心尖上的开源人物
302 0
|
机器学习/深度学习 自然语言处理 算法
国际顶会OSDI首度收录淘宝系统论文,端云协同智能获大会主旨演讲推荐
大淘宝技术团队论文入选计算机系统领域顶级国际学术会议OSDI,这是淘宝系统论文首次入选该国际顶会,论文详解了阿里历经四年、自主研发的首个端到端、通用型、规模化产业应用的端云协同机器学习系统“瓦力”——Walle。OSDI特别邀请到的David Tennenhouse在大会主旨演讲中专门推荐了Walle系统,对其技术先进性和应用落地效果赞誉有加。目前,Walle 作为阿里机器学习的基础设施支持 30+APP上 的300+个算法任务。
433 0
国际顶会OSDI首度收录淘宝系统论文,端云协同智能获大会主旨演讲推荐
|
人工智能 达摩院 机器人
重磅!达摩院2022十大科技趋势发布!内含报告下载链接
达摩院2022十大科技趋势发布,让我们一起努力让这些趋势预测成为实现!
88211 3
重磅!达摩院2022十大科技趋势发布!内含报告下载链接
|
机器学习/深度学习 数据采集 人工智能
百度亮相NeurIPS 首届Expo:向世界科普了一次中国自动机器学习框架
在 NeurIPS 的第一届 Expo 上,百度向 NeurIPS 2018 年大会参与者展现了什么?
136 0
百度亮相NeurIPS 首届Expo:向世界科普了一次中国自动机器学习框架