语音顶会Interspeech 论文解读|Multi-Task Multi-Network Joint-Learning of Deep Residual Networks and Cycle-Consistency Generative Adversarial Networks for Robus-阿里云开发者社区

开发者社区> 公开课小能手> 正文

语音顶会Interspeech 论文解读|Multi-Task Multi-Network Joint-Learning of Deep Residual Networks and Cycle-Consistency Generative Adversarial Networks for Robus

简介: Interspeech是世界上规模最大,最全面的顶级语音领域会议,本文为Shengkui Zhao, Chongjia Ni, Rong Tong, Bin Ma的入选论文
+关注继续查看

2019年,国际语音交流协会INTERSPEECH第20届年会将于9月15日至19日在奥地利格拉茨举行。Interspeech是世界上规模最大,最全面的顶级语音领域会议,近2000名一线业界和学界人士将会参与包括主题演讲,Tutorial,论文讲解和主会展览等活动,本次阿里论文有8篇入选,本文为Shengkui Zhao, Chongjia Ni, Rong Tong, Bin Ma的论文《Multi-Task Multi-Network Joint-Learning of Deep Residual Networks and Cycle-Consistency Generative Adversarial Networks for Robust Speech Recognition》

点击下载论文

文章解读

自动语音识别系统(ASR)在实际生活中有着广泛的应用场景,不过通常由于周遭环境的噪声和混响的影响,自动语音识别的结果出现错误和不稳定的情况。提高自动语音识别系统的鲁棒性是推广其应用的一个关键问题。为了解决这个问题,增加语音增强模块和模型适应训练已经研究了很长时间。最近,在统一建模框架中利用同时训练降噪和语音识别的多任务联合学习方案显示出令人鼓舞的进展,不过目前模型训练仍高度依赖于成对的干净和噪声数据。为了克服这一限制,研究者开始引进对抗性生成网络(GAN)和对抗性训练方法到声学模型的训练中,由于无需复杂的前端设计和配对训练数据,大大简化了模型训练过程和要求。尽管对抗性生成网络在计算机视觉领域发展迅速,但目前只引进了常规对抗性生成网络和进行了有限的模型训练实验,而且常规对抗性生成网络存在模式崩溃缺陷常常导致训练失败问题。
在这项工作中,我们采用更先进的循环一致性对抗性生成网络(CycleGAN)来解决由于常规对抗性生成网络模式崩溃导致的训练失败问题,另外,结合最近流行的深度残差网络(ResNets),我们进一步将多任务学习方案扩展为多任务多网络联合学习方案,以实现更强大的降噪功能和模型自适应训练功能。

7-1.png

基于CHiME-4的单声道自动语音识别的实验结果表明,与最先进的联合学习方法相比(B),我们提出的方法通过实现更低的字错误率(WER)显着提高了自动语音识别系统的噪声鲁棒性。

7-2.png

基于循环一致性对抗性生成网络,我们提出的多任务多网络联合学习方案较好的解决了模式崩溃问题。

7-3.png

文章摘要

**Robustness of automatic speech recognition (ASR) systems is a critical issue due to noise and reverberations. Speech enhancement and model adaptation have been studied for long time to address this issue. Recently, the developments of multitask joint-learning scheme that addresses noise reduction and ASR criteria in a unified modeling framework show promising improvements, but the model training highly relies on paired clean-noisy data. To overcome this limit, the generative adversarial networks (GANs) and the adversarial training method are deployed, which have greatly simplified the model training process without the requirements of complex front-end design and paired training data. Despite the fast developments of GANs for computer visions, only regular GANs have been adopted for robust ASR. In this work, we adopt a more advanced cycleconsistency GAN (CycleGAN) to address the training failure problem due to mode collapse of regular GANs. Using deep residual networks (ResNets), we further expand the multi-task scheme to a multi-task multi-network joint-learning scheme for more robust noise reduction and model adaptation. Experiment results on CHiME-4 show that our proposed approach significantly improves the noise robustness of the ASR system by achieving much lower word error rates (WERs) than the stateof-the-art joint-learning approaches.
Index Terms: Robust speech recognition, convolutional neural
networks, acoustic model, generative adversarial networks

阿里云开发者社区整理

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
语音顶会Interspeech 论文解读|Towards Language-Universal Mandarin-English Speech Recognition
Interspeech是世界上规模最大,最全面的顶级语音领域会议,本文为Shiliang Zhang, Yuan Liu, Ming Lei, Bin Ma, Lei Xie的入选论文
1448 0
「阿里语音AI」十篇论文入选语音顶会INTERSPEECH2020
「阿里语音AI」十篇论文入选语音顶会INTERSPEECH2020,论文研究方向包含语音识别,语音合成,说话人识别,语音增强和信号处理
91 0
优势特征蒸馏(Privileged Features Distillation)在手淘信息流推荐中的应用 | KDD论文解读
由阿里云开发者社区联合新零售智能引擎事业群共同打造的《KDD 论文精华解读》电子书重磅发布!覆盖推荐系统、图神经网络预训练、买家秀视频标题生成、在线电视剧的受众竞争力预测和分析等 10+ 内容,免费下载电子书感受科技的震撼!
2046 0
Alibaba at Interspeech 2021 | 达摩院语音实验室9篇入选论文解读
继去年11篇论文入选INTERSPEECH 2020之后,本次INTERSPEECH 2021阿里巴巴达摩院语音实验室再度有9篇论文被接收。本次被接收的论文研究方向包括语音识别,语音合成,后处理技术,前端信号处理技术等研究方向。
123 0
Alibaba at Interspeech 2021 | 达摩院语音实验室9篇入选论文解读
INTERSPEECH是由国际语音通讯协会创办的语音信号处理领域顶级旗舰国际会议。继去年11篇论文入选INTERSPEECH 2020之后,本次INTERSPEECH 2021阿里巴巴达摩院语音实验室再度有9篇论文被接收,包括语音识别,语音合成,后处理技术,前端信号处理技术等研究方向。本文我们将对这些论文进行解读。
120 0
语音顶会Interspeech 论文解读|Audio Tagging with Compact Feedforward Sequential Memory Network and Audio-to-Audio Ratio Based Data Augmentation
Interspeech是世界上规模最大,最全面的顶级语音领域会议,本文为Zhiying Huang, Shiliang Zhang, Ming Lei的入选论文
883 0
语音顶会Interspeech 论文解读|Investigation of Transformer based Spelling Correction Model for CTC-based End-to-End Mandarin Speech Recognition
Interspeech是世界上规模最大,最全面的顶级语音领域会议,本文为Shiliang Zhang, Ming Lei, Zhijie Yan的入选论文
1636 0
Learning Disentangled Representations for Recommendation | NIPS 2019 论文解读
近年来随着深度学习的发展,推荐系统大量使用用户行为数据来构建用户/商品表征,并以此来构建召回、排序、重排等推荐系统中的标准模块。普通算法得到的用户商品表征本身,并不具备可解释性,而往往只能提供用户-商品之间的attention分作为商品粒度的用户兴趣。我们在这篇文章中,想仅通过用户行为,学习到本身就具备一定可解释性的解离化的用户商品表征,并试图利用这样的商品表征完成单语义可控的推荐任务。
13560 0
语音顶会Interspeech 论文解读|Fast Learning for Non-Parallel Many-to-Many Voice Conversion with Residual Star Generative Adversarial Networks
Interspeech是世界上规模最大,最全面的顶级语音领域会议,本文为Shengkui Zhao, Trung Hieu Nguyen, Hao Wang, Bin Ma的入选论文
1134 0
37
文章
1
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载