语音顶会Interspeech 论文解读|Audio Tagging with Compact Feedforward Sequential Memory Network and Audio-to-Audio Ratio Based Data Augmentation-阿里云开发者社区

开发者社区> 公开课小能手> 正文

语音顶会Interspeech 论文解读|Audio Tagging with Compact Feedforward Sequential Memory Network and Audio-to-Audio Ratio Based Data Augmentation

简介: Interspeech是世界上规模最大,最全面的顶级语音领域会议,本文为Zhiying Huang, Shiliang Zhang, Ming Lei的入选论文
+关注继续查看

2019年,国际语音交流协会INTERSPEECH第20届年会将于9月15日至19日在奥地利格拉茨举行。Interspeech是世界上规模最大,最全面的顶级语音领域会议,近2000名一线业界和学界人士将会参与包括主题演讲,Tutorial,论文讲解和主会展览等活动,本次阿里论文有8篇入选,本文为Zhiying Huang, Shiliang Zhang, Ming Lei的论文《Audio Tagging with Compact Feedforward Sequential Memory Network and Audio-to-Audio Ratio Based Data Augmentation 》

点击下载论文

文章解读

音频打标是音频场景和事件分析的任务之一,它的作用是判断音频中所包含的声音事件。近年来,卷积神经网络在音频打标任务上显示特别优异的性能。但是,由于卷积神经网络的模型复杂度较高,其难以被应用于实际产品中。另外,对于一些特定领域,存在低资源的情况,此时音频打标的性能无法保证。

在本次INTERSPEECH2019的工作中,我们将紧凑前馈序列记忆网络(compact Feedforward Sequential Memory Network, cFSMN)应用于音频打标任务,以解决模型复杂度高的问题。同时,我们还提出了一种基于音频-音频能量比(audio-to-audio ratio, AAR)的数据扩增方法,来提升低资源情况下音频打标的性能。

基于cFSMN的音频打标:对应的模型结构图如图1所示。其中,模型的输入是音频片段的声学特征,输出是不同声音事件的概率。模型是由cFSMN和深层神经网络(Deep Neural Network, DNN)堆叠而成,即混合cFSMN-DNN模型。

基于AAR的数据扩增方法:流程图如图2所示。首先,在已有的训练集中随机抽取两个音频片段:A和B。然后,基于设定的AAR调整B的能量,从而获得B’。最后,将音频片段A和B’进行信号层面的叠加,新生成的音频片段A_B’即为新增的数据。

图1.png
图 1基于cFSMN的音频打标

图2.png
图 2基于AAR的数据扩增方法

表1.png
表 1不同方法性能对比

性能:表1罗列出不同模型算法的性能。AlexNet(BN)是一个很健壮的CNN系统,性能最好。在相同训练集下,cFSMN的方法获得了与AlexNet(BN)相当的性能,并且只需要AlexNet(BN) 的1/30模型参数量(1.9M)。进一步地,在cFSMN基础上进行数据扩增,性能获得了进一步提高(0.932的AUC值)。在相同的训练集和测试集下,这个性能是现有发表论文中最优的结果。

总结:我们的工作是首次将cFSMN应用于音频打标任务,获得了与AlexNet(BN)相当的性能。同时,我们提出了基于AAR的数据扩增方法来进一步提升音频打标的性能。下一步,考虑到声音事件的依存关系,我们将探索不同声音事件的分布,以获得更好的效果。

文章摘要

Audio tagging aims to identify the presence or absence of audio events in the audio clip. Recently, a lot of researchers have paid attention to explore different model structures to improve the performance of audio tagging. Convolutional neural network (CNN) is the most popular choice among a wide variety ofmodelstructures,andit’ssuccessfully appliedtoaudioevents prediction task. However, the model complexity of CNN is relatively high, which is not efficient enough to ship in real product. In this paper, compact Feedforward Sequential Memory Network (cFSMN) is proposed for audio tagging task. Experimental results show that cFSMN-based system yields a comparable performance with the CNN-based system. Meanwhile, anaudio-to-audioratio(AAR)baseddataaugmentationmethod is proposed to further improve the classifier performance. Finally, with raw waveforms of the balanced training set of Audio Set which is a published standard database, our system can achieve a state-of-the-art performance with AUC being 0.932. Moreover, cFSMN-based model has only 1.9 million parameters, which is only about 1/30 of the CNN-based model.
Index Terms: Audio Set, audio tagging, compact feedforward sequentialmemorynetwork,audio-to audioratio,dataaugmentation

阿里云开发者社区整理

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
《BREW进阶与精通——3G移动增值业务的运营、定制与开发》连载之71---BREW中语音与短信的开发
版权声明:本文为半吊子子全栈工匠(wireless_com,同公众号)原创文章,未经允许不得转载。
536 0
Alexa 一键下单不好用?蓦然认知推出语音对话购物
他们会继续将语音与生活服务结合在一起,更好的完善语音对话购物。MOR 也会集成于汽车、家居等硬件设备上,为用户提供人机对话及决策服务,打造一个可快速移植、实时学习、多场景融合的对话交互及决策系统。
941 0
阿里云语音识别模型端核心技术选讲
语音识别技术作为人工智能技术中的重要组成部分,也作为影响人机交互的核心组件之一,从各种智能家用IoT设备的语音交互能力,到公共服务、智慧政务等场合的应用,语音识别技术正在影响着人们生活的方方面面。本文将挑选阿里云语音识别技术中的一些模型端技术进行简要介绍。
3216 0
Deepmind语音生成模型WaveNet正式商用:效率提高1000倍
我们相信对于WaveNet来说这只是个开始。我们为所有世界语言的语音界面所能展开的无限可能而兴奋不已。
1138 0
语音顶会Interspeech 论文解读|Constrained output embeddings for end-to-end code-switching speech recognition with only monolingual data
Interspeech是世界上规模最大,最全面的顶级语音领域会议,本文为 Nanyang Technological University等学校联合作者的入选论文
704 0
语音顶会Interspeech 论文解读|Autoencoder-based Semi-Supervised Curriculum Learning For Out-of-domain Speaker Verification
Interspeech是世界上规模最大,最全面的顶级语音领域会议,本文为Siqi Zheng, Gang Liu, Hongbin Suo, Yun Lei的入选论文
1109 0
INTERSPEECH 2017系列 | 语音识别技术之自适应技术
语音识别中的自适应,即针对某一个说话人或者某一domain来优化语音识别系统的识别性能,使得识别系统对他们的性能有一定的提升。本文章主要分享INTERSPEECH2017的自适应技术的最新进展。
5204 0
INTERSPEECH 2017系列 | 语音识别之后处理技术
编者:今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥尔摩顺利召开,众多的高校研究机构和著名的公司纷纷在本次会议上介绍了各自最新的技术、系统和相关产品,而阿里巴巴集团作为钻石赞助商也派出了强大的阵容前往现场。
4484 0
语音顶会Interspeech 论文解读|Fast Learning for Non-Parallel Many-to-Many Voice Conversion with Residual Star Generative Adversarial Networks
Interspeech是世界上规模最大,最全面的顶级语音领域会议,本文为Shengkui Zhao, Trung Hieu Nguyen, Hao Wang, Bin Ma的入选论文
1125 0
37
文章
1
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
《Nacos架构&原理》
立即下载
《看见新力量:二》电子书
立即下载
云上自动化运维(CloudOps)白皮书
立即下载