语音顶会Interspeech 论文解读|Audio Tagging with Compact Feedforward Sequential Memory Network and Audio-to-Audio Ratio Based Data Augmentation

简介: Interspeech是世界上规模最大,最全面的顶级语音领域会议,本文为Zhiying Huang, Shiliang Zhang, Ming Lei的入选论文

2019年,国际语音交流协会INTERSPEECH第20届年会将于9月15日至19日在奥地利格拉茨举行。Interspeech是世界上规模最大,最全面的顶级语音领域会议,近2000名一线业界和学界人士将会参与包括主题演讲,Tutorial,论文讲解和主会展览等活动,本次阿里论文有8篇入选,本文为Zhiying Huang, Shiliang Zhang, Ming Lei的论文《Audio Tagging with Compact Feedforward Sequential Memory Network and Audio-to-Audio Ratio Based Data Augmentation 》

点击下载论文

文章解读

音频打标是音频场景和事件分析的任务之一,它的作用是判断音频中所包含的声音事件。近年来,卷积神经网络在音频打标任务上显示特别优异的性能。但是,由于卷积神经网络的模型复杂度较高,其难以被应用于实际产品中。另外,对于一些特定领域,存在低资源的情况,此时音频打标的性能无法保证。

在本次INTERSPEECH2019的工作中,我们将紧凑前馈序列记忆网络(compact Feedforward Sequential Memory Network, cFSMN)应用于音频打标任务,以解决模型复杂度高的问题。同时,我们还提出了一种基于音频-音频能量比(audio-to-audio ratio, AAR)的数据扩增方法,来提升低资源情况下音频打标的性能。

基于cFSMN的音频打标:对应的模型结构图如图1所示。其中,模型的输入是音频片段的声学特征,输出是不同声音事件的概率。模型是由cFSMN和深层神经网络(Deep Neural Network, DNN)堆叠而成,即混合cFSMN-DNN模型。

基于AAR的数据扩增方法:流程图如图2所示。首先,在已有的训练集中随机抽取两个音频片段:A和B。然后,基于设定的AAR调整B的能量,从而获得B’。最后,将音频片段A和B’进行信号层面的叠加,新生成的音频片段A_B’即为新增的数据。

图1.png
图 1基于cFSMN的音频打标

图2.png
图 2基于AAR的数据扩增方法

表1.png
表 1不同方法性能对比

性能:表1罗列出不同模型算法的性能。AlexNet(BN)是一个很健壮的CNN系统,性能最好。在相同训练集下,cFSMN的方法获得了与AlexNet(BN)相当的性能,并且只需要AlexNet(BN) 的1/30模型参数量(1.9M)。进一步地,在cFSMN基础上进行数据扩增,性能获得了进一步提高(0.932的AUC值)。在相同的训练集和测试集下,这个性能是现有发表论文中最优的结果。

总结:我们的工作是首次将cFSMN应用于音频打标任务,获得了与AlexNet(BN)相当的性能。同时,我们提出了基于AAR的数据扩增方法来进一步提升音频打标的性能。下一步,考虑到声音事件的依存关系,我们将探索不同声音事件的分布,以获得更好的效果。

文章摘要

Audio tagging aims to identify the presence or absence of audio events in the audio clip. Recently, a lot of researchers have paid attention to explore different model structures to improve the performance of audio tagging. Convolutional neural network (CNN) is the most popular choice among a wide variety ofmodelstructures,andit’ssuccessfully appliedtoaudioevents prediction task. However, the model complexity of CNN is relatively high, which is not efficient enough to ship in real product. In this paper, compact Feedforward Sequential Memory Network (cFSMN) is proposed for audio tagging task. Experimental results show that cFSMN-based system yields a comparable performance with the CNN-based system. Meanwhile, anaudio-to-audioratio(AAR)baseddataaugmentationmethod is proposed to further improve the classifier performance. Finally, with raw waveforms of the balanced training set of Audio Set which is a published standard database, our system can achieve a state-of-the-art performance with AUC being 0.932. Moreover, cFSMN-based model has only 1.9 million parameters, which is only about 1/30 of the CNN-based model.
Index Terms: Audio Set, audio tagging, compact feedforward sequentialmemorynetwork,audio-to audioratio,dataaugmentation

阿里云开发者社区整理

相关文章
|
语音技术 Python
在语音信号处理中,预加重
在语音信号处理中,预加重
1110 2
|
机器学习/深度学习 分布式计算 DataWorks
EasyRec 使用介绍|学习笔记
快速学习 EasyRec 使用介绍。
2131 0
|
2月前
|
人工智能 安全 Linux
OpenClaw 从入门到精通:全平台部署+8大必备Skill+阿里云百炼Coding Plan免费大模型API配置流程及常见问题解答
2026年,OpenClaw(Clawdbot)已经成为AI提效领域最具代表性的智能体平台,凭借可扩展、可训练、可协同的Agent能力,迅速成为个人效率提升、团队自动化办公的核心工具。但大量新手在使用过程中普遍遇到三大痛点:部署环境复杂、安装插件导致系统崩溃、AI频繁失忆或幻觉、模型调用不稳定、任务无法落地。真正的核心原因在于:**模型决定上限,但Skill与安全配置决定下限**。没有一套稳定的基础技能,再强的模型也无法发挥作用。
463 3
|
11月前
|
存储 API 内存技术
GD32通过SPI和QSPI模式读取GD的NOR Flash
GD32通过SPI和QSPI模式读取GD的NOR Flash
1760 2
|
机器学习/深度学习 自然语言处理 监控
深度学习之声音事件检测
基于深度学习的声音事件检测(Sound Event Detection, SED)是指从音频数据中检测并识别出特定的声音事件(如玻璃破碎、狗叫声、警报声等)。这种技术被广泛应用于智能家居、城市监控、医疗监护等领域,随着深度学习的进步,其性能和准确性得到了显著提升。
1671 0
|
存储 Perl
如何使用awk处理CSV文件?
【10月更文挑战第16天】如何使用awk处理CSV文件?
669 3
|
存储 开发者 Docker
|
机器学习/深度学习 并行计算 TensorFlow
GPU加速TensorFlow模型训练:从环境配置到代码实践的全方位指南,助你大幅提升深度学习应用性能,让模型训练不再等待
【8月更文挑战第31天】本文以随笔形式探讨了如何在TensorFlow中利用GPU加速模型训练,并提供了详细的实践指南。从安装支持GPU的TensorFlow版本到配置NVIDIA CUDA及cuDNN库,再到构建CNN模型并使用MNIST数据集训练,全面展示了GPU加速的重要性与实现方法。通过对比CPU与GPU上的训练效果,突显了GPU在提升训练速度方面的显著优势。最后,还介绍了如何借助TensorBoard监控训练过程,以便进一步优化模型。
2556 0
|
机器学习/深度学习 人工智能 数据挖掘
【人工智能】Transformers之Pipeline(一):音频分类(audio-classification)
【人工智能】Transformers之Pipeline(一):音频分类(audio-classification)
1183 0
|
并行计算 Linux 异构计算
分享一款刚开源上线3天的音乐人声分离工具!无需联网!页面化操作!
分享一款刚开源上线3天的音乐人声分离工具!无需联网!页面化操作!
843 1

热门文章

最新文章