1 引言
是一篇深度学习处理音频信号的综述
(1)对神经网络应用到音频信号处理领域的技术点进行了介绍,包括即音频识别(自动语音识别,音乐信息检索,环境声音检测,定位和跟踪)以及合成和转换(源分离,音频增强,语音,声音和音乐合成的生成模型)
(2)对深度学习应用到的音频信号处理领域的网络模型进行了介绍,包括卷积神经网络,长期短期记忆体系结构的变体以及更多音频特定的神经网络模型。
2 介绍
2.1 问题分类
作者把神经网络所解决的信号处理问题分为四类
• 单标签分类(序列分类)
• 多标签分类(多标签序列分类)
• 序列回归:回归问题最终可以通过离散化转化成分类问题
• 序列转录:语音转文本
2.2 音频特征
梅尔频率倒谱系数(MFCC)被用作音频分析任务的主要声学特征表示
3 深度学习模型
音频信号可以表示为一系列原始音频或人工工程特征向量(例如,对数/恒定Q /复合频谱),矩阵(例如,频谱图)或张量(例如,堆叠的频谱图)的帧序列 通过各种深度学习模型进行分析
3.1 CNN
对于序列标记,可以省略密集层以获得全卷积网络(FCN)。CNN的结构固定了CNN的视野(计算预测所涉及的样本或光谱的数量)。可以通过使用更大的内核或堆叠更多的层来增加它。特别是对于具有高采样率的原始波形输入,达到足够的视野大小可能会导致大量的CNN参数和高计算复杂性。或者,可以使用膨胀的卷积(也称为圆环或带孔的卷积)[25],[27]-[29],通过在滤波器系数之间插入零来在大于其滤波器长度的区域上应用卷积滤波器。
3.2 RNN
(1)但RNN可能会遭受梯度消失/爆炸的困扰。长期短期记忆(LSTM)[7]利用门控机制和存储单元来减轻信息流并缓解梯度问题。
(2)文献[34][35]提出递归层和稀疏递归网络的堆叠在音频合成中是有用的
(3)LSTM除了用于对时间序列进行建模外,还被扩展为跨时域和频域对音频信号进行建模。 引入了频率LSTM(FLSTM)[36]和时频LSTM(TF-LSTM)[37]-[39]作为CNN的替代品,以模拟频率相关性。FLSTM通过局部滤波器和循环连接捕获了翻译不变性。 它们不需要池化操作,并且更适合各种类型的输入功能。 TF-LSTM在时间和频率上均已展开,可用于通过本地滤波器和循环连接对频谱和时间变化建模。 TF-LSTM在某些任务上胜过CNN
(4)RNN可以处理CNN的输出,从而形成卷积递归神经网络(CRNN)。 在这种情况下,卷积层提取局部信息,而循环层则在较长的时间范围内将其组合。 可视化处理时间上下文的各种方法
3.3 序列到序列
序列到序列模型将输入序列直接转换为输出序列。 许多音频处理任务本质上是序列到序列的转换任务。 但是,由于音频处理任务涉及的复杂性大,常规系统通常将任务分为一系列子任务,并独立解决每个任务。 以语音识别为例,最终任务需要将输入的时间音频信号转换为单词的输出序列。 但是传统的ASR系统包含单独的声学,发音和语言建模组件,这些组件通常是独立训练的
3.4 GAN
(1)尽管GAN [55]在图像合成方面取得了成功,但它们在音频领域的使用受到了限制。 GAN已用于源分离[56],乐器转换[57]和语音增强,以将有噪声的语音输入转换为降噪后的版本[58]-[61]
(2)利用GAN网络语音增强的文献
- 【SEGAN: Speech Enhancement Generative Adversarial Network】
代码 - 【Deep Learning for Joint Channel Estimation and Signal Detection in OFDM Systems】GAN网络做信号检测
- 【Exploring speech enhancement with generative adversarial networks for robust speech recognition】
- 【Conditional generative adversarial networks for speech enhancement and noise-robust speaker verification】
- 【Cross-domain speech recognition using nonparallel corpora with cycle-consistent adversarial networks】