【文献学习】Deep Learning for Audio Signal Processing

简介: 关于深度学习在音频信号处理领域应用的综述,涵盖了不同类型的深度学习模型及其在音频识别和合成任务中的应用。

1 引言

是一篇深度学习处理音频信号的综述
(1)对神经网络应用到音频信号处理领域的技术点进行了介绍,包括即音频识别(自动语音识别,音乐信息检索,环境声音检测,定位和跟踪)以及合成和转换(源分离,音频增强,语音,声音和音乐合成的生成模型)
(2)对深度学习应用到的音频信号处理领域的网络模型进行了介绍,包括卷积神经网络,长期短期记忆体系结构的变体以及更多音频特定的神经网络模型。

2 介绍

2.1 问题分类

作者把神经网络所解决的信号处理问题分为四类
• 单标签分类(序列分类)
• 多标签分类(多标签序列分类)
• 序列回归:回归问题最终可以通过离散化转化成分类问题
• 序列转录:语音转文本

2.2 音频特征

梅尔频率倒谱系数(MFCC)被用作音频分析任务的主要声学特征表示

3 深度学习模型

音频信号可以表示为一系列原始音频或人工工程特征向量(例如,对数/恒定Q /复合频谱),矩阵(例如,频谱图)或张量(例如,堆叠的频谱图)的帧序列 通过各种深度学习模型进行分析

3.1 CNN

对于序列标记,可以省略密集层以获得全卷积网络(FCN)。CNN的结构固定了CNN的视野(计算预测所涉及的样本或光谱的数量)。可以通过使用更大的内核或堆叠更多的层来增加它。特别是对于具有高采样率的原始波形输入,达到足够的视野大小可能会导致大量的CNN参数和高计算复杂性。或者,可以使用膨胀的卷积(也称为圆环或带孔的卷积)[25],[27]-[29],通过在滤波器系数之间插入零来在大于其滤波器长度的区域上应用卷积滤波器。

3.2 RNN

(1)但RNN可能会遭受梯度消失/爆炸的困扰。长期短期记忆(LSTM)[7]利用门控机制和存储单元来减轻信息流并缓解梯度问题。
(2)文献[34][35]提出递归层和稀疏递归网络的堆叠在音频合成中是有用的
(3)LSTM除了用于对时间序列进行建模外,还被扩展为跨时域和频域对音频信号进行建模。 引入了频率LSTM(FLSTM)[36]和时频LSTM(TF-LSTM)[37]-[39]作为CNN的替代品,以模拟频率相关性。FLSTM通过局部滤波器和循环连接捕获了翻译不变性。 它们不需要池化操作,并且更适合各种类型的输入功能。 TF-LSTM在时间和频率上均已展开,可用于通过本地滤波器和循环连接对频谱和时间变化建模。 TF-LSTM在某些任务上胜过CNN
(4)RNN可以处理CNN的输出,从而形成卷积递归神经网络(CRNN)。 在这种情况下,卷积层提取局部信息,而循环层则在较长的时间范围内将其组合。 可视化处理时间上下文的各种方法

3.3 序列到序列

序列到序列模型将输入序列直接转换为输出序列。 许多音频处理任务本质上是序列到序列的转换任务。 但是,由于音频处理任务涉及的复杂性大,常规系统通常将任务分为一系列子任务,并独立解决每个任务。 以语音识别为例,最终任务需要将输入的时间音频信号转换为单词的输出序列。 但是传统的ASR系统包含单独的声学,发音和语言建模组件,这些组件通常是独立训练的

3.4 GAN

(1)尽管GAN [55]在图像合成方面取得了成功,但它们在音频领域的使用受到了限制。 GAN已用于源分离[56],乐器转换[57]和语音增强,以将有噪声的语音输入转换为降噪后的版本[58]-[61]
(2)利用GAN网络语音增强的文献

  • 【SEGAN: Speech Enhancement Generative Adversarial Network】
    代码
  • 【Deep Learning for Joint Channel Estimation and Signal Detection in OFDM Systems】GAN网络做信号检测
  • 【Exploring speech enhancement with generative adversarial networks for robust speech recognition】
  • 【Conditional generative adversarial networks for speech enhancement and noise-robust speaker verification】
  • 【Cross-domain speech recognition using nonparallel corpora with cycle-consistent adversarial networks】
目录
打赏
0
2
3
0
150
分享
相关文章
【文献学习】Deep Learning for Joint Channel Estimation and Signal Detection in OFDM Systems
该文章提出了一种基于深度学习的方法,用于OFDM系统中的联合信道估计和信号检测,通过信道估计网络(CENet)和信号检测网络(CCRNet)改善了传统方法的性能。
104 2
PredNet --- Deep Predictive coding networks for video prediction and unsupervised learning --- 论文笔记
PredNet --- Deep Predictive coding networks for video prediction and unsupervised learning   ICLR 2017  2017.03.12    Code and video examples can be found at: https://coxlab.github.io/prednet/   摘要:基于监督训练的深度学习技术取得了非常大的成功,但是无监督问题仍然是一个未能解决的一大难题(从未标注的数据中学习到一个领域的结构)。
【文献学习】2 Power of Deep Learning for Channel Estimation and Signal Detection in OFDM
研究成果是:如果有足够的导频,则深度学习模型可以获得与传统方法相当的性能,但是在有限的导频、去除CP和非线性噪声下,深度学习模型更优。
95 1
Speech Emotion Recognition With Local-Global aware Deep Representation Learning论文解读
语音情感识别(SER)通过从语音信号中推断人的情绪和情感状态,在改善人与机器之间的交互方面发挥着至关重要的作用。尽管最近的工作主要集中于从手工制作的特征中挖掘时空信息,但我们探索如何从动态时间尺度中建模语音情绪的时间模式。
182 0
语音顶会Interspeech 论文解读|Fast Learning for Non-Parallel Many-to-Many Voice Conversion with Residual Star Generative Adversarial Networks
Interspeech是世界上规模最大,最全面的顶级语音领域会议,本文为Shengkui Zhao, Trung Hieu Nguyen, Hao Wang, Bin Ma的入选论文
语音顶会Interspeech 论文解读|Fast Learning for Non-Parallel Many-to-Many Voice Conversion with Residual Star Generative Adversarial Networks
论文笔记之:Pedestrian Detection aided by Deep Learning Semantic Tasks
Pedestrian Detection aided by Deep Learning Semantic Tasks CVPR 2015 本文考虑将语义任务(即:行人属性和场景属性)和行人检测相结合,以语义信息协助进行行人检测。
【文献学习】 ComNet: Combination of Deep Learning andExpert Knowledge in OFDM Receiver
本文提出了一种模型驱动的DL结构,称为ComNet,以取代传统的或FC-DNN的OFDM接收机。
65 1
语音顶会Interspeech 论文解读|Investigation of Transformer based Spelling Correction Model for CTC-based End-to-End Mandarin Speech Recognition
Interspeech是世界上规模最大,最全面的顶级语音领域会议,本文为Shiliang Zhang, Ming Lei, Zhijie Yan的入选论文
语音顶会Interspeech 论文解读|Investigation of Transformer based Spelling Correction Model for CTC-based End-to-End Mandarin Speech Recognition

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等