【文献学习】Deep Learning for Audio Signal Processing

简介: 关于深度学习在音频信号处理领域应用的综述,涵盖了不同类型的深度学习模型及其在音频识别和合成任务中的应用。

1 引言

是一篇深度学习处理音频信号的综述
(1)对神经网络应用到音频信号处理领域的技术点进行了介绍,包括即音频识别(自动语音识别,音乐信息检索,环境声音检测,定位和跟踪)以及合成和转换(源分离,音频增强,语音,声音和音乐合成的生成模型)
(2)对深度学习应用到的音频信号处理领域的网络模型进行了介绍,包括卷积神经网络,长期短期记忆体系结构的变体以及更多音频特定的神经网络模型。

2 介绍

2.1 问题分类

作者把神经网络所解决的信号处理问题分为四类
• 单标签分类(序列分类)
• 多标签分类(多标签序列分类)
• 序列回归:回归问题最终可以通过离散化转化成分类问题
• 序列转录:语音转文本

2.2 音频特征

梅尔频率倒谱系数(MFCC)被用作音频分析任务的主要声学特征表示

3 深度学习模型

音频信号可以表示为一系列原始音频或人工工程特征向量(例如,对数/恒定Q /复合频谱),矩阵(例如,频谱图)或张量(例如,堆叠的频谱图)的帧序列 通过各种深度学习模型进行分析

3.1 CNN

对于序列标记,可以省略密集层以获得全卷积网络(FCN)。CNN的结构固定了CNN的视野(计算预测所涉及的样本或光谱的数量)。可以通过使用更大的内核或堆叠更多的层来增加它。特别是对于具有高采样率的原始波形输入,达到足够的视野大小可能会导致大量的CNN参数和高计算复杂性。或者,可以使用膨胀的卷积(也称为圆环或带孔的卷积)[25],[27]-[29],通过在滤波器系数之间插入零来在大于其滤波器长度的区域上应用卷积滤波器。

3.2 RNN

(1)但RNN可能会遭受梯度消失/爆炸的困扰。长期短期记忆(LSTM)[7]利用门控机制和存储单元来减轻信息流并缓解梯度问题。
(2)文献[34][35]提出递归层和稀疏递归网络的堆叠在音频合成中是有用的
(3)LSTM除了用于对时间序列进行建模外,还被扩展为跨时域和频域对音频信号进行建模。 引入了频率LSTM(FLSTM)[36]和时频LSTM(TF-LSTM)[37]-[39]作为CNN的替代品,以模拟频率相关性。FLSTM通过局部滤波器和循环连接捕获了翻译不变性。 它们不需要池化操作,并且更适合各种类型的输入功能。 TF-LSTM在时间和频率上均已展开,可用于通过本地滤波器和循环连接对频谱和时间变化建模。 TF-LSTM在某些任务上胜过CNN
(4)RNN可以处理CNN的输出,从而形成卷积递归神经网络(CRNN)。 在这种情况下,卷积层提取局部信息,而循环层则在较长的时间范围内将其组合。 可视化处理时间上下文的各种方法

3.3 序列到序列

序列到序列模型将输入序列直接转换为输出序列。 许多音频处理任务本质上是序列到序列的转换任务。 但是,由于音频处理任务涉及的复杂性大,常规系统通常将任务分为一系列子任务,并独立解决每个任务。 以语音识别为例,最终任务需要将输入的时间音频信号转换为单词的输出序列。 但是传统的ASR系统包含单独的声学,发音和语言建模组件,这些组件通常是独立训练的

3.4 GAN

(1)尽管GAN [55]在图像合成方面取得了成功,但它们在音频领域的使用受到了限制。 GAN已用于源分离[56],乐器转换[57]和语音增强,以将有噪声的语音输入转换为降噪后的版本[58]-[61]
(2)利用GAN网络语音增强的文献

  • 【SEGAN: Speech Enhancement Generative Adversarial Network】
    代码
  • 【Deep Learning for Joint Channel Estimation and Signal Detection in OFDM Systems】GAN网络做信号检测
  • 【Exploring speech enhancement with generative adversarial networks for robust speech recognition】
  • 【Conditional generative adversarial networks for speech enhancement and noise-robust speaker verification】
  • 【Cross-domain speech recognition using nonparallel corpora with cycle-consistent adversarial networks】
目录
相关文章
|
3月前
|
机器学习/深度学习 算法
【文献学习】RoemNet: Robust Meta Learning based Channel Estimation in OFDM Systems
本文提出了一种基于元学习的鲁棒信道估计算法RoemNet,旨在解决OFDM系统中由于训练和部署信道模型不一致导致的问题,并展示了其在不同信道环境下优越的性能。
40 5
|
1月前
|
机器学习/深度学习 人工智能 编解码
论文精度笔记(一):《ZERO-SHOT DETECTION WITH TRANSFERABLE OBJECT PROPOSAL MECHANISM》
本论文提出了一种零样本检测方法,通过引入可转移的对象候选机制来关联类别间的共现关系,并使用所有类的置信度分布进行对象置信度预测,以提高对未见类别物体的检测性能。
32 3
论文精度笔记(一):《ZERO-SHOT DETECTION WITH TRANSFERABLE OBJECT PROPOSAL MECHANISM》
|
1月前
|
机器学习/深度学习 Web App开发 人工智能
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》这篇论文提出了一种基于YOLOv3-Tiny的轻量级目标检测模型Micro-YOLO,通过渐进式通道剪枝和轻量级卷积层,显著减少了参数数量和计算成本,同时保持了较高的检测性能。
33 2
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
|
1月前
|
机器学习/深度学习 编解码 算法
论文精度笔记(二):《Deep Learning based Face Liveness Detection in Videos 》
论文提出了基于深度学习的面部欺骗检测技术,使用LRF-ELM和CNN两种模型,在NUAA和CASIA数据库上进行实验,发现LRF-ELM在检测活体面部方面更为准确。
26 1
论文精度笔记(二):《Deep Learning based Face Liveness Detection in Videos 》
|
3月前
|
机器学习/深度学习 编解码 人工智能
【文献学习】Deep Learning for Joint Channel Estimation and Signal Detection in OFDM Systems
该文章提出了一种基于深度学习的方法,用于OFDM系统中的联合信道估计和信号检测,通过信道估计网络(CENet)和信号检测网络(CCRNet)改善了传统方法的性能。
58 2
|
3月前
|
机器学习/深度学习
【文献学习】2 Power of Deep Learning for Channel Estimation and Signal Detection in OFDM
研究成果是:如果有足够的导频,则深度学习模型可以获得与传统方法相当的性能,但是在有限的导频、去除CP和非线性噪声下,深度学习模型更优。
62 1
|
3月前
|
机器学习/深度学习 网络协议 PyTorch
【文献学习】DCCRN: Deep Complex Convolution Recurrent Network for Phase-Aware Speech Enhancement
本文介绍了一种新的深度复数卷积递归网络(DCCRN),用于处理语音增强问题,特别是针对低模型复杂度的实时处理。
132 5
|
3月前
|
机器学习/深度学习 PyTorch 算法框架/工具
【文献学习】Phase-Aware Speech Enhancement with Deep Complex U-Net
文章介绍了Deep Complex U-Net模型,用于复数值的语音增强,提出了新的极坐标掩码方法和wSDR损失函数,并通过多种评估指标验证了其性能。
54 1
|
3月前
|
机器学习/深度学习
【文献学习】 ComNet: Combination of Deep Learning andExpert Knowledge in OFDM Receiver
本文提出了一种模型驱动的DL结构,称为ComNet,以取代传统的或FC-DNN的OFDM接收机。
37 1
|
机器学习/深度学习 自然语言处理 算法
【论文精读】COLING 2022-KiPT: Knowledge-injected Prompt Tuning for Event Detection
事件检测旨在通过识别和分类事件触发词(最具代表性的单词)来从文本中检测事件。现有的大部分工作严重依赖复杂的下游网络,需要足够的训练数据。
172 0
【论文精读】COLING 2022-KiPT: Knowledge-injected Prompt Tuning for Event Detection