【文献学习】Deep Learning for Audio Signal Processing

简介: 关于深度学习在音频信号处理领域应用的综述,涵盖了不同类型的深度学习模型及其在音频识别和合成任务中的应用。

1 引言

是一篇深度学习处理音频信号的综述
(1)对神经网络应用到音频信号处理领域的技术点进行了介绍,包括即音频识别(自动语音识别,音乐信息检索,环境声音检测,定位和跟踪)以及合成和转换(源分离,音频增强,语音,声音和音乐合成的生成模型)
(2)对深度学习应用到的音频信号处理领域的网络模型进行了介绍,包括卷积神经网络,长期短期记忆体系结构的变体以及更多音频特定的神经网络模型。

2 介绍

2.1 问题分类

作者把神经网络所解决的信号处理问题分为四类
• 单标签分类(序列分类)
• 多标签分类(多标签序列分类)
• 序列回归:回归问题最终可以通过离散化转化成分类问题
• 序列转录:语音转文本

2.2 音频特征

梅尔频率倒谱系数(MFCC)被用作音频分析任务的主要声学特征表示

3 深度学习模型

音频信号可以表示为一系列原始音频或人工工程特征向量(例如,对数/恒定Q /复合频谱),矩阵(例如,频谱图)或张量(例如,堆叠的频谱图)的帧序列 通过各种深度学习模型进行分析

3.1 CNN

对于序列标记,可以省略密集层以获得全卷积网络(FCN)。CNN的结构固定了CNN的视野(计算预测所涉及的样本或光谱的数量)。可以通过使用更大的内核或堆叠更多的层来增加它。特别是对于具有高采样率的原始波形输入,达到足够的视野大小可能会导致大量的CNN参数和高计算复杂性。或者,可以使用膨胀的卷积(也称为圆环或带孔的卷积)[25],[27]-[29],通过在滤波器系数之间插入零来在大于其滤波器长度的区域上应用卷积滤波器。

3.2 RNN

(1)但RNN可能会遭受梯度消失/爆炸的困扰。长期短期记忆(LSTM)[7]利用门控机制和存储单元来减轻信息流并缓解梯度问题。
(2)文献[34][35]提出递归层和稀疏递归网络的堆叠在音频合成中是有用的
(3)LSTM除了用于对时间序列进行建模外,还被扩展为跨时域和频域对音频信号进行建模。 引入了频率LSTM(FLSTM)[36]和时频LSTM(TF-LSTM)[37]-[39]作为CNN的替代品,以模拟频率相关性。FLSTM通过局部滤波器和循环连接捕获了翻译不变性。 它们不需要池化操作,并且更适合各种类型的输入功能。 TF-LSTM在时间和频率上均已展开,可用于通过本地滤波器和循环连接对频谱和时间变化建模。 TF-LSTM在某些任务上胜过CNN
(4)RNN可以处理CNN的输出,从而形成卷积递归神经网络(CRNN)。 在这种情况下,卷积层提取局部信息,而循环层则在较长的时间范围内将其组合。 可视化处理时间上下文的各种方法

3.3 序列到序列

序列到序列模型将输入序列直接转换为输出序列。 许多音频处理任务本质上是序列到序列的转换任务。 但是,由于音频处理任务涉及的复杂性大,常规系统通常将任务分为一系列子任务,并独立解决每个任务。 以语音识别为例,最终任务需要将输入的时间音频信号转换为单词的输出序列。 但是传统的ASR系统包含单独的声学,发音和语言建模组件,这些组件通常是独立训练的

3.4 GAN

(1)尽管GAN [55]在图像合成方面取得了成功,但它们在音频领域的使用受到了限制。 GAN已用于源分离[56],乐器转换[57]和语音增强,以将有噪声的语音输入转换为降噪后的版本[58]-[61]
(2)利用GAN网络语音增强的文献

  • 【SEGAN: Speech Enhancement Generative Adversarial Network】
    代码
  • 【Deep Learning for Joint Channel Estimation and Signal Detection in OFDM Systems】GAN网络做信号检测
  • 【Exploring speech enhancement with generative adversarial networks for robust speech recognition】
  • 【Conditional generative adversarial networks for speech enhancement and noise-robust speaker verification】
  • 【Cross-domain speech recognition using nonparallel corpora with cycle-consistent adversarial networks】
目录
相关文章
|
1月前
|
机器学习/深度学习 编解码 人工智能
【文献学习】Deep Learning for Joint Channel Estimation and Signal Detection in OFDM Systems
该文章提出了一种基于深度学习的方法,用于OFDM系统中的联合信道估计和信号检测,通过信道估计网络(CENet)和信号检测网络(CCRNet)改善了传统方法的性能。
30 2
|
1月前
|
机器学习/深度学习
【文献学习】2 Power of Deep Learning for Channel Estimation and Signal Detection in OFDM
研究成果是:如果有足够的导频,则深度学习模型可以获得与传统方法相当的性能,但是在有限的导频、去除CP和非线性噪声下,深度学习模型更优。
41 1
|
1月前
|
机器学习/深度学习
【文献学习】 ComNet: Combination of Deep Learning andExpert Knowledge in OFDM Receiver
本文提出了一种模型驱动的DL结构,称为ComNet,以取代传统的或FC-DNN的OFDM接收机。
27 1
|
1月前
|
机器学习/深度学习 PyTorch 算法框架/工具
【文献学习】Phase-Aware Speech Enhancement with Deep Complex U-Net
文章介绍了Deep Complex U-Net模型,用于复数值的语音增强,提出了新的极坐标掩码方法和wSDR损失函数,并通过多种评估指标验证了其性能。
31 1
|
机器学习/深度学习 自然语言处理 算法
【论文精读】COLING 2022-KiPT: Knowledge-injected Prompt Tuning for Event Detection
事件检测旨在通过识别和分类事件触发词(最具代表性的单词)来从文本中检测事件。现有的大部分工作严重依赖复杂的下游网络,需要足够的训练数据。
151 0
【论文精读】COLING 2022-KiPT: Knowledge-injected Prompt Tuning for Event Detection
|
机器学习/深度学习 自然语言处理
【论文精读】COLING 2022 - DESED: Dialogue-based Explanation for Sentence-level Event Detection
最近许多句子级事件检测的工作都集中在丰富句子语义上,例如通过多任务或基于提示的学习。尽管效果非常好,但这些方法通常依赖于标签广泛的人工标注
82 0
|
机器学习/深度学习 编解码 数据可视化
Speech Emotion Recognition With Local-Global aware Deep Representation Learning论文解读
语音情感识别(SER)通过从语音信号中推断人的情绪和情感状态,在改善人与机器之间的交互方面发挥着至关重要的作用。尽管最近的工作主要集中于从手工制作的特征中挖掘时空信息,但我们探索如何从动态时间尺度中建模语音情绪的时间模式。
122 0
|
数据挖掘
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation-ppt版学习笔记
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation-ppt版学习笔记
120 0
|
机器学习/深度学习 语音技术 搜索推荐
语音顶会Interspeech 论文解读|Fast Learning for Non-Parallel Many-to-Many Voice Conversion with Residual Star Generative Adversarial Networks
Interspeech是世界上规模最大,最全面的顶级语音领域会议,本文为Shengkui Zhao, Trung Hieu Nguyen, Hao Wang, Bin Ma的入选论文
语音顶会Interspeech 论文解读|Fast Learning for Non-Parallel Many-to-Many Voice Conversion with Residual Star Generative Adversarial Networks
|
语音技术 机器学习/深度学习 计算机视觉
语音顶会Interspeech 论文解读|Multi-Task Multi-Network Joint-Learning of Deep Residual Networks and Cycle-Consistency Generative Adversarial Networks for Robus
Interspeech是世界上规模最大,最全面的顶级语音领域会议,本文为Shengkui Zhao, Chongjia Ni, Rong Tong, Bin Ma的入选论文
语音顶会Interspeech 论文解读|Multi-Task Multi-Network Joint-Learning of Deep Residual Networks and Cycle-Consistency Generative Adversarial Networks for Robus