【文献学习】Deep Learning for Audio Signal Processing

简介: 关于深度学习在音频信号处理领域应用的综述,涵盖了不同类型的深度学习模型及其在音频识别和合成任务中的应用。

1 引言

是一篇深度学习处理音频信号的综述
(1)对神经网络应用到音频信号处理领域的技术点进行了介绍,包括即音频识别(自动语音识别,音乐信息检索,环境声音检测,定位和跟踪)以及合成和转换(源分离,音频增强,语音,声音和音乐合成的生成模型)
(2)对深度学习应用到的音频信号处理领域的网络模型进行了介绍,包括卷积神经网络,长期短期记忆体系结构的变体以及更多音频特定的神经网络模型。

2 介绍

2.1 问题分类

作者把神经网络所解决的信号处理问题分为四类
• 单标签分类(序列分类)
• 多标签分类(多标签序列分类)
• 序列回归:回归问题最终可以通过离散化转化成分类问题
• 序列转录:语音转文本

2.2 音频特征

梅尔频率倒谱系数(MFCC)被用作音频分析任务的主要声学特征表示

3 深度学习模型

音频信号可以表示为一系列原始音频或人工工程特征向量(例如,对数/恒定Q /复合频谱),矩阵(例如,频谱图)或张量(例如,堆叠的频谱图)的帧序列 通过各种深度学习模型进行分析

3.1 CNN

对于序列标记,可以省略密集层以获得全卷积网络(FCN)。CNN的结构固定了CNN的视野(计算预测所涉及的样本或光谱的数量)。可以通过使用更大的内核或堆叠更多的层来增加它。特别是对于具有高采样率的原始波形输入,达到足够的视野大小可能会导致大量的CNN参数和高计算复杂性。或者,可以使用膨胀的卷积(也称为圆环或带孔的卷积)[25],[27]-[29],通过在滤波器系数之间插入零来在大于其滤波器长度的区域上应用卷积滤波器。

3.2 RNN

(1)但RNN可能会遭受梯度消失/爆炸的困扰。长期短期记忆(LSTM)[7]利用门控机制和存储单元来减轻信息流并缓解梯度问题。
(2)文献[34][35]提出递归层和稀疏递归网络的堆叠在音频合成中是有用的
(3)LSTM除了用于对时间序列进行建模外,还被扩展为跨时域和频域对音频信号进行建模。 引入了频率LSTM(FLSTM)[36]和时频LSTM(TF-LSTM)[37]-[39]作为CNN的替代品,以模拟频率相关性。FLSTM通过局部滤波器和循环连接捕获了翻译不变性。 它们不需要池化操作,并且更适合各种类型的输入功能。 TF-LSTM在时间和频率上均已展开,可用于通过本地滤波器和循环连接对频谱和时间变化建模。 TF-LSTM在某些任务上胜过CNN
(4)RNN可以处理CNN的输出,从而形成卷积递归神经网络(CRNN)。 在这种情况下,卷积层提取局部信息,而循环层则在较长的时间范围内将其组合。 可视化处理时间上下文的各种方法

3.3 序列到序列

序列到序列模型将输入序列直接转换为输出序列。 许多音频处理任务本质上是序列到序列的转换任务。 但是,由于音频处理任务涉及的复杂性大,常规系统通常将任务分为一系列子任务,并独立解决每个任务。 以语音识别为例,最终任务需要将输入的时间音频信号转换为单词的输出序列。 但是传统的ASR系统包含单独的声学,发音和语言建模组件,这些组件通常是独立训练的

3.4 GAN

(1)尽管GAN [55]在图像合成方面取得了成功,但它们在音频领域的使用受到了限制。 GAN已用于源分离[56],乐器转换[57]和语音增强,以将有噪声的语音输入转换为降噪后的版本[58]-[61]
(2)利用GAN网络语音增强的文献

  • 【SEGAN: Speech Enhancement Generative Adversarial Network】
    代码
  • 【Deep Learning for Joint Channel Estimation and Signal Detection in OFDM Systems】GAN网络做信号检测
  • 【Exploring speech enhancement with generative adversarial networks for robust speech recognition】
  • 【Conditional generative adversarial networks for speech enhancement and noise-robust speaker verification】
  • 【Cross-domain speech recognition using nonparallel corpora with cycle-consistent adversarial networks】
目录
相关文章
|
算法 数据库 计算机视觉
Dataset之COCO数据集:COCO数据集的简介、下载、使用方法之详细攻略
Dataset之COCO数据集:COCO数据集的简介、下载、使用方法之详细攻略
|
3月前
|
存储 人工智能 JavaScript
小米AI眼镜是值不值得买,看完就知道
2025年6月26日,小米正式发布首款AI眼镜,售价1999元起。搭载高通AR1芯片与恒玄2700,配备1200万摄像头、5麦克风阵列,支持录音转写、同声传译、卡路里识别等功能。可选电致变色镜片,双指轻划0.2秒变色。4GB+32GB存储组合,续航约50分钟。外观致敬Meta RayBan,经典百搭。虽定价略高,但功能丰富,适合有智能穿戴需求的用户。
|
9月前
|
机器学习/深度学习 自然语言处理 PyTorch
深入剖析Transformer架构中的多头注意力机制
多头注意力机制(Multi-Head Attention)是Transformer模型中的核心组件,通过并行运行多个独立的注意力机制,捕捉输入序列中不同子空间的语义关联。每个“头”独立处理Query、Key和Value矩阵,经过缩放点积注意力运算后,所有头的输出被拼接并通过线性层融合,最终生成更全面的表示。多头注意力不仅增强了模型对复杂依赖关系的理解,还在自然语言处理任务如机器翻译和阅读理解中表现出色。通过多头自注意力机制,模型在同一序列内部进行多角度的注意力计算,进一步提升了表达能力和泛化性能。
|
Python
【报错】Could not install packages due to an OSError: [Errno 2] No such file or directory: ‘/METADATA‘
【报错】Could not install packages due to an OSError: [Errno 2] No such file or directory: ‘/METADATA‘
2958 1
|
12月前
|
机器学习/深度学习 算法框架/工具 数据库
使用Python实现深度学习模型:智能城市噪音监测与控制
使用Python实现深度学习模型:智能城市噪音监测与控制
358 1
|
11月前
|
机器学习/深度学习 人工智能 Python
MuCodec:清华、腾讯AI、港中文共同推出的超低比特率音乐编解码器
MuCodec是由清华大学深圳国际研究生院、腾讯AI实验室和香港中文大学联合开发的超低比特率音乐编解码器。它能够在0.35kbps至1.35kbps的比特率下实现高效的音乐压缩和高保真重建,适用于在线音乐流媒体服务、音乐下载、语言模型建设等多个应用场景。
237 1
MuCodec:清华、腾讯AI、港中文共同推出的超低比特率音乐编解码器
|
10月前
|
人工智能 自然语言处理 搜索推荐
智能语音助手的发展与未来:开启人机交互的新篇章
智能语音助手的发展与未来:开启人机交互的新篇章
1593 28
|
10月前
|
机器学习/深度学习 传感器 边缘计算
基于深度学习的图像识别技术在自动驾驶中的应用####
随着人工智能技术的飞速发展,深度学习已成为推动自动驾驶技术突破的关键力量之一。本文深入探讨了深度学习算法,特别是卷积神经网络(CNN)在图像识别领域的创新应用,以及这些技术如何被集成到自动驾驶汽车的视觉系统中,实现对复杂道路环境的实时感知与理解,从而提升驾驶的安全性和效率。通过分析当前技术的最前沿进展、面临的挑战及未来趋势,本文旨在为读者提供一个全面而深入的视角,理解深度学习如何塑造自动驾驶的未来。 ####
403 1
|
12月前
|
机器学习/深度学习 人工智能 文字识别
ultralytics YOLO11 全新发布!(原理介绍+代码详见+结构框图)
本文详细介绍YOLO11,包括其全新特性、代码实现及结构框图,并提供如何使用NEU-DET数据集进行训练的指南。YOLO11在前代基础上引入了新功能和改进,如C3k2、C2PSA模块和更轻量级的分类检测头,显著提升了模型的性能和灵活性。文中还对比了YOLO11与YOLOv8的区别,并展示了训练过程和结果的可视化
17870 0
|
机器学习/深度学习 存储 人工智能
【博士每天一篇文献-算法】改进的PNN架构Progressive learning A deep learning framework for continual learning
本文提出了一种名为“Progressive learning”的深度学习框架,通过结合课程选择、渐进式模型容量增长和剪枝机制来解决持续学习问题,有效避免了灾难性遗忘并提高了学习效率。
354 4