【文献学习】Phase-Aware Speech Enhancement with Deep Complex U-Net

简介: 文章介绍了Deep Complex U-Net模型,用于复数值的语音增强,提出了新的极坐标掩码方法和wSDR损失函数,并通过多种评估指标验证了其性能。

论文地址https://openreview.net/pdf?id=SkeRTsAcYm
Pytorch实现的源码

1 简介和创新点

(1)提出了Deep Complex U-Net语音增强模型,这是一种先进的U-Net结构化模型,其中包含定义明确的复数值构建基块以处理复数值频谱图。U-net的提出来源于文献《U-net: Convolutional networks for biomedical image segmentation》
(2)提出了一种极坐标复数掩码方法,以反映复数理想比率掩码的分布
(3)定义了一种新的损失函数,即加权源失真比(wSDR)损失,该函数与定量评估指标直接相关

2 综述

由于早期研究仅关注与幅度相关的训练目标,而忽略了相位,还仅通过简单地将估计的幅度与嘈杂的语音阶段相结合来重新合成估计的语音。且仅通过常规技术使用相位,在低信噪比下效果反而不佳,为了解决此类问题一种流行的语音增强方法是优化掩码,当将掩码应用于嘈杂的输入音频时,该掩码会产生清晰语音的频谱。在2018年提出CRM(Complex-valued ratio mask)掩码解决了此问题。
为了估计复数值掩码,作者利用《Deep Complex Network》文献提出的处理复域运算的体系结构去构建网络模型。

3 模型

3.1 神经网络模型

训练集的样本来自使用短时傅立叶逆变换(STFT)将时域波形转为频谱图。先是三个卷积层,后三个是反卷积层,为了恢复输入的大小。使用作者提出的Leaky CReLU激活函数。

1.png

3.2 计算CRM掩码数学模型

计算CRM掩码的公式表达如下。其中Mtf表示要求的CRM掩码,Otf表示神经网络的输出,|Otf|表示模型的大小

2.png

3.3 损失函数

由于相结构的随机性,在复数的STFT域中用MSE优化模型的相位估计是不行的。为此提出了一个weighted-SDR(source-to-distortion ratio) 损失函数。这使得损失函数限制在[-1,1]范围内,并且对相位也更加敏感,因为反相也会受到不利影响。为了适当地平衡每个损失项的贡献并解决标度不敏感问题,对每个项的加权与每个信号的能量成比例。加权的损失函数公式如下

3.png


4.png

其中lossSDR(z, z ^)是噪声预测项。 z^ = x−y^是估计的噪声,α赶紧语音y与噪声z之间的能量比。 y是源信号,y^是估计的信号。

4 模型参数

(1)对比实验的模型

  • SEGAN:生成对抗网络优化的时域U-Net模型
  • Wavenet:基于时域的非因果扩展Wavenet网络
  • MMSE-GAN:一种基于时频掩码的方法,具有改进的对抗训练方法
  • Deep Feature Loss:利用来自分类器网络的特征损失进行训练的时域扩张卷积网络

(2)神经网络模型参数作者没有介绍

5 实验分析

  • PESQ:语音质量感知评估
  • CSIG:信号失真的平均意见得分(MOS)预测因子
  • CBAK:平均意见得分的背景噪声干扰预测器
  • COVL:整体信号质量的MOS预测器
  • SSNR:分段SNR
    显而易见,分数越高,语音增强效果越有好。

6 思考和疑问

(1)因为仅对复数下的U-Net模型感兴趣,重心放在了模型介绍上,但是作者并没有详细介绍模型的参数以及模型 具体结构。作者的论文大部分集中放在了分析上。论文本身质量很高,但是我要找的东西没有太详细介绍。模型结构还需阅读文献U-net提出的的初始论文《U-net: Convolutional networks for biomedical image segmentation》
(2)实验分析部分,长篇大论,因为我不是在此论文上挖掘语音增强技术的信息,所有在此没有继续进行解读。未知的东西,应该在源码中有所体现
Pytorch实现的源码

目录
相关文章
|
1月前
|
Java 物联网 C#
C#/.NET/.NET Core学习路线集合,学习不迷路!
C#/.NET/.NET Core学习路线集合,学习不迷路!
|
2月前
|
开发框架 缓存 算法
开源且实用的C#/.NET编程技巧练习宝库(学习,工作,实践干货)
开源且实用的C#/.NET编程技巧练习宝库(学习,工作,实践干货)
学习计算机组成原理(王道考研)------第十一天https://zhengyz.blog.csdn.net/article/details/121706379?spm=1001.2014.3001.5502
这篇文章是关于计算机组成原理的王道考研学习笔记,主要介绍了半导体存储器RAM和ROM的相关知识。
学习计算机组成原理(王道考研)------第十一天https://zhengyz.blog.csdn.net/article/details/121706379?spm=1001.2014.3001.5502
|
4月前
|
机器学习/深度学习 数据挖掘
【博士每天一篇文献-综述】Communication dynamics in complex brain networks
本文综述了复杂脑网络中的通信动态,提出了一个将通信动态视为结构连接和功能连接之间必要联系的概念框架,探讨了结构网络的局部和全局拓扑属性如何支持网络通信模式,以及网络拓扑与动态模型之间的相互作用如何提供对大脑信息转换和处理机制的额外洞察。
53 2
【博士每天一篇文献-综述】Communication dynamics in complex brain networks
|
4月前
|
机器学习/深度学习
【文献学习】Exploring Deep Complex Networks for Complex Spectrogram Enhancement
介绍了一种用于语音增强的复数深度神经网络(CDNN),它通过复数值的短时傅立叶变换(STFT)映射到干净的STFT,并提出了参数整流线性单位(PReLU)的复数扩展,实验结果表明CDNN在语音增强方面相对于实值深层神经网络(DNN)具有更好的性能。
54 2
【文献学习】Exploring Deep Complex Networks for Complex Spectrogram Enhancement
|
4月前
|
数据可视化 算法 Go
【博士每天一篇文献-实验】Exploring the Morphospace of Communication Efficiency in Complex Networks
这篇论文探讨了复杂网络中不同拓扑结构下的通信效率,并使用"效率形态空间"来分析网络拓扑与效率度量之间的关系,得出结论表明通信效率与网络结构紧密相关。
50 3
|
4月前
|
机器学习/深度学习 网络协议 PyTorch
【文献学习】DCCRN: Deep Complex Convolution Recurrent Network for Phase-Aware Speech Enhancement
本文介绍了一种新的深度复数卷积递归网络(DCCRN),用于处理语音增强问题,特别是针对低模型复杂度的实时处理。
198 5
|
4月前
|
机器学习/深度学习 算法 TensorFlow
【文献学习】Analysis of Deep Complex-Valued Convolutional Neural Networks for MRI Reconstruction
本文探讨了使用复数卷积神经网络进行MRI图像重建的方法,强调了复数网络在保留相位信息和减少参数数量方面的优势,并通过实验分析了不同的复数激活函数、网络宽度、深度以及结构对模型性能的影响,得出复数模型在MRI重建任务中相对于实数模型具有更优性能的结论。
42 0
【文献学习】Analysis of Deep Complex-Valued Convolutional Neural Networks for MRI Reconstruction
|
4月前
|
开发框架 .NET API
C#/.NET/.NET Core推荐学习书籍(24年8月更新)
C#/.NET/.NET Core推荐学习书籍(24年8月更新)
112 0
|
4月前
|
机器学习/深度学习 存储 算法
【文献学习】Deep Complex Networks
本文深入探讨了深度复数网络(Deep Complex Networks),包括其创新点、复数的优势、作者贡献,以及深度复数技术的具体应用,如复数卷积、激活函数、Batch-Normalization、权重初始化和卷积残差网络,并提出了对文中一些复杂概念的疑问和反思。
95 0