文献来源: ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
1 简介和创新点
(1)简介
在语音增强领域提出了复数神经网络CDNN将复数值的有噪短时傅立叶变换(STFT)映射到干净的短时傅立叶变换。
提出了参数整流线性单位(PReLU)非线性的复数值扩展,这有助于改善CDNN的性能。
实验结果表明,与实值深层神经网络(DNN)相比,使用所提出的非线性性的CDNN可以提供相似或更好的增强结果
(2)创新点
使用使用实值反向传播训练的CDNN,而先前的研究探索了复数的反向传播
在模型中利用了以前未建议的复杂批处理规范化
提出了参数整流线性单位(PReLU)非线性的复数值激活函数,这有助于改善CDNN的性能。
2 模型
提出的全连接复数神经网络。图中的W表示复数的初始化权重,从Input输入两个向量与权重矩阵进行相乘,然后经过Batch-Normalization,再经过CPRcLU激活构成一个隐藏层。重复三个隐藏层。
提出的CPRcLu激活函数公式如下
其中αI 和αR是可训练参数
本文中还列出其他的复数激活函数,比如ModRelu、ZreLu、CReLu、zPReLu、z3PReLu,大部分激活函数最初都在《Deep Complex Network》文献中提出。
3 模型参数
数据集:TIMIT
训练集信噪比范围:【-5,5】
CDNN: 724 个复数隐藏单元
声音重采样频率:16KHZ
Batch-size:4096
优化器:Adam
学习率:0.0002
Dorpout率:0.2
4 实验结果
CPReLu激活函数效果最佳。CDNN相对于DNN效果最佳
5 疑问和思考
(1)该模型无源码,但是Batch-Normalization和激活函数是使用《Deep Complex Network》中的源码直接调用的。模型部分介绍不清楚。就连全脸层中有使用dropout层都没有在模型部分介绍,在实验部分接受到的。
(2)全连接层的每层神经元个数没有展示,无法复现。
(3)《DeepComplex Network》复数神经网络的源码,可调用该源码封装的复数神经网络中的隐藏层的各个方法