【文献学习】Exploring Deep Complex Networks for Complex Spectrogram Enhancement-阿里云开发者社区

【文献学习】Exploring Deep Complex Networks for Complex Spectrogram Enhancement

2024-08-02 69

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 介绍了一种用于语音增强的复数深度神经网络（CDNN），它通过复数值的短时傅立叶变换（STFT）映射到干净的STFT，并提出了参数整流线性单位（PReLU）的复数扩展，实验结果表明CDNN在语音增强方面相对于实值深层神经网络（DNN）具有更好的性能。

文献来源： ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)

1 简介和创新点

（1）简介
在语音增强领域提出了复数神经网络CDNN将复数值的有噪短时傅立叶变换（STFT）映射到干净的短时傅立叶变换。
提出了参数整流线性单位（PReLU）非线性的复数值扩展，这有助于改善CDNN的性能。
实验结果表明，与实值深层神经网络（DNN）相比，使用所提出的非线性性的CDNN可以提供相似或更好的增强结果
（2）创新点
使用使用实值反向传播训练的CDNN，而先前的研究探索了复数的反向传播
在模型中利用了以前未建议的复杂批处理规范化
提出了参数整流线性单位（PReLU）非线性的复数值激活函数，这有助于改善CDNN的性能。

2 模型

提出的全连接复数神经网络。图中的W表示复数的初始化权重，从Input输入两个向量与权重矩阵进行相乘，然后经过Batch-Normalization，再经过CPRcLU激活构成一个隐藏层。重复三个隐藏层。
提出的CPRcLu激活函数公式如下

其中αI 和αR是可训练参数
本文中还列出其他的复数激活函数，比如ModRelu、ZreLu、CReLu、zPReLu、z3PReLu，大部分激活函数最初都在《Deep Complex Network》文献中提出。

3 模型参数

数据集：TIMIT
训练集信噪比范围：【-5，5】
CDNN： 724 个复数隐藏单元
声音重采样频率：16KHZ
Batch-size:4096
优化器：Adam
学习率：0.0002
Dorpout率：0.2

4 实验结果

CPReLu激活函数效果最佳。CDNN相对于DNN效果最佳

5 疑问和思考

（1）该模型无源码,但是Batch-Normalization和激活函数是使用《Deep Complex Network》中的源码直接调用的。模型部分介绍不清楚。就连全脸层中有使用dropout层都没有在模型部分介绍，在实验部分接受到的。
（2）全连接层的每层神经元个数没有展示，无法复现。

（3）《DeepComplex Network》复数神经网络的源码，可调用该源码封装的复数神经网络中的隐藏层的各个方法

【文献学习】Exploring Deep Complex Networks for Complex Spectrogram Enhancement

1 简介和创新点

2 模型

3 模型参数

4 实验结果

5 疑问和思考

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站

技术资料

【文献学习】Exploring Deep Complex Networks for Complex Spectrogram Enhancement

1 简介和创新点

2 模型

3 模型参数

4 实验结果

5 疑问和思考

热门文章

最新文章

相关电子书