开发者社区 > ModelScope模型即服务 > 语音 > 正文

48kFRCRN模型

您好,在论文《FRCRN: BOOSTING FEATURE REPRESENTATION USING FREQUENCY RECURRENCE FOR MONAURAL SPEECH ENHANCEMENT》的3.2节中提到对全频段48KHZ语音增强时,窗长是20ms,帧移是10ms,STFT长度增加到1920,得到了长度为1921的频带。请问为什么得到的频带长度为1921呢?不应该是1920//2+1=961吗? 如有答复不胜感谢!

展开
收起
jkt4nncyd62dm 2023-04-07 20:23:29 457 0
1 条回答
写回答
取消 提交回答
  • 十年摸盘键,代码未曾试。 今日码示君,谁有上云事。

    编解码器中各有6个CR模块,时序建模中有两个CFSMN。帧长20ms帧移10ms,STFT点数为1920,按1-641,641-1282,1282-1921的频点索引将整个STFT谱分为三组并沿通道为拼接,即网络输入通道数为3。网络输出的cIRM为对于为1921。

    2023-04-08 09:09:01
    赞同 展开评论 打赏

包括语音识别、语音合成、语音唤醒、声学设计及信号处理、声纹识别、音频事件检测等多个领域

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载