模型采用的输入特征问题

请问模型的输入特征是用的fbank?

展开
收起
Hulucky 2023-08-10 14:35:02 266 分享 版权
1 条回答
写回答
取消 提交回答
  • 模型的输入特征是用 MFCC 特征。

    MFCC 特征是 Mel 频域能量特征的一种,它是一种用于语音识别和语音合成的数据压缩技术。MFCC 特征是由 Mel 滤波器组构成的 Mel 滤波器组。Mel 滤波器组由一系列的正方形窗函数组成,每个窗函数的中心频率分别是 12 个等距的 Mel 频率。然后在 Mel 滤波器组的每一个窗函数上进行能量积分,得到每一个窗函数的能量值。最后,对这些能量值进行加权叠加,得到 Mel 频域能量特征。

    MFCC 特征是语音识别和语音合成中常用的一种特征。它具有良好的时间和频率特性,能够有效地表示语音信号的音质、语调、音高等信息。 MFCC 特征可以用来提取语音的音素信息、识别语音中的单词和句子,也可以用来合成语音。

    2023-09-27 09:25:26
    赞同 展开评论

包括语音识别、语音合成、语音唤醒、声学设计及信号处理、声纹识别、音频事件检测等多个领域

热门讨论

热门文章

还有其他疑问?
咨询AI助理