开发者社区 > ModelScope模型即服务 > 语音 > 正文

模型采用的输入特征问题

请问模型的输入特征是用的fbank?

展开
收起
Hulucky 2023-08-10 14:35:02 228 0
1 条回答
写回答
取消 提交回答
  • 模型的输入特征是用 MFCC 特征。

    MFCC 特征是 Mel 频域能量特征的一种,它是一种用于语音识别和语音合成的数据压缩技术。MFCC 特征是由 Mel 滤波器组构成的 Mel 滤波器组。Mel 滤波器组由一系列的正方形窗函数组成,每个窗函数的中心频率分别是 12 个等距的 Mel 频率。然后在 Mel 滤波器组的每一个窗函数上进行能量积分,得到每一个窗函数的能量值。最后,对这些能量值进行加权叠加,得到 Mel 频域能量特征。

    MFCC 特征是语音识别和语音合成中常用的一种特征。它具有良好的时间和频率特性,能够有效地表示语音信号的音质、语调、音高等信息。 MFCC 特征可以用来提取语音的音素信息、识别语音中的单词和句子,也可以用来合成语音。

    2023-09-27 09:25:26
    赞同 展开评论 打赏

包括语音识别、语音合成、语音唤醒、声学设计及信号处理、声纹识别、音频事件检测等多个领域

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载