模型的输入特征是用 MFCC 特征。
MFCC 特征是 Mel 频域能量特征的一种,它是一种用于语音识别和语音合成的数据压缩技术。MFCC 特征是由 Mel 滤波器组构成的 Mel 滤波器组。Mel 滤波器组由一系列的正方形窗函数组成,每个窗函数的中心频率分别是 12 个等距的 Mel 频率。然后在 Mel 滤波器组的每一个窗函数上进行能量积分,得到每一个窗函数的能量值。最后,对这些能量值进行加权叠加,得到 Mel 频域能量特征。
MFCC 特征是语音识别和语音合成中常用的一种特征。它具有良好的时间和频率特性,能够有效地表示语音信号的音质、语调、音高等信息。 MFCC 特征可以用来提取语音的音素信息、识别语音中的单词和句子,也可以用来合成语音。