采样率(sample rate)
音频采样率是指录音设备在一秒钟内对声音信号的采样次数,采样频率越高声音的还原就越真实越自然。
目前语音识别服务支持16000Hz和8000Hz两种采样率,其中电话业务一般使用8000Hz,其余业务使用16000Hz。
调用语音识别服务时,如果语音数据采样率高于16000Hz,需要先把采样率转换为16000Hz才能发送给语音识别服务;如果语音数据采样率是8000Hz,请勿将采样率转换为16000Hz,项目中选用支持8000Hz采样率的模型。
采样位数(sample size)
采样值或取样值,即是将采样样本幅度量化。用来衡量声音波动变化的参数,或是声卡的分辨率。数值越大、分辨率越高,发出声音的能力越强。
目前语音识别中常用的采样位数为16bits小端序。即每次采样的音频信息用2字节保存,或者说2字节记录1/16000s的音频数据。
每个采样数据记录的是振幅,采样精度取决于采样位数的大小:
1字节(8bit)记录256个数,亦即将振幅划分为256个等级。
2字节(16bit)记录65536个数。
其中2字节采样位数已经能够达到CD标准。