我在使用pipeline测试语音识别,使用的是damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch,请问该模型支持最大语音长度是多少?
您好,damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch模型推荐输入语音时长在20s以下,若想解码长音频,可以使用damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch模型,该模型集成VAD、ASR、标点与时间戳功能,可直接对时长为数小时音频进行识别,并输出带标点文字与时间戳。欢迎加入我们的钉钉交流群(27215013275)进行讨论~
例如aac,64位,双通道,则对于交错模式最大为:linesize = 2 x 1024 x 8 = 16384。此时也是 … 对于平面模式最大为:linesize = 1024 x 8 = 8192,平面模式时会有多个平面通道,例data [0] 这里是字节,转换为kb