请问一下pipeline推理语音识别时候支持最大语音是多少kb的?

我在使用pipeline测试语音识别,使用的是damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch,请问该模型支持最大语音长度是多少?

展开
收起
游客vpclpbddmbwso 2023-01-31 15:43:56 846 分享 版权
2 条回答
写回答
取消 提交回答
  • 您好,damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch模型推荐输入语音时长在20s以下,若想解码长音频,可以使用damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch模型,该模型集成VAD、ASR、标点与时间戳功能,可直接对时长为数小时音频进行识别,并输出带标点文字与时间戳。欢迎加入我们的钉钉交流群(27215013275)进行讨论~

    2023-02-07 15:53:47
    赞同 展开评论
  • 资深技术专家。主攻技术开发,擅长分享、写文、测评。

    例如aac,64位,双通道,则对于交错模式最大为:linesize = 2 x 1024 x 8 = 16384。此时也是 … 对于平面模式最大为:linesize = 1024 x 8 = 8192,平面模式时会有多个平面通道,例data [0] 这里是字节,转换为kb

    2023-01-31 18:46:37
    赞同 展开评论

包括语音识别、语音合成、语音唤醒、声学设计及信号处理、声纹识别、音频事件检测等多个领域

收录在圈子:
+ 订阅

热门讨论

热门文章

还有其他疑问?
咨询AI助理