开发者社区 > ModelScope模型即服务 > 语音 > 正文

请问一下pipeline推理语音识别时候支持最大语音是多少kb的?

我在使用pipeline测试语音识别,使用的是damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch,请问该模型支持最大语音长度是多少?

展开
收起
游客vpclpbddmbwso 2023-01-31 15:43:56 804 0
2 条回答
写回答
取消 提交回答
  • 您好,damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch模型推荐输入语音时长在20s以下,若想解码长音频,可以使用damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch模型,该模型集成VAD、ASR、标点与时间戳功能,可直接对时长为数小时音频进行识别,并输出带标点文字与时间戳。欢迎加入我们的钉钉交流群(27215013275)进行讨论~

    2023-02-07 15:53:47
    赞同 展开评论 打赏
  • 例如aac,64位,双通道,则对于交错模式最大为:linesize = 2 x 1024 x 8 = 16384。此时也是 … 对于平面模式最大为:linesize = 1024 x 8 = 8192,平面模式时会有多个平面通道,例data [0] 这里是字节,转换为kb

    2023-01-31 18:46:37
    赞同 展开评论 打赏

包括语音识别、语音合成、语音唤醒、声学设计及信号处理、声纹识别、音频事件检测等多个领域

相关产品

  • 智能语音交互
  • 相关电子书

    更多
    阿里云总监课第二期——Neural Network Language Model在语音识别中的应用 立即下载
    阿里云总监课第二期——Latency Controlled-BLSTM模型在语音识别中的应用 立即下载
    智能语音交互:阿里巴巴的研究与实践 立即下载