modelscope-funasr这个如果要部署8K的模型,时间戳模型应该是哪个?

modelscope-funasr这个如果要部署8K的模型,时间戳模型应该是哪个?c88642200fffca1338727620cc7660dd.png

展开
收起
三分钟热度的鱼 2024-01-10 17:00:58 323 分享 版权
3 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    modelscope-funasr的长音频版本,Paraformer-large长音频模型,集成了VAD(语音活动检测)、ASR(自动语音识别)、标点与时间戳功能,能够直接对时长为数小时的音频进行识别,并输出带标点文字与时间戳。具体来说,它通过encoder之后的predictor模块实现token级别的声学表征的生成,predictor中的cif机制通过累积帧级别权重计算了每个token的持续区间与发射位置,这使得通过predictor实现与ASR任务一体化的时间戳预测(Timestamp Prediction, TP)成为了可能。因此,如果你需要部署8K的模型,可以考虑使用这个长音频版本的模型。

    2024-01-13 13:35:14
    赞同 展开评论
  • 对于8K的模型部署,目前modelscope-funasr并没有专门针对8K的带时间戳的模型。不过,您可以使用16k的时间戳模型,服务端会进行重采样来适应8K的输入。

    在FunASR中,时间戳预测是作为一个与ASR任务一体化的部分来实现的。具体来说,Paraformer模型通过其encoder之后的predictor模块生成token级别的声学表征。这个predictor模块中的cif机制通过累积帧级别权重计算了每个token的持续区间与发射位置,从而实现了与ASR任务一体化的时间戳预测。此外,FunASR还发布了一个名为TP-Aligner的模型,它结合了一个较小尺寸的编码器和一个时间戳预测器,能够以语音和相应的转录作为输入来生成时间戳。

    在部署过程中,您可以通过调整API接口中的相应参数来进行模型推理。如果您需要进一步的细节或遇到问题,建议参考modelscope-funasr的官方文档或社区交流来获取更具体的指导。

    2024-01-12 09:58:48
    赞同 展开评论
  • 8k不支持时间戳。此回答整理自钉群“modelscope-funasr社区交流”

    2024-01-10 17:31:24
    赞同 展开评论

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

还有其他疑问?
咨询AI助理