modelscope-funasr这个如果要部署8K的模型，时间戳模型应该是哪个？

展开

收起

三分钟热度的鱼 2024-01-10 17:00:58 461 版权

3 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

modelscope-funasr的长音频版本，Paraformer-large长音频模型，集成了VAD（语音活动检测）、ASR（自动语音识别）、标点与时间戳功能，能够直接对时长为数小时的音频进行识别，并输出带标点文字与时间戳。具体来说，它通过encoder之后的predictor模块实现token级别的声学表征的生成，predictor中的cif机制通过累积帧级别权重计算了每个token的持续区间与发射位置，这使得通过predictor实现与ASR任务一体化的时间戳预测（Timestamp Prediction, TP）成为了可能。因此，如果你需要部署8K的模型，可以考虑使用这个长音频版本的模型。

2024-01-13 13:35:14

赞同展开评论
sunrr

对于8K的模型部署，目前modelscope-funasr并没有专门针对8K的带时间戳的模型。不过，您可以使用16k的时间戳模型，服务端会进行重采样来适应8K的输入。

在FunASR中，时间戳预测是作为一个与ASR任务一体化的部分来实现的。具体来说，Paraformer模型通过其encoder之后的predictor模块生成token级别的声学表征。这个predictor模块中的cif机制通过累积帧级别权重计算了每个token的持续区间与发射位置，从而实现了与ASR任务一体化的时间戳预测。此外，FunASR还发布了一个名为TP-Aligner的模型，它结合了一个较小尺寸的编码器和一个时间戳预测器，能够以语音和相应的转录作为输入来生成时间戳。

在部署过程中，您可以通过调整API接口中的相应参数来进行模型推理。如果您需要进一步的细节或遇到问题，建议参考modelscope-funasr的官方文档或社区交流来获取更具体的指导。

2024-01-12 09:58:48

赞同展开评论
圆不溜秋的小猫猫

8k不支持时间戳。此回答整理自钉群“modelscope-funasr社区交流”

2024-01-10 17:31:24

赞同展开评论

modelscope-funasr这个如果要部署8K的模型，时间戳模型应该是哪个？

ModelScope模型即服务

相关解决方案

热门讨论

热门文章