modelscope-funasr问题请教下:我看infer的代码参数是可以传时间戳模型的,有没有现在的时间戳模型和对应的config,我想要用speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch 组合时间戳模型,能够在推理的时候输入类似于speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch这个模型的sentences的数据出来,应该怎么操作?另外我不需要paraformer-large-vad-punc输出的text,text_postprocessed,time_stamp的内容只需要sentences的这个数据
独立的时间戳模型在这里
https://modelscope.cn/models/damo/speech_timestamp_prediction-v1-16k-offline/summary
但是只有长音频版也就是paraformer-large-vad-punc这个模型在infer的过程中会生成sentence字段,并且这个模型的时间戳预测是随着asr的预测一起产生的,比先asr再预测时间戳更准确。我看你的需求应该是用长音频版模型就可以了。需要finetune的asr模型是一样的,长音频版模型只是在pipeline级别集成了外部的vad和punc,模型上给predictor部分添加了一个cif头,不会有速度变慢的问题。此回答整理自钉群“modelscope-funasr社区交流”
ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352