modelscope-funasr speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404-onnx这个模型缺少 tokens.txt 文件,跑不起来。
https://modelscope.cn/models/damo/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404-onnx/files
https://www.modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/files
我都是从这个模型里面拷贝 tokens.txt 出来用
对于缺少tokens.txt文件的问题,你可以尝试以下方法解决:
从ModelScope官网下载对应模型的tokens.txt文件。你可以在ModelScope官网上找到对应的模型,然后下载tokens.txt文件。
如果你无法在ModelScope官网上找到对应的tokens.txt文件,你可以自己生成一个。首先,你需要将你的音频文件转换为文本文件。然后,使用Python的nltk库来生成tokens.txt文件。
如果你使用的是自定义的音频文件,你需要确保你的音频文件中包含的是中文语音。因为FunASR是针对中文语音进行优化的,如果你的音频文件中包含的是其他语言的语音,可能会导致识别效果不佳。
新版本funasr,模型都是有tokens.txt/json,以前是把所有数据都写到config.yaml里面,这样一个弊端,训练与解码需要的资源文件不一样,需要用户手动转一下,新funasr,训练与推理,学术与工业,需要的资源是一模一样的了。此回答整理自钉群“modelscope-funasr社区交流”
ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352