modelscope-funasr正常加载模型，能提供服务，不过只能转录一个字，为什么？

modelscope-funasr正常加载模型，能提供服务，不过只能转录一个字，为什么？环境：Linux 5.10.84-004.ali5000.alios7.x86_64
Python 3.9.7
torch 1.13.1+cu117
modelscope 1.10.0
funasr 0.8.7
funasr-onnx 0.2.4
模型：https://modelscope.cn/models/damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx/summary ，v1.2.4版本
服务代码：https://github.com/alibaba-damo-academy/FunASR/blob/main/runtime/python/onnxruntime/funasr_server_http.py

展开

收起

三分钟热度的鱼 2024-01-10 16:52:31 189 版权

2 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
根据您提供的信息，模型加载正常，可以提供服务。但是只能转录一个字的原因可能是模型的输入尺寸与实际输入数据不匹配。

在提供的服务代码中，可以看到模型的输入尺寸为(batch_size, max_len, feature_dim)，其中max_len表示输入音频的最大长度。如果实际输入音频的长度小于max_len，则无法进行完整的转录。

为了解决这个问题，您可以尝试以下方法：
1. 调整模型的输入尺寸，使其能够处理实际输入音频的长度。这可能需要修改模型的定义或使用其他模型。
2. 对实际输入音频进行预处理，将其长度填充到与模型输入尺寸相匹配。这可以通过截断或填充音频来实现。
3. 检查服务代码中的输入数据格式和预处理步骤，确保它们与模型的要求一致。
2024-01-13 14:28:28

赞同展开评论
sunrr
根据您提供的信息，modelscope-funasr正常加载模型并提供服务，但只能转录一个字。这可能是由于以下原因之一：
1. 模型训练时只使用了单个字符作为目标标签，导致模型无法学习到更复杂的语言结构。
2. 模型在训练和预测过程中可能存在一些问题，例如梯度消失或梯度爆炸等。
3. 服务代码中可能存在一些错误或遗漏，导致模型无法正确处理输入数据。
建议您检查模型的训练过程、服务代码以及输入数据的格式是否正确。如果问题仍然存在，您可以尝试使用其他工具或库进行语音识别，或者联系ModelScope的技术支持以获取更多帮助。
2024-01-12 10:12:06

赞同展开评论

modelscope-funasr正常加载模型，能提供服务，不过只能转录一个字，为什么？

ModelScope模型即服务

相关文章

相关解决方案

热门讨论

热门文章