modelscope-funasr电话场景使用默认的16K模型，设别不准，是不是需要使用8K模型？

展开

收起

三分钟热度的鱼 2024-01-10 16:56:34 456 版权

3 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

modelscope-funasr默认的16K模型可以支持实时语音识别，能有效实现实时字幕功能。然而，如果你在使用中遇到设备识别不准的问题，可以考虑调整模型参数。例如，使用8K模型可能会提供更好的识别精度。但具体是否适用，还需要根据实际情况进行尝试和评估。

2024-01-13 13:38:08

赞同展开评论
sunrr

是的，对于电话场景下的语音识别，使用默认的16K模型可能会出现识别不准的情况。电话场景的音频通常具有较高的采样率，而16K模型可能无法充分捕捉到音频中的细节，从而导致识别准确性不高。在这种情况下，使用专门为电话场景设计的8K模型可能会得到更好的识别效果。

8K模型是针对较低采样率的音频设计，它在处理电话质量音频时能够更好地适应其特性，如背景噪声、近讲效应等，从而提高识别的准确性。此外，针对电话场景，还可以考虑使用专门优化过的模型，例如某些模型可能被训练以识别特定领域的词汇或热词，这将进一步提高识别的精确度。

在使用不同采样率的模型时，确保音频数据的预处理和录制设置与所选模型的要求相匹配。例如，如果使用8K模型，应确保音频以8K的采样率录制和传输。

总之，对于电话场景下的语音识别任务，尝试使用专为电话质量音频设计的8K模型，并考虑使用优化过的模型以获得最佳的识别性能。

2024-01-12 09:59:44

赞同展开评论
圆不溜秋的小猫猫

对，不然你需要转成16k再识别，电话的话建议直接用8k的模型，省去转成16k的步骤。此回答整理自钉群“modelscope-funasr社区交流”

2024-01-10 17:28:32

赞同展开评论

modelscope-funasr电话场景使用默认的16K模型，设别不准，是不是需要使用8K模型？

ModelScope模型即服务

热门讨论

热门文章