开发者社区 > ModelScope模型即服务 > 正文

modelscope-funasr电话场景使用默认的16K模型,设别不准,是不是需要使用8K模型?

modelscope-funasr电话场景使用默认的16K模型,设别不准,是不是需要使用8K模型?

展开
收起
三分钟热度的鱼 2024-01-10 16:56:34 164 0
3 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    modelscope-funasr默认的16K模型可以支持实时语音识别,能有效实现实时字幕功能。然而,如果你在使用中遇到设备识别不准的问题,可以考虑调整模型参数。例如,使用8K模型可能会提供更好的识别精度。但具体是否适用,还需要根据实际情况进行尝试和评估。

    2024-01-13 13:38:08
    赞同 展开评论 打赏
  • 是的,对于电话场景下的语音识别,使用默认的16K模型可能会出现识别不准的情况。电话场景的音频通常具有较高的采样率,而16K模型可能无法充分捕捉到音频中的细节,从而导致识别准确性不高。在这种情况下,使用专门为电话场景设计的8K模型可能会得到更好的识别效果。

    8K模型是针对较低采样率的音频设计,它在处理电话质量音频时能够更好地适应其特性,如背景噪声、近讲效应等,从而提高识别的准确性。此外,针对电话场景,还可以考虑使用专门优化过的模型,例如某些模型可能被训练以识别特定领域的词汇或热词,这将进一步提高识别的精确度。

    在使用不同采样率的模型时,确保音频数据的预处理和录制设置与所选模型的要求相匹配。例如,如果使用8K模型,应确保音频以8K的采样率录制和传输。

    总之,对于电话场景下的语音识别任务,尝试使用专为电话质量音频设计的8K模型,并考虑使用优化过的模型以获得最佳的识别性能。

    2024-01-12 09:59:44
    赞同 展开评论 打赏
  • 对,不然你需要转成16k再识别,电话的话建议直接用8k的模型,省去转成16k的步骤。此回答整理自钉群“modelscope-funasr社区交流”

    2024-01-10 17:28:32
    赞同 展开评论 打赏

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

热门讨论

热门文章

相关电子书

更多
视觉AI能力的开放现状及ModelScope实战 立即下载
ModelScope助力语音AI模型创新与应用 立即下载
低代码开发师(初级)实战教程 立即下载