modelscope-funasr哪位大神测试过8K的wav录音文件识别,是直接让软件包识别,还是重采样到16k后,再识别效果更好呢?
对于8K的wav录音文件,modelscope-funasr具有处理的能力。它支持多种音频格式进行推理,包括PCM和WAV文件。因此,无论您的音频文件是存储在本地的WAV文件,还是存储在URL中的WAV文件,都可以通过FunASR进行处理。只需将音频文件的路径或URL传递给相应的API接口,就可以实现音频的识别和处理。同时,如果有大量的音频需要进行批量处理,也可以通过上传文件夹的方式,一次性对多个音频文件进行处理,这大大提高了效率。
对于8K的wav录音文件,直接让modelscope-funasr进行识别应该是可行的。不过,由于FunASR模型在设计时可能更适应标准的音频采样率,如16kHz,因此,如果想得到更好的识别效果,你可能需要将8K的音频重采样到16k后再进行识别。这样能确保音频的频率内容在模型可处理的范围内,从而提高语音识别的准确性。当然,这需要您根据实际情况进行尝试和调整。
mac录音,用8K采样率出现很重的破音。不过机器识别没问题。此回答整理自钉群“modelscope-funasr社区交流”
ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352