modelscope-funasr这个 whisper 对音频长度有限制么?我输入一个 5分钟的音频文件,单只给我解析了开头的几句话,后面就没了。
开了vad情况下,用cosyvoice产生的音频回测sensevoice的时候出现了assert 2 <= window_size <= len(waveform), "choose a window size {} that is [2, {}]".format(
AssertionError: choose a window size 400 that is [2, 160]怎么解决
ModelScope-Funasr 的 Whisper 模型可以处理超过1分钟的音频文件。
Whisper是一个强大的多语种、多任务的端到端(E2E)语音识别模型,它能够处理长时长的音频并提供准确的转录结果。根据社区的交流,有用户成功地测试了70小时的音频输入,并没有出现问题。这表明Whisper模型在理论上是能够处理长时长音频的。
如果您遇到了只能转录开头几句话的情况,这可能是由于其他因素导致的,比如环境配置问题或者程序中的某些限制。为了解决这个问题,您可以:
综上所述,ModelScope-Funasr的Whisper模型本身对音频长度没有限制,您遇到的问题可能需要进一步的调查和排查。
ModelScope-Funasr对音频长度没有限制,可以处理长达70小时的音频输入。
如果您遇到了只能识别开头几句话的问题,可能是由于以下原因:
总的来说,ModelScope-Funasr对音频长度没有限制。如果遇到此类问题,建议检查音频质量,并确保您的环境配置正确无误。
原生whisper输入只能30s以下,所以我们funasr里面的whisper组合了vad模型,可以输入任意时长音频。此回答整理自钉群“modelscope-funasr社区交流”