modelscope-funasr这个 whisper 对音频长度有限制么？

modelscope-funasr这个 whisper 对音频长度有限制么？我输入一个 5分钟的音频文件，单只给我解析了开头的几句话，后面就没了。

展开

收起

三分钟热度的鱼 2024-03-27 16:53:50 1409 版权

4 条回答

写回答

取消提交回答

游客hyfdd7gr7p722

开了vad情况下，用cosyvoice产生的音频回测sensevoice的时候出现了assert 2 <= window_size <= len(waveform), "choose a window size {} that is [2, {}]".format(
AssertionError: choose a window size 400 that is [2, 160]怎么解决

2024-08-23 15:29:40

赞同展开评论
历年考试不作弊
ModelScope-Funasr 的 Whisper 模型可以处理超过1分钟的音频文件。

Whisper是一个强大的多语种、多任务的端到端（E2E）语音识别模型，它能够处理长时长的音频并提供准确的转录结果。根据社区的交流，有用户成功地测试了70小时的音频输入，并没有出现问题。这表明Whisper模型在理论上是能够处理长时长音频的。

如果您遇到了只能转录开头几句话的情况，这可能是由于其他因素导致的，比如环境配置问题或者程序中的某些限制。为了解决这个问题，您可以：
1. 检查配置：确保您的Python环境和所需的库都是正确安装的，并且符合Whisper模型的要求。
2. 查看日志：检查程序运行时的日志，看是否有错误信息或者警告，这可能会帮助您发现问题所在。
3. 社区支持：如果问题依旧无法解决，建议在ModelScope-Funasr社区交流群中寻求帮助，那里有更多的开发者和用户可能遇到过类似的问题，并能提供解决方案。
综上所述，ModelScope-Funasr的Whisper模型本身对音频长度没有限制，您遇到的问题可能需要进一步的调查和排查。
2024-03-31 23:20:06

赞同展开评论
mrq4nk6ni2neg
ModelScope-Funasr对音频长度没有限制，可以处理长达70小时的音频输入。

如果您遇到了只能识别开头几句话的问题，可能是由于以下原因：
1. 音频质量问题：如果音频文件的质量不佳，比如有噪音或者录音不清晰，可能会影响识别的准确性。
2. 语音活动检测（VAD）：某些语音识别服务使用VAD来检测语音活动的部分，非活动部分可能不会被转录。
3. 模型容量问题：虽然理论上没有时长限制，但过长的音频可能导致模型内存不足，特别是在某些硬件上运行时。
4. API限制：如果您是通过API调用服务，可能存在请求大小的限制，导致无法上传完整个音频文件。
总的来说，ModelScope-Funasr对音频长度没有限制。如果遇到此类问题，建议检查音频质量，并确保您的环境配置正确无误。
2024-03-31 09:48:25

赞同展开评论
圆不溜秋的小猫猫

原生whisper输入只能30s以下，所以我们funasr里面的whisper组合了vad模型，可以输入任意时长音频。此回答整理自钉群“modelscope-funasr社区交流”

2024-03-27 17:12:57

赞同 1 展开评论

modelscope-funasr这个 whisper 对音频长度有限制么？

自然语言处理

相关文章

热门讨论

热门文章