开发者社区 > ModelScope模型即服务 > 自然语言处理 > 正文

modelscope-funasr这个 whisper 对音频长度有限制么?

modelscope-funasr这个 whisper 对音频长度有限制么?我输入一个 5分钟的音频文件,单只给我解析了开头的几句话,后面就没了。90d175a07b09173d87b4532a17f9407e.png

展开
收起
三分钟热度的鱼 2024-03-27 16:53:50 323 0
4 条回答
写回答
取消 提交回答
  • 开了vad情况下,用cosyvoice产生的音频回测sensevoice的时候出现了assert 2 <= window_size <= len(waveform), "choose a window size {} that is [2, {}]".format(
    AssertionError: choose a window size 400 that is [2, 160]怎么解决

    2024-08-23 15:29:40
    赞同 展开评论 打赏
  • ModelScope-Funasr 的 Whisper 模型可以处理超过1分钟的音频文件

    Whisper是一个强大的多语种、多任务的端到端(E2E)语音识别模型,它能够处理长时长的音频并提供准确的转录结果。根据社区的交流,有用户成功地测试了70小时的音频输入,并没有出现问题。这表明Whisper模型在理论上是能够处理长时长音频的。

    如果您遇到了只能转录开头几句话的情况,这可能是由于其他因素导致的,比如环境配置问题或者程序中的某些限制。为了解决这个问题,您可以:

    1. 检查配置:确保您的Python环境和所需的库都是正确安装的,并且符合Whisper模型的要求。
    2. 查看日志:检查程序运行时的日志,看是否有错误信息或者警告,这可能会帮助您发现问题所在。
    3. 社区支持:如果问题依旧无法解决,建议在ModelScope-Funasr社区交流群中寻求帮助,那里有更多的开发者和用户可能遇到过类似的问题,并能提供解决方案。

    综上所述,ModelScope-Funasr的Whisper模型本身对音频长度没有限制,您遇到的问题可能需要进一步的调查和排查。

    2024-03-31 23:20:06
    赞同 展开评论 打赏
  • ModelScope-Funasr对音频长度没有限制,可以处理长达70小时的音频输入

    如果您遇到了只能识别开头几句话的问题,可能是由于以下原因:

    1. 音频质量问题:如果音频文件的质量不佳,比如有噪音或者录音不清晰,可能会影响识别的准确性。
    2. 语音活动检测(VAD):某些语音识别服务使用VAD来检测语音活动的部分,非活动部分可能不会被转录。
    3. 模型容量问题:虽然理论上没有时长限制,但过长的音频可能导致模型内存不足,特别是在某些硬件上运行时。
    4. API限制:如果您是通过API调用服务,可能存在请求大小的限制,导致无法上传完整个音频文件。

    总的来说,ModelScope-Funasr对音频长度没有限制。如果遇到此类问题,建议检查音频质量,并确保您的环境配置正确无误。

    2024-03-31 09:48:25
    赞同 展开评论 打赏
  • 原生whisper输入只能30s以下,所以我们funasr里面的whisper组合了vad模型,可以输入任意时长音频。此回答整理自钉群“modelscope-funasr社区交流”

    2024-03-27 17:12:57
    赞同 1 展开评论 打赏

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

热门讨论

热门文章

相关电子书

更多
视觉AI能力的开放现状及ModelScope实战 立即下载
ModelScope助力语音AI模型创新与应用 立即下载
低代码开发师(初级)实战教程 立即下载