modelscope-funasr在使用whisper模型转录音频时,能转超过1分钟的么?

modelscope-funasr在使用whisper模型转录音频时,能转超过1分钟的么?我用demo.py测试,只能转30秒……

展开
收起
三分钟热度的鱼 2024-03-20 15:51:11 213 分享 版权
2 条回答
写回答
取消 提交回答
  • 阿里云大降价~

    ModelScope-Funasr在使用whisper模型转录音频时,理论上是可以处理超过1分钟的音频的。但实际的处理能力可能受到多种因素的影响,例如硬件资源、模型架构以及环境部署等。以下是一些可能影响转录长度的因素:

    1. 硬件资源:如果使用的设备缺乏足够的计算能力,比如在纯CPU模式下运行Whisper,那么转录速度会非常慢,可能导致无法完成长音频的转写。
    2. 模型架构:不同的模型架构可能会影响推理速度和处理长音频的能力。Whisper是一个端到端的语音识别模型,而Funasr的具体架构可能与之不同,这可能导致在处理长音频时的性能差异。
    3. 环境部署:如果环境部署不够优化,比如未能充分利用GPU加速,或者在部署过程中遇到问题,这也会影响到长音频的处理能力。
    4. 输入格式:确保输入音频的格式正确,以及API调用方式符合要求,这对于成功转录长音频也是必要的。

    总的来说,虽然ModelScope-Funasr的whisper模型有能力处理超过1分钟的音频,但在实际操作中可能会遇到各种限制。如果您遇到只能转录30秒的问题,可能需要检查硬件资源是否充足,环境是否优化,以及模型是否正确部署。此外,也可以考虑查找是否有相关的文档说明或社区讨论,以获取更多关于如何处理长音频的信息和技巧。

    2024-03-27 18:59:40
    赞同 展开评论
  • 可以用funasr里面的vad来切割音频。此回答整理自钉群“modelscope-funasr社区交流”

    2024-03-20 16:06:54
    赞同 1 展开评论

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

热门讨论

热门文章

还有其他疑问?
咨询AI助理