开发者社区 > ModelScope模型即服务 > 自然语言处理 > 正文

在modelscope-funasr官方的示例音频 ,用vad出来有26秒,实际是13秒,怎么回事?

在modelscope-funasr官方的示例音频 ,用vad出来的有26秒,实际是13秒,怎么回事?40dc654dea091a3b153bda89b35c4859.png
6e1c456dab532002bf6dd1b234f9f673.png

展开
收起
三分钟热度的鱼 2024-03-27 17:00:23 36 0
1 条回答
写回答
取消 提交回答
  • 使用ModelScope-Funasr的VAD模块处理官方示例音频时,出现识别时长比实际音频时长长的情况,可能是由于几个原因造成的:

    1. max_end_silence_time参数设置:在ModelScope-Funasr的VAD模块中,有一个参数叫做max_end_silence_time,它用于控制识别结束时的最长静音时间。如果在这个时间内没有检测到任何语音活动,则认为语音已经结束,识别过程将停止。如果这个参数设置得过长,就可能导致在语音结束后仍有较长时间才停止识别。
    2. 环境噪音影响:如果录音环境中存在背景噪声,这可能会干扰VAD的正常工作,导致它无法准确检测到语音的结束点。在这种情况下,VAD可能会将部分噪声误判为语音,从而延长了识别出的语音时长。
    3. 模型特性:Paraformerarge模型集成了VAD、ASR等功能,能够处理长时间的音频并进行识别。但是,具体的模型性能和准确性可能会受到多种因素的影响,包括模型的设计、训练数据等。

    总的来说,如果您遇到这样的问题,建议检查并调整max_end_silence_time参数的设置,尝试在更安静的环境中录音,或者调整VAD的灵敏度设置,以优化识别效果。同时,也可以考虑查看官方文档或社区论坛,看是否有其他用户遇到类似问题并提供了解决方案。如解决,可以向ModelScope-Funasr的维护者报告此问题,以便进一步的调查和修复。

    2024-03-31 09:33:50
    赞同 展开评论 打赏

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

热门讨论

热门文章

相关电子书

更多
视觉AI能力的开放现状及ModelScope实战 立即下载
ModelScope助力语音AI模型创新与应用 立即下载
低代码开发师(初级)实战教程 立即下载