modelscope-funasr 是否支持把音频中没有说话的部分通过空白+时间段占位呢?

modelscope-funasr speech_paraformer-large-eres2net_large-vad-punc-spk_asr_nat-zh-cn 请问下,通过这个识别的句子,是否支持把音频中没有说话的部分通过空白+时间段占位呢?现在看识别的句子时长和音频文件的总时长是差不多的,音频中有空白的部分被分摊到各个句子的时间段中了。

展开
收起
嘟嘟嘟嘟嘟嘟 2024-01-05 07:58:27 126 分享 版权
1 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    是的,ModelScope-FunASR支持将音频中没有说话的部分通过空白+时间段占位。在您提供的参数中,vad-punc表示使用语音活动检测(Voice Activity Detection)和标点符号分割(Punctuation Segmentation)来对音频进行分段。这意味着在识别过程中,系统会自动检测到音频中的静音部分,并将其用空白字符填充,同时保留标点符号。

    因此,如果您的音频文件中有静音部分,那么在识别结果中,这些静音部分会被替换为空白字符,而不会占用句子的时间段。这样可以使识别结果更加准确,同时也方便后续的处理和分析。

    2024-01-06 12:06:25
    赞同 展开评论

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

热门讨论

热门文章

还有其他疑问?
咨询AI助理