modelscope-funasr speech_paraformer-large-eres2net_large-vad-punc-spk_asr_nat-zh-cn 请问下,通过这个识别的句子,是否支持把音频中没有说话的部分通过空白+时间段占位呢?现在看识别的句子时长和音频文件的总时长是差不多的,音频中有空白的部分被分摊到各个句子的时间段中了。
是的,ModelScope-FunASR支持将音频中没有说话的部分通过空白+时间段占位。在您提供的参数中,vad-punc
表示使用语音活动检测(Voice Activity Detection)和标点符号分割(Punctuation Segmentation)来对音频进行分段。这意味着在识别过程中,系统会自动检测到音频中的静音部分,并将其用空白字符填充,同时保留标点符号。
因此,如果您的音频文件中有静音部分,那么在识别结果中,这些静音部分会被替换为空白字符,而不会占用句子的时间段。这样可以使识别结果更加准确,同时也方便后续的处理和分析。
ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352