用的是 paraformer-large-vad-punc 音频版本,识别结果经常出现多句话粘成一句话的问题
比如我说了一句话,安静了四五秒,再说另一句话,识别出来算是一句话,没有办法能很好地分开成两句话
现在出来了大量的这种问题,很多话被连成一句话,很影响效果
vad 模型是不是效果不太好啊? 有什么参数可以设置吗?
求教
用的是 paraformer-large-vad-punc 音频版本,识别结果经常出现多句话粘成一句话的问题
比如我说了一句话,安静了四五秒,再说另一句话,识别出来算是一句话,没有办法能很好地分开成两句话
现在出来了大量的这种问题,很多话被连成一句话,很影响效果
vad 模型是不是效果不太好啊? 有什么参数可以设置吗?
求教