语音识别-中文-通用-16k-离线模型(speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch),提交一段静音或者完全没有人声的环境杂音,也会识别出文字,能100%重现。
理论上关于语音识别16k中文通用模型,改善语音活动检测(Voice Activity Detectio)效果,解决纯静音数据误检出语音的问题。已经在2020年8月23号的版本中进行了修复,如果你测试的100%重新静音识别出文字的话,建议可以咨询在线售后客服,售后会排查详细原因,如果有问题的话会再次提交修复版本
楼主你好,试一下标点修复纠错功能,魔搭开源的文本纠错也有一定的标点修复功能 + 文本纠错,刚好把两个任务合在一起,有奇效,看客可以自行做选择。 可以结合paddle的标点修复,也可以使用魔搭的文本纠错。UniASR 模型是一种2遍刷新模型(Two pass)端到端语音识别模型。日益丰富的业务需求,不仅要求识别效果精度高,而且要求能够实时地进行语音识别。一方面,离线语音识别系统具有较高的识别准确率,但其无法实时的返回解码文字结果,并且,在处理长语音时,容易发生解码重复的问题,以及高并发解码超时的问题等;另一方面,流式系统能够低延时的实时进行语音识别,但由于缺少下文信息,流式语音识别系统的准确率不如离线系统,在流式业务场景中,为了更好的折中实时性与准确率,往往采用多个不同时延的模型系统。为了满足差异化业务场景对计算复杂度、实时性和准确率的要求,常用的做法是维护多种语音识别系统,例如,CTC系统、E2E离线系统、SCAMA流式系统等。