开发者社区 > ModelScope模型即服务 > 语音 > 正文

一段静音或环境噪音也会识别出文字

语音识别-中文-通用-16k-离线模型(speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch),提交一段静音或者完全没有人声的环境杂音,也会识别出文字,能100%重现。

展开
收起
wsy9805 2022-12-24 13:42:32 1092 0
2 条回答
写回答
取消 提交回答
  • 从事java行业9年至今,热爱技术,热爱以博文记录日常工作,csdn博主,座右铭是:让技术不再枯燥,让每一位技术人爱上技术

    理论上关于语音识别16k中文通用模型,改善语音活动检测(Voice Activity Detectio)效果,解决纯静音数据误检出语音的问题。已经在2020年8月23号的版本中进行了修复,如果你测试的100%重新静音识别出文字的话,建议可以咨询在线售后客服,售后会排查详细原因,如果有问题的话会再次提交修复版本 image.png

    2022-12-24 17:57:57
    赞同 展开评论 打赏
  • 十分耕耘,一定会有一分收获!

    楼主你好,试一下标点修复纠错功能,魔搭开源的文本纠错也有一定的标点修复功能 + 文本纠错,刚好把两个任务合在一起,有奇效,看客可以自行做选择。 可以结合paddle的标点修复,也可以使用魔搭的文本纠错。UniASR 模型是一种2遍刷新模型(Two pass)端到端语音识别模型。日益丰富的业务需求,不仅要求识别效果精度高,而且要求能够实时地进行语音识别。一方面,离线语音识别系统具有较高的识别准确率,但其无法实时的返回解码文字结果,并且,在处理长语音时,容易发生解码重复的问题,以及高并发解码超时的问题等;另一方面,流式系统能够低延时的实时进行语音识别,但由于缺少下文信息,流式语音识别系统的准确率不如离线系统,在流式业务场景中,为了更好的折中实时性与准确率,往往采用多个不同时延的模型系统。为了满足差异化业务场景对计算复杂度、实时性和准确率的要求,常用的做法是维护多种语音识别系统,例如,CTC系统、E2E离线系统、SCAMA流式系统等。

    2022-12-24 17:53:15
    赞同 展开评论 打赏

包括语音识别、语音合成、语音唤醒、声学设计及信号处理、声纹识别、音频事件检测等多个领域

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载