备案控制台

开发者社区 ModelScope模型即服务语音正文

一段静音或环境噪音也会识别出文字

语音识别-中文-通用-16k-离线模型（speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch），提交一段静音或者完全没有人声的环境杂音，也会识别出文字，能100%重现。

展开

收起

wsy9805 2022-12-24 13:42:32 1178 版权

2 条回答

写回答

取消提交回答

六月的雨在钉钉

从事java行业9年至今，热爱技术，热爱以博文记录日常工作，csdn博主，座右铭是：让技术不再枯燥，让每一位技术人爱上技术

理论上关于语音识别16k中文通用模型，改善语音活动检测（Voice Activity Detectio）效果，解决纯静音数据误检出语音的问题。已经在2020年8月23号的版本中进行了修复，如果你测试的100%重新静音识别出文字的话，建议可以咨询在线售后客服，售后会排查详细原因，如果有问题的话会再次提交修复版本

2022-12-24 17:57:57

赞同展开评论
三掌柜666

十分耕耘，一定会有一分收获！

楼主你好，试一下标点修复纠错功能，魔搭开源的文本纠错也有一定的标点修复功能 + 文本纠错，刚好把两个任务合在一起，有奇效，看客可以自行做选择。可以结合paddle的标点修复，也可以使用魔搭的文本纠错。UniASR 模型是一种2遍刷新模型（Two pass）端到端语音识别模型。日益丰富的业务需求，不仅要求识别效果精度高，而且要求能够实时地进行语音识别。一方面，离线语音识别系统具有较高的识别准确率，但其无法实时的返回解码文字结果，并且，在处理长语音时，容易发生解码重复的问题，以及高并发解码超时的问题等；另一方面，流式系统能够低延时的实时进行语音识别，但由于缺少下文信息，流式语音识别系统的准确率不如离线系统，在流式业务场景中，为了更好的折中实时性与准确率，往往采用多个不同时延的模型系统。为了满足差异化业务场景对计算复杂度、实时性和准确率的要求，常用的做法是维护多种语音识别系统，例如，CTC系统、E2E离线系统、SCAMA流式系统等。

2022-12-24 17:53:15

赞同展开评论

相关问答

this xml file does not appear to have any style in

48575

10

0

请问下我访问接口不通什么原因 Provisional headers are shown

2017

0

0

通过www和不带www的网址输入最终都指向www.我的域名.com，求指教

125900

28

0

购买阿里国外的云服务器是否可以访问谷歌？

80815

47

0

OSS的endpoint如何查看

36373

6

0

sql server的用户名和密码怎么查啊？

35724

21

0

配置了安全组规则，端口还是无法访问

32370

25

0

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

59632

30

0

设置域名解析如何指向我的服务器url包括端口号

17644

2

0

手机弹出支付风险问题

6138

2

0

ModelScope模型即服务

语音

包括语音识别、语音合成、语音唤醒、声学设计及信号处理、声纹识别、音频事件检测等多个领域

我要提问

收录在圈子:

智能语音交互

167

+ 订阅

相关文章

AI终于能听懂宝宝说话了！ChildMandarin：智源研究院开源的低幼儿童中文语音数据集，覆盖22省方言

覆盖16省方言的老人语音数据集！SeniorTalk：智源研究院开源全球首个超高龄老年人中文语音数据集

自动生成+语音转写，办公必备！2025年智能会议纪要10＋工具！

免费版的配音软件，支持童声男声女声不同声音选项，语音转文字软件推荐支持多种声音

【语音识别】基于K近邻分类算法的语音情感识别（Matlab代码实现）

热门讨论

热门文章

关于 Windows平台上 ttsfrd 库的问题。

语音唤醒可以自定义唤醒词嘛？比如“小云，小云”换成自己的命令词？如何训练模型

目录空间都删的只剩2G了，还报OSError: [Errno 122] Disk quota exc

modelscope上跑报错，提示要pip install ttsfrd，搞不定

KeyError: 'asr-inference is not in the pipelines r

linux系统运行TTS语音合成报错 Could not initialize NNPACK

模型训练速度太慢

魔搭modelscope按官方文档安装音频环境失败

ttsfrd 是不开源的吗

用python实现语音端点检测(Voice Activity Detection,VAD)

展开全部

Dolphin：40语种+22方言！清华联合海天瑞声推出的语音识别大模型，识别精度超Whisper两代

3D-Speaker：阿里通义开源的多模态说话人识别项目，支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

FireRedASR：精准识别普通话、方言和歌曲歌词！小红书开源工业级自动语音识别模型

CosyVoice 2.0：阿里开源升级版语音生成大模型，支持多语言和跨语言语音合成，提升发音和音色等的准确性

WhisperChain：开源 AI 实时语音转文字工具！自动消噪优化文本，效率翻倍

三行代码实现实时语音转文本，支持自动断句和语音唤醒，用 RealtimeSTT 轻松创建高效语音 AI 助手

Clone-voice：开源的声音克隆工具，支持文本转语音或改变声音风格，支持16种语言

TIGER：清华突破性模型让AI「听觉」进化：参数量暴降94%，菜市场都能分离清晰人声

ClearerVoice-Studio：阿里通义开源的语音处理框架，提供语音增强、分离和说话人提取等功能

SpeechGPT 2.0：复旦大学开源端到端 AI 实时语音交互模型，实现 200ms 以内延迟的实时交互

展开全部

还有其他疑问?