备案控制台

开发者社区 ModelScope模型即服务自然语言处理正文

modelscope-funasr有哪个VAD模型可以获得说话的语义端点的？

modelscope-funasr有哪个VAD模型可以获得说话的语义端点的？我现在面临一个问题是，当我向麦克风说话，中间有思考停顿的时候，现有VAD就会把语音切割成两段，送给ASR。我希望类似“我想一下哈，唔...（这里停顿了一下来思考），是这样的，我有一个想法”，能够整段送入ASR。这个有什么VAD模型或者其他的方案吗？我需要做语音对话机器人，如果切割成两个片段，那么我就会将前半句话送入LLM，LLM回复的内容就比较奇怪。我需要一个机制能识别说话人的话说完了，将整句话送入LLM，然后等待LLM返回响应的内容。

展开

收起

三分钟热度的鱼 2024-03-27 17:00:23 343 版权

3 条回答

写回答

取消提交回答

猹理

郑程睿，具身智能算法工程师，任职于阿里巴巴、申昊科技

silero-vad

2024-04-22 17:20:01

赞同展开评论
mrq4nk6ni2neg
在ModelScope-Funasr中，要解决您描述的问题，可以考虑使用基于深度学习的端到端语音识别（ASR）模型，而不是传统的语音活动检测（VAD）加ASR的组合。端到端ASR模型可以更好地处理停顿和思考的情况，因为它在训练时就能学习到这些语音模式，并且能够将整个语句作为一个整体进行处理。

对于需要等待说话人说完整个句子再进行处理的场景，端到端ASR模型通常能够提供更好的识别结果。这是因为它们在设计时就考虑了实际对话中的自然停顿、语气变化等因素，而不是简单地根据声音的有无来切割语音。

在ModelScope-Funasr中，您可以寻找具有以下特点的端到端ASR模型：
1. 长短期记忆网络（LSTM）或Transformer架构：这些模型能够捕捉长距离的依赖关系，对于处理长句子和自然语言中的停顿更为有效。
2. 带有针对性的训练数据：选择那些在收集训练数据时包括了自然对话和停顿的模型。
3. 整句处理能力：选择设计用来处理整句或者较长话语的模型，而不是仅仅针对短句或命令的模型。
如果您希望进一步优化VAD的性能，可以考虑以下方案：
1. 自定义VAD模型：如果现有的VAD模型不能满足需求，可以尝试自己训练一个VAD模型，使用包含思考停顿的语音数据进行训练。
2. 调整VAD阈值：通过调整VAD的敏感度阈值，减少误判为无声的情况，但这可能会增加背景噪声的干扰。
3. 连续语音识别：使用连续语音识别技术，而不是依赖于VAD来分割语音。
4. 后处理规则：在ASR之后加入一些后处理规则，将短时间的停顿自动合并到前一句或后一句中。
总的来说，为了解决您的问题，建议使用端到端的ASR模型，并结合适当的后处理策略，以便更好地处理自然对话中的思考停顿。
2024-03-31 09:25:16

赞同展开评论
圆不溜秋的小猫猫

vad完成不了你说的这个功能。你需要的功能，都可以从nlp来下手处理。
此回答整理自钉群“modelscope-funasr社区交流”

2024-03-27 17:23:06

赞同 2 展开评论

相关问答

docker部署modelscope-funasr如何识别不同人说话？

372

0

0

modelscope-funasr实现runtime编译成sdk后怎么支持说话人分离？

207

0

0

modelscope-funasr的GPU离线转写服务的说话人识别模块要怎么配置啊？

280

0

0

modelscope-funasr的vad模型对输入的语音长度是不是有最短时长的要求？

229

0

0

modelscope-funasr的这俩个模型在说话人之外的方面有差异点嘛？

236

0

0

modelscope-funasr的error in vad可能是什么原因啊？

198

1

0

modelscope-funasr够支持直接在automodel类使用附加vad模型的参数吗？

228

0

0

modelscope-funasr20ms的情况下vad参数是如何设置的？

190

0

0

modelscope-funasr的VAD算法报错，如何处理？

283

0

0

modelscope-funasr的多说话人语音识别模型支持实时听写吗？

254

0

0

ModelScope模型即服务

自然语言处理

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

我要提问

相关文章

RISC-V 的逆袭：当开源芯片从“野路子”变成未来主流

深度解析：养老场景必备的智能设备全景清单

【2026必看 AI智能体】零基础Coze平台使用教程

用Cursor重构烂代码的真实案例

热门讨论

热门文章

在modelscope-funasr想自己训练一种low resource 的方言，有训练的方案吗？

modelscope-funasr实时ASR的微调该怎么操作？

modelscope-funasr的SenseVoiceLarge模型在哪里啊？

请问微调开元模型qwe1.5b 和 7b 分别支持数据集的上下文长度是多少个汉字/token？

modelscope-funasr 热词如何设置？

modelscope-funasr实时设别，mode:2pass 还是online，2个有啥不一样？

modelscope-funasr的sensevoice-Large有开源计划吗？

modelscope-funasr支持粤语么？

modelscope-funasr中8k模型与16k的区别有文档介绍或者说明吗？一直没找到在哪里？

modelscope-funasr输出的结果里可以区分说话人吗？

展开全部

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

Qlib：华尔街颤抖！微软开源金融AI量化投资神器，助力智能投研

中文大模型体验

Cline：29.7K Star！一文详解VSCode最强开源AI编程搭子：一键生成代码+自动跑终端+操控浏览器...

FireCrawl：开源 AI 网络爬虫工具，自动爬取网站及子页面内容，预处理为结构化数据

FastAPI开发者福音！FastAPI-MCP：将FastAPI秒变MCP服务器的开源神器，无需配置自动转换！

告别Hugging Face模型下载难题：掌握高效下载策略，畅享无缝开发体验

RAG+AI工作流+Agent：LLM框架该如何选择，全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐

手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型，创建个性化 AI 助手

KAG：增强 LLM 的专业能力！蚂蚁集团推出专业领域知识增强框架，支持逻辑推理和多跳问答

展开全部

还有其他疑问?