文档备案控制台

开发者社区 ModelScope模型即服务自然语言处理正文

在modelscope-funasr官方的示例音频，用vad出来有26秒，实际是13秒，怎么回事？

在modelscope-funasr官方的示例音频，用vad出来的有26秒，实际是13秒，怎么回事？

展开

收起

三分钟热度的鱼 2024-03-27 17:00:23 464 版权

1 条回答

写回答

取消提交回答

mrq4nk6ni2neg
使用ModelScope-Funasr的VAD模块处理官方示例音频时，出现识别时长比实际音频时长长的情况，可能是由于几个原因造成的：
1. max_end_silence_time参数设置：在ModelScope-Funasr的VAD模块中，有一个参数叫做max_end_silence_time，它用于控制识别结束时的最长静音时间。如果在这个时间内没有检测到任何语音活动，则认为语音已经结束，识别过程将停止。如果这个参数设置得过长，就可能导致在语音结束后仍有较长时间才停止识别。
2. 环境噪音影响：如果录音环境中存在背景噪声，这可能会干扰VAD的正常工作，导致它无法准确检测到语音的结束点。在这种情况下，VAD可能会将部分噪声误判为语音，从而延长了识别出的语音时长。
3. 模型特性：Paraformerarge模型集成了VAD、ASR等功能，能够处理长时间的音频并进行识别。但是，具体的模型性能和准确性可能会受到多种因素的影响，包括模型的设计、训练数据等。
总的来说，如果您遇到这样的问题，建议检查并调整max_end_silence_time参数的设置，尝试在更安静的环境中录音，或者调整VAD的灵敏度设置，以优化识别效果。同时，也可以考虑查看官方文档或社区论坛，看是否有其他用户遇到类似问题并提供了解决方案。如解决，可以向ModelScope-Funasr的维护者报告此问题，以便进一步的调查和修复。
2024-03-31 09:33:50

赞同展开评论

相关问答

在modelscope-funasr为什么识别的内容和音频不一致呀？

248

1

0

modelscope-funasr 可以输入音频吗而不是文件？

296

1

0

modelscope-funasr的vad模型对输入的语音长度是不是有最短时长的要求？

341

0

0

modelscope-funasr的音频情感识别，用sensevoice好还是emotion2ve？

424

0

0

modelscope-funasr的error in vad可能是什么原因啊？

331

1

0

modelscope-funasr实时流模式，对音频pcm的数据要求是什么呢？

545

0

0

modelscope-funasr够支持直接在automodel类使用附加vad模型的参数吗？

342

0

0

modelscope-funasr使用离线这个推理示例音频的时候，报了错误，是为什么？

279

1

0

在modelscope-funasr当音频文件超过一个小时后，显存溢出怎么解决？

373

1

0

请问ModelScope中，swift可以对自己sft之后的qwen1.5模型进行gptq量化吗？

251

1

0

ModelScope模型即服务

自然语言处理

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

我要提问

相关文章

一句话查高铁票并写入文件：揭秘 IntentOrch 的意图驱动编排黑科技

AI元认知雏形

保密检查在本项目中的总体链路：从按钮到任务清单：免费开源的文档编审软件WPS AI插件.察元AI 文档助手

语义压缩，才是提示词工程的底层心法

阿里云自然语言处理全栈对接指南：从入门到企业级集成实战

热门讨论

热门文章

在modelscope-funasr针对中文通话 SenseVoice和paraforma效果谁好？

modelscope-funasr的SenseVoiceLarge模型在哪里啊？

modelscope-funasr这个报错怎么处理？

modelscope-funasr 热词如何设置？

如何修改通义千问的system prompt，以修改自定义名字

我是一个小白，本机部署adaseq，vscode找不到modelscope的module

请问微调开元模型qwe1.5b 和 7b 分别支持数据集的上下文长度是多少个汉字/token？

modelscope-funasr解析出来的角色人对话不全，是哪里参数没设置对吗？

modelscope-funasr实现runtime编译成sdk后怎么支持说话人分离？

使用modelscope、Qwen1.8B-chat 模型推理时报错编码错误

展开全部

[大模型实战 01] 本地大模型初体验：Ollama 部署与 Python 调用指南

CodeArena：在线 LLM 编程竞技场！用于测试不同开源 LLM 的编程能力，实时更新排行榜

使用宝塔面板部署 AstrBot 与 NapCat 实现 QQ 机器人

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

Cline：29.7K Star！一文详解VSCode最强开源AI编程搭子：一键生成代码+自动跑终端+操控浏览器...

ComfyUI-Copilot：阿里把AI助手塞进ComfyUI：一句话生成工作流，自动布线/调参/选模型，小白秒变大神！

Open Interpreter：AI 赋能终端！在终端中对话AI模型进行编程，通过运行代码来完成各种计算机操作任务

[大模型实战 03预备] 云端炼丹房 1：Google Colab 上手指南

FireCrawl：开源 AI 网络爬虫工具，自动爬取网站及子页面内容，预处理为结构化数据

KAG：增强 LLM 的专业能力！蚂蚁集团推出专业领域知识增强框架，支持逻辑推理和多跳问答

展开全部

还有其他疑问?