modelscope-funasr长音频集成模型，最后的打标点的结果，会依赖vad吗？

modelscope-funasr长音频集成模型，最后的打标点的结果，会依赖vad吗，还是纯粹只依赖文本？

展开

收起

三分钟热度的鱼 2024-01-10 16:55:15 172 0

3 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

modelscope-funasr长音频集成模型的打标点结果，确实会依赖于VADmodelscope-funasr长音频集成模型的打标点结果，确实会依赖于VAD（Voice Activity Detection，语音活动检测）。具体来说，达摩院语音团队提出的FSMN-Monophone VAD模型被用于检测输入音频中有效语音的起止时间点信息。在识别过程中，该模型将检测出来的有效音频片段输入识别引擎进行识别，从而减少无效语音带来的识别错误。因此，通过这种方式，长音频集成模型能够有效地对长时长的音频进行识别，并输出带有标点和时间戳的文本。

2024-01-13 14:28:30

赞同展开评论打赏
sunrr

长音频集成模型的标点结果既依赖于语音识别也依赖于语音端点检测（VAD）。

当处理长音频文件时，通常会先使用VAD模型来检测音频中有效语音的起止时间点，然后将有效的音频片段送入语音识别模型进行转写。这一过程中，VAD起到了关键作用，它帮助过滤掉非语音部分，从而减少无效音频对语音识别的影响，并可能提高整体识别的准确性。

然而，一旦音频被转写为文本，标点过程就是独立于VAD的，而是基于文本处理来添加合适的标点符号。这是因为标点模型负责的是根据上下文信息来预测句子中的停顿位置，例如句号、逗号等，这与文本的语义和内容有关，而不再是单纯的语音信号处理问题。

因此，虽然VAD不是标点模型的直接依赖，它在长音频处理流程的早期阶段发挥着重要作用，有助于提高语音识别的效能，进而间接影响最终的标点结果。

2024-01-12 10:09:43

赞同展开评论打赏
圆不溜秋的小猫猫

只依赖文本。此回答整理自钉群“modelscope-funasr社区交流”

2024-01-10 17:19:09

赞同展开评论打赏

modelscope-funasr长音频集成模型，最后的打标点的结果，会依赖vad吗？

ModelScope模型即服务

热门讨论

热门文章

相关课程

相关电子书