开发者社区 > ModelScope模型即服务 > 自然语言处理 > 正文

在modelscope-funasr发现声纹出现了一百多个说话人,这是为什么?

我有一段长音频是通过一个3分钟的wav重复30遍组合而成的,音频里都是一个人在说话,然后我用下面的代码推理的时候,在modelscope-funasr发现声纹出现了一百多个说话人,这是为什么?
from funasr import AutoModel

model = AutoModel(model="/workspace/model/download/speech_seaco_paraformer_large_asr_nat-zh-cn-16k-common-vocab8404-pytorch", model_revision="v2.0.4", \
vad_model="/workspace/model/download/speech_fsmn_vad_zh-cn-16k-common-pytorch", vad_model_revision="v2.0.4", \
punc_model="/workspace/model/download/punc_ct-transformer_zh-cn-common-vocab272727-pytorch", punc_model_revision="v2.0.4",\
spk_model="/workspace/model/download/speech_campplus_sv_zh-cn_16k-common", spk_model_revision="v2.0.2",
)

展开
收起
三分钟热度的鱼 2024-04-03 22:01:29 160 0
0 条回答
写回答
取消 提交回答

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

热门讨论

热门文章

相关电子书

更多
视觉AI能力的开放现状及ModelScope实战 立即下载
ModelScope助力语音AI模型创新与应用 立即下载
低代码开发师(初级)实战教程 立即下载