ModelScope实现长录音文件转文本，这种需求，我应该使用哪个模型好啊？

ModelScope实现长录音文件转文本，需要支持国内大部分方言，同时多人录音区分出来，同一个录音文件中，不同的说话人，不同时间的录音转文本后区分出来，这种需求，我应该使用哪个模型好啊，魔搭里太多了不知道怎么选？

展开

收起

真的很搞笑 2024-01-02 20:15:35 89 0

3 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

ModelScope确实和hugging face有一些相似之处，但更适合中国的开发者。对于你的需求——长录音文件转文本，支持国内大部分方言，多人录音区分出来，同一个录音文件中，不同的说话人，不同时间的录音转文本后区分出来，你可以考虑使用AISHELL-3这样的语音识别模型。

AISHELL-3包含两百多个发音人录音，每个发音人数据量在20～30分钟不等，因此它能够很好地处理多人录音并区分出不同的说话人。同时，这个模型也支持离线语音识别场景，如录音文件转写，配合GPU推理效果更加。

2024-01-03 13:36:45

赞同展开评论打赏
sunrr
你的需求比较复杂，需要同时处理长录音文件、方言识别和说话人分离。在ModelScope中，你可以考虑使用以下模型的组合来实现这个需求：
1. 语音识别模型：首先，你需要一个语音识别模型来将录音文件转换为文本。你可以使用ModelScope中的语音识别模型，如DeepSpeech 2，它支持多种方言和口音。
2. 说话人分离模型：然后，你需要一个说话人分离模型来区分不同的说话人。你可以使用ModelScope中的说话人分离模型，如SpeakerDiarization，它可以从多人的录音中分离出每个人的声音。
3. 文本处理模型：最后，你可能还需要一个文本处理模型来处理转换后的文本。你可以使用ModelScope中的文本处理模型，如BERT，它可以帮助你理解文本的含义，从而区分不同的说话人。
需要注意的是，这些模型可能需要大量的计算资源和时间来处理你的需求。因此，你可能需要考虑使用ModelScope的云服务或者自己的高性能计算设备来运行这些模型。
2024-01-03 09:29:40

赞同展开评论打赏
芯在这

模型库 / 语音 / 说话人日志您看下。https://modelscope.cn/models?page=1&type=audio
https://modelscope.cn/models![image.png](https://ucc.alicdn.com/pic/developer-ecology/wyvq5mjsckydw_ee7fa04b576c43c9ad1f38f189938b20.png)
，此回答整理自钉群“魔搭ModelScope开发者联盟群 ①”

2024-01-02 23:08:44

赞同展开评论打赏