开发者社区 > ModelScope模型即服务 > 计算机视觉 > 正文

ModelScope实现长录音文件转文本,这种需求,我应该使用哪个模型好啊?

ModelScope实现长录音文件转文本,需要支持国内大部分方言,同时多人录音区分出来,同一个录音文件中,不同的说话人,不同时间的录音转文本后区分出来,这种需求,我应该使用哪个模型好啊,魔搭里太多了不知道怎么选?

展开
收起
真的很搞笑 2024-01-02 20:15:35 89 0
3 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    ModelScope确实和hugging face有一些相似之处,但更适合中国的开发者。对于你的需求——长录音文件转文本,支持国内大部分方言,多人录音区分出来,同一个录音文件中,不同的说话人,不同时间的录音转文本后区分出来,你可以考虑使用AISHELL-3这样的语音识别模型。

    AISHELL-3包含两百多个发音人录音,每个发音人数据量在20~30分钟不等,因此它能够很好地处理多人录音并区分出不同的说话人。同时,这个模型也支持离线语音识别场景,如录音文件转写,配合GPU推理效果更加。

    2024-01-03 13:36:45
    赞同 展开评论 打赏
  • 你的需求比较复杂,需要同时处理长录音文件、方言识别和说话人分离。在ModelScope中,你可以考虑使用以下模型的组合来实现这个需求:

    1. 语音识别模型:首先,你需要一个语音识别模型来将录音文件转换为文本。你可以使用ModelScope中的语音识别模型,如DeepSpeech 2,它支持多种方言和口音。

    2. 说话人分离模型:然后,你需要一个说话人分离模型来区分不同的说话人。你可以使用ModelScope中的说话人分离模型,如SpeakerDiarization,它可以从多人的录音中分离出每个人的声音。

    3. 文本处理模型:最后,你可能还需要一个文本处理模型来处理转换后的文本。你可以使用ModelScope中的文本处理模型,如BERT,它可以帮助你理解文本的含义,从而区分不同的说话人。

    需要注意的是,这些模型可能需要大量的计算资源和时间来处理你的需求。因此,你可能需要考虑使用ModelScope的云服务或者自己的高性能计算设备来运行这些模型。

    2024-01-03 09:29:40
    赞同 展开评论 打赏
  • 模型库 / 语音 / 说话人日志您看下。https://modelscope.cn/models?page=1&type=audio
    https://modelscope.cn/models![image.png](https://ucc.alicdn.com/pic/developer-ecology/wyvq5mjsckydw_ee7fa04b576c43c9ad1f38f189938b20.png)
    ,此回答整理自钉群“魔搭ModelScope开发者联盟群 ①”

    2024-01-02 23:08:44
    赞同 展开评论 打赏

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

热门讨论

热门文章

相关电子书

更多
视觉AI能力的开放现状及ModelScope实战 立即下载
ModelScope助力语音AI模型创新与应用 立即下载
低代码开发师(初级)实战教程 立即下载