modelscope-funasr听悟是不是用的FunASR,感觉听悟的功能很完善,性能也很好。如果自己用FunASR能做到同样的效果就很好了。
听悟的功能和性能出色,这得益于其背后使用的FunASR技术。FunASR是达摩院语音实验室在Modelscope社区开源的一套语音识别工具包,它集成了包括语音端点检测 (VAD)、Paraformer-large非流式语音识别 (ASR)、Paraformer-large流式语音识别 (ASR)、标点预测 (PUNC) 等相关能力。
具体来说,你可以使用FunASR提供的runtime-SDK来部署实时的语音听写服务。这个软件包既可以实时地进行语音转文字,而且能够在说话句尾用高精度的转写文字修正输出,输出的文字会带有标点。此外,如果你有自己的业务需求,还可以根据需要选择合适的服务器配置。
值得一提的是,FunASR还提供了训练和微调功能。这是一个全面的语音工具包,可以从头开始训练端到端语音识别模型,包括针对AISHELL、WenetSpeech和LibriSpeech等数据集的Transformer、Conformer和Paraformer模型。对于只能访问有限数据和计算资源以从头开始训练模型的学术研究人员和开发人员来说,这个功能尤其有益。因此,如果你愿意,也可以自己使用FunASR来构建类似的应用。
也是基于Paraformer模型,听悟作为产品,有专门的技术团队来做支持和打磨,体验好是正常的。此回答整理自钉群“modelscope-funasr社区交流”
ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352