modelscope-funasr的离线转写和实时转写版本,我一直以为2pass就是实时和离线,难道不是同一个包吗?有什么差别呢?
modelscope-funasr的离线转写和实时转写版本确实存在一定的区别。FunASR离线文件转写软件包,是一款功能强大的语音离线文件转写服务,拥有完整的语音识别链路,结合了语音端点检测、语音识别、标点等模型。用户可以便捷地在本地或者云端服务器部署。
而FunASR runtime-SDK提供的是一套实时的长音频链路,包括语音端点检测 (VAD)、语音识别 (ASR)、标点断句 (PUNC),可用于高效转写长音频。这套SDK面向的是需要进行二次开发的用户。
至于您提到的"2pass",它实际上指的是语音识别中的解码流程,与实时和离线转写并不是直接相关的概念。因此,虽然它们都属于FunASR的范畴,但是在实际使用中,针对的需求和应用场景有所不同。
Modelscope-FunASR确实提供了离线转写和实时转写的两个版本,它们各自针对不同的使用场景进行了优化,但都属于FunASR开源项目的组成部分。
离线转写版本主要针对的是长音频文件的转写需求,它支持高精度、高效率和高并发的处理,适合在处理大量预先录制好的音频文件时使用。这一版本的FunASR提供了便捷的一键部署方案,开发者可以通过提供的脚本快速完成部署,并且支持多种语言的客户端测试工具。
而实时转写版本则侧重于实时地将语音转化为文字,它集成了实时语音端点检测模型、语音识别实时模型以及标点预测模型,能够实现流畅的语音到文字的转换,并且在说话句尾利用高精度转写文字进行修正输出。这一版本不仅支持实时语音听写服务,还提供了非实时一句话转写以及实时与非实时一体化协同的模式,满足不同场景下的需求。
尽管两者都使用了FunASR的名字,但它们在实现方式和优化目标上有所不同。离线转写版本侧重于处理大批量的音频文件,而实时转写版本则着重于提供流畅的语音识别体验。两者在工业级模型的选择、模型训练、推理效率、系统部署和用户体验方面都有所差异,但共同构成了FunASR开源项目,以支持广泛的AI语音开发需求。
不是一个包,一个是离线,一个是实时,可以从文档进去看下离线与2pass的结构图。此回答整理自钉群“modelscope-funasr社区交流”
ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352