modelscope-funasr的离线转写和实时转写版本有什么差别呢？不是同一个包吗？

modelscope-funasr的离线转写和实时转写版本，我一直以为2pass就是实时和离线，难道不是同一个包吗？有什么差别呢？

展开

收起

三分钟热度的鱼 2024-01-10 16:52:26 746 版权

3 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

modelscope-funasr的离线转写和实时转写版本确实存在一定的区别。FunASR离线文件转写软件包，是一款功能强大的语音离线文件转写服务，拥有完整的语音识别链路，结合了语音端点检测、语音识别、标点等模型。用户可以便捷地在本地或者云端服务器部署。

而FunASR runtime-SDK提供的是一套实时的长音频链路，包括语音端点检测 (VAD)、语音识别 (ASR)、标点断句 (PUNC)，可用于高效转写长音频。这套SDK面向的是需要进行二次开发的用户。

至于您提到的"2pass"，它实际上指的是语音识别中的解码流程，与实时和离线转写并不是直接相关的概念。因此，虽然它们都属于FunASR的范畴，但是在实际使用中，针对的需求和应用场景有所不同。

2024-01-13 14:38:01

赞同展开评论
sunrr

Modelscope-FunASR确实提供了离线转写和实时转写的两个版本，它们各自针对不同的使用场景进行了优化，但都属于FunASR开源项目的组成部分。

离线转写版本主要针对的是长音频文件的转写需求，它支持高精度、高效率和高并发的处理，适合在处理大量预先录制好的音频文件时使用。这一版本的FunASR提供了便捷的一键部署方案，开发者可以通过提供的脚本快速完成部署，并且支持多种语言的客户端测试工具。

而实时转写版本则侧重于实时地将语音转化为文字，它集成了实时语音端点检测模型、语音识别实时模型以及标点预测模型，能够实现流畅的语音到文字的转换，并且在说话句尾利用高精度转写文字进行修正输出。这一版本不仅支持实时语音听写服务，还提供了非实时一句话转写以及实时与非实时一体化协同的模式，满足不同场景下的需求。

尽管两者都使用了FunASR的名字，但它们在实现方式和优化目标上有所不同。离线转写版本侧重于处理大批量的音频文件，而实时转写版本则着重于提供流畅的语音识别体验。两者在工业级模型的选择、模型训练、推理效率、系统部署和用户体验方面都有所差异，但共同构成了FunASR开源项目，以支持广泛的AI语音开发需求。

2024-01-12 10:33:01

赞同展开评论
圆不溜秋的小猫猫

不是一个包，一个是离线，一个是实时，可以从文档进去看下离线与2pass的结构图。此回答整理自钉群“modelscope-funasr社区交流”

2024-01-10 17:03:19

赞同展开评论

modelscope-funasr的离线转写和实时转写版本有什么差别呢？不是同一个包吗？

ModelScope模型即服务

热门讨论

热门文章