开发者社区 > ModelScope模型即服务 > 正文

modelscope-funasr的离线转写和实时转写版本有什么差别呢?不是同一个包吗?

modelscope-funasr的离线转写和实时转写版本,我一直以为2pass就是实时和离线,难道不是同一个包吗?有什么差别呢?

展开
收起
三分钟热度的鱼 2024-01-10 16:52:26 113 0
3 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    modelscope-funasr的离线转写和实时转写版本确实存在一定的区别。FunASR离线文件转写软件包,是一款功能强大的语音离线文件转写服务,拥有完整的语音识别链路,结合了语音端点检测、语音识别、标点等模型。用户可以便捷地在本地或者云端服务器部署。

    而FunASR runtime-SDK提供的是一套实时的长音频链路,包括语音端点检测 (VAD)、语音识别 (ASR)、标点断句 (PUNC),可用于高效转写长音频。这套SDK面向的是需要进行二次开发的用户。

    至于您提到的"2pass",它实际上指的是语音识别中的解码流程,与实时和离线转写并不是直接相关的概念。因此,虽然它们都属于FunASR的范畴,但是在实际使用中,针对的需求和应用场景有所不同。

    2024-01-13 14:38:01
    赞同 展开评论 打赏
  • Modelscope-FunASR确实提供了离线转写和实时转写的两个版本,它们各自针对不同的使用场景进行了优化,但都属于FunASR开源项目的组成部分。

    离线转写版本主要针对的是长音频文件的转写需求,它支持高精度、高效率和高并发的处理,适合在处理大量预先录制好的音频文件时使用。这一版本的FunASR提供了便捷的一键部署方案,开发者可以通过提供的脚本快速完成部署,并且支持多种语言的客户端测试工具。

    而实时转写版本则侧重于实时地将语音转化为文字,它集成了实时语音端点检测模型、语音识别实时模型以及标点预测模型,能够实现流畅的语音到文字的转换,并且在说话句尾利用高精度转写文字进行修正输出。这一版本不仅支持实时语音听写服务,还提供了非实时一句话转写以及实时与非实时一体化协同的模式,满足不同场景下的需求。

    尽管两者都使用了FunASR的名字,但它们在实现方式和优化目标上有所不同。离线转写版本侧重于处理大批量的音频文件,而实时转写版本则着重于提供流畅的语音识别体验。两者在工业级模型的选择、模型训练、推理效率、系统部署和用户体验方面都有所差异,但共同构成了FunASR开源项目,以支持广泛的AI语音开发需求。

    2024-01-12 10:33:01
    赞同 展开评论 打赏
  • 不是一个包,一个是离线,一个是实时,可以从文档进去看下离线与2pass的结构图。此回答整理自钉群“modelscope-funasr社区交流”

    2024-01-10 17:03:19
    赞同 展开评论 打赏

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

相关电子书

更多
视觉AI能力的开放现状及ModelScope实战 立即下载
ModelScope助力语音AI模型创新与应用 立即下载
低代码开发师(初级)实战教程 立即下载