开发者社区 ModelScope模型即服务正文

modelscope-funasr streaming和non-streaming有什么区别？

展开

收起

嘟嘟嘟嘟嘟嘟 2023-12-20 08:25:02 342 版权

阿里云 AI 助理回答

在ModelScope-FunASR中，**streaming（流式）和non-streaming（非流式）**是两种不同的语音处理模式，主要区别体现在数据处理方式、延迟特性以及应用场景上。以下是两者的详细对比：

Streaming（流式）
流式模式下，语音数据是实时逐块处理的。系统会在接收到部分语音数据时立即开始处理并输出结果，而无需等待完整的语音输入完成。
- 特点：支持边接收边处理，适合实时性要求较高的场景。
- 技术实现：通常依赖于模型的在线解码能力，能够动态更新中间状态。
Non-Streaming（非流式）
非流式模式下，语音数据需要完整接收后才会开始处理。系统会等待整个语音片段上传完毕，然后一次性进行解码并输出最终结果。
- 特点：处理的是完整的语音数据，适合对实时性要求较低但对精度要求较高的场景。
- 技术实现：通常采用离线解码方式，能够利用全局信息优化结果。

Streaming（流式）
- 低延迟：由于语音数据是实时处理的，输出结果的延迟较低，通常在毫秒级别。
- 适用场景：如实时语音转文字（ASR）、在线会议、语音助手等需要快速响应的应用。
Non-Streaming（非流式）
- 高延迟：需要等待语音数据完全上传后才能开始处理，因此整体延迟较高。
- 适用场景：如语音文件的批量转写、语音分析、语音质量评估等对实时性要求不高的任务。

Streaming（流式）
- 精度略低：由于流式处理无法利用完整的语音上下文信息，可能会导致某些情况下识别精度稍逊于非流式模式。
- 资源占用：需要持续维护中间状态，可能对计算资源有一定要求。
Non-Streaming（非流式）
- 精度更高：可以利用完整的语音上下文信息进行全局优化，因此识别精度通常优于流式模式。
- 资源占用：处理完成后即可释放资源，适合批处理任务。

在实际使用中，可以通过设置参数来选择流式或非流式模式。例如，在调用FunASR服务时，可以通过parameters字段中的stream参数来指定模式：

{
  "text_input": "测试语音",
  "parameters": {
    "stream": true  // 设置为true表示流式模式，false表示非流式模式
  }
}

根据具体需求选择合适的模式，可以更好地满足业务场景的要求。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！欢迎加入技术交流群：微信公众号：魔搭ModelScope社区，钉钉群号：44837352

我要提问