开发者社区 > ModelScope模型即服务 > 自然语言处理 > 正文

modelscope-funasr的paraformer流式解码有没有原理图片啊?

modelscope-funasr的paraformer流式解码有没有原理图片啊?或者相关论文也行。
最新版本代码chunk_size是设成[0,10,5]还是[5,10,5]2cfef78af6fd564f9afe3f230cba10c2.jpg

展开
收起
三分钟热度的鱼 2024-03-27 17:07:17 149 0
2 条回答
写回答
取消 提交回答
  • [^6] 2024年3月15日 · 在modelscope-funasr中,chunk_size的默认值是[0,10,5]。这个参数用于控制模型输入的音频块大小,其中第一个数字代表输入特征的帧移(frame shift),第二个数字代表编码器内部的块大小(encoder chunk size),第三个数字代表解码器内部的块大小(decoder chunk size)

    根据可用信息,关于modelscope-funasr的Paraformer流式解码的原理图片或相关论文,目前没有直接提供原理图片。但有介绍基于Paraformer的端到端语音识别理论的资料,以及一些分享对语音识别Non-autoregressive(NAR)模型Paraformer理解的文章。它们可能包含您所求的理论解析和架构细节,建议查阅这些资料以获得更深入的理解。至于最新版本代码中chunk_size的设置,modelscope-funasrchunk_size的默认值是[0,10,5],这组参数分别代表着不同的功能和意义。具体而言:

    • 帧移chunk_size中的第一个数字通常表示输入特征的帧移(frame shift),即在处理连续音频数据时,每次移动的帧长。
    • 编码器块大小chunk_size中的第二个数字则代表编码器内部的块大小(encoder chunk size)。
    • 解码器块大小chunk_size中的第三个数字代表解码器内部的块大小(decoder chunk size)。

    综上所述,对于chunk_size的设定,除非有特定的理由进行调整,否则使用默认值[0,10,5]即可。如果有特殊需求或在进行特定优化时,可以根据实际需要调整这些参数。

    2024-03-28 22:19:40
    赞同 展开评论 打赏
  • 按照默认给的就好
    此回答整理自钉群“modelscope-funasr社区交流”

    2024-03-27 17:21:35
    赞同 展开评论 打赏

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

热门讨论

热门文章

相关电子书

更多
视觉AI能力的开放现状及ModelScope实战 立即下载
ModelScope助力语音AI模型创新与应用 立即下载
低代码开发师(初级)实战教程 立即下载