开发者社区 > ModelScope模型即服务 > 自然语言处理 > 正文

modelscope-funasr的ASR模型是不是都是对token训练的?

modelscope-funasr的ASR模型是不是都是对token训练的?有没有对phone训练的呢?

展开
收起
三分钟热度的鱼 2024-03-27 17:00:23 37 0
2 条回答
写回答
取消 提交回答
  • ModelScope-Funasr的ASR模型主要是对token进行训练的,目前没有明确信息表明提供对phone训练的ASR模型

    在语音识别领域,token是指语音识别模型在进行语音转文本时的基本处理单元。这些token可以是字、词或者子词(subword)级别的单元。对于中文而言,由于其书写特性,通常采用拼音或者字符作为基本单元。而phone则是指语音中的最小区分单位,即音素。不同的语言有不同的音素体系,比如英语有44个音素。

    ModelScope-Funasr作为一个由阿里达摩院开源的基础语音识别工具包,依托于Paraformer非自回归端到端语音识别模型,提供了包括语音识别在内的多种功能。这个框架支持了社区开源的工业级语音识别模型的训练和微调,使得研究人员和开发者可以更加便捷地进行相关研究和开发工作。

    至于是否有基于phone训练的ASR模型,虽然ModelScope-Funasr提供了丰富的预训练模型以及相关的脚本和教程,但是根据现有资料并未明确指出是否包含基于phone训练的模型。通常来说,现有的大多数端到端模型更倾向于使用token作为训练单元,因为这样能够更好地适应各种自然语言处理任务,并且能够利用大量的文本数据进行预训练。

    总的来说,如果您需要特定于音素级别训练的ASR模型,可能需要查看具体的模型说明直接咨询ModelScope-Funasr的维护者以获取更准确的信息。

    2024-03-31 09:25:13
    赞同 展开评论 打赏
  • 这类模型直接将语音信号映射到词汇表中的单词(word-level tokens)或者子词单元(如字符、字节对编码BPE、词语片段WordPiece等)。这种设计简化了模型与实际应用的对接,因为输出可以直接对应到可读的文字,无需额外的解码步骤。由于ModelScope-FunASR通常面向实际应用,提供直接可用的语音转文本服务,其ASR模型很可能主要是基于token训练的。

    2024-03-27 18:26:41
    赞同 展开评论 打赏

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

热门讨论

热门文章

相关电子书

更多
视觉AI能力的开放现状及ModelScope实战 立即下载
ModelScope助力语音AI模型创新与应用 立即下载
低代码开发师(初级)实战教程 立即下载