备案控制台

开发者社区 > ModelScope模型即服务 > 自然语言处理 > 正文

modelscope-funasr的ASR模型是不是都是对token训练的？

modelscope-funasr的ASR模型是不是都是对token训练的？有没有对phone训练的呢？

展开

收起

三分钟热度的鱼 2024-03-27 17:00:23 37 0

2 条回答

写回答

取消提交回答

mrq4nk6ni2neg

ModelScope-Funasr的ASR模型主要是对token进行训练的，目前没有明确信息表明提供对phone训练的ASR模型。

在语音识别领域，token是指语音识别模型在进行语音转文本时的基本处理单元。这些token可以是字、词或者子词（subword）级别的单元。对于中文而言，由于其书写特性，通常采用拼音或者字符作为基本单元。而phone则是指语音中的最小区分单位，即音素。不同的语言有不同的音素体系，比如英语有44个音素。

ModelScope-Funasr作为一个由阿里达摩院开源的基础语音识别工具包，依托于Paraformer非自回归端到端语音识别模型，提供了包括语音识别在内的多种功能。这个框架支持了社区开源的工业级语音识别模型的训练和微调，使得研究人员和开发者可以更加便捷地进行相关研究和开发工作。

至于是否有基于phone训练的ASR模型，虽然ModelScope-Funasr提供了丰富的预训练模型以及相关的脚本和教程，但是根据现有资料并未明确指出是否包含基于phone训练的模型。通常来说，现有的大多数端到端模型更倾向于使用token作为训练单元，因为这样能够更好地适应各种自然语言处理任务，并且能够利用大量的文本数据进行预训练。

总的来说，如果您需要特定于音素级别训练的ASR模型，可能需要查看具体的模型说明直接咨询ModelScope-Funasr的维护者以获取更准确的信息。

2024-03-31 09:25:13

赞同展开评论打赏
Skyund

这类模型直接将语音信号映射到词汇表中的单词（word-level tokens）或者子词单元（如字符、字节对编码BPE、词语片段WordPiece等）。这种设计简化了模型与实际应用的对接，因为输出可以直接对应到可读的文字，无需额外的解码步骤。由于ModelScope-FunASR通常面向实际应用，提供直接可用的语音转文本服务，其ASR模型很可能主要是基于token训练的。

2024-03-27 18:26:41

赞同展开评论打赏

相关问答

modelscope-funasr的拼音asr有相关模型吗？

9

0

0

modelscope-funasr这个训练样本的wav采样率是44100，对采样率有要求吗？

8

0

0

modelscope-funasr在线asr的有支持分说话人的onnx模型吗？

11

1

0

modelscope-funasr中，vad切完后送到asr模型识别吗？

11

0

0

modelscope-funasr的ASR 示例代码里报这个错误，如何解决？

56

1

0

modelscope-funasr大规模asr训练的话，还是用audio_datasets吗？

78

1

0

modelscope-funasr热词版本的模型该如何离线调用呀？

44

1

0

modelscope官方模型库里，哪个参数是pieline里的model参数值？

16

1

0

官方ModelScope是没有对qwen模型进行“二次预训练”的文档吗？

12

1

0

用的图中脚本，除了ModelScope模型路径其他都没有动，可以运行吗？

17

1

0

ModelScope模型即服务

自然语言处理

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

我要提问

热门讨论

热门文章

如何提高qwen-7b-chat-int4的并行处理能力

关于通义千问Qwen-7B-Chat模型下载问题

###baichuan-7B 进行中文分词效果

qwen下用finetune/finetune_lora_single_gpu.sh脚本执行微调失败

modelscope-funasr大规模asr训练的话，还是用audio_datasets吗？

modelscope-funasr实时ASR的微调该怎么操作？

modelscope-funasr离线中文语音识别C++版本，有对音频的长度做限制吗？

modelscope-funasr的funclip的cam++可以转成onnx吗？

请问微调开元模型qwe1.5b 和 7b 分别支持数据集的上下文长度是多少个汉字/token？

modelscope-funasr“实时语音识别”是可以流式输入语音然后进行识别吗？

展开全部

DashVector&千问7B模型，打造极简RAG 之基于专属知识的问答服务实践

检索增强生成(RAG)实践：基于LlamaIndex和Qwen1.5搭建智能问答系统

基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手（检索增强生成(RAG)大模型）

LLM 大模型学习必知必会系列(一)：大模型基础知识篇

LLM 大模型学习必知必会系列(二)：提示词工程-Prompt Engineering 以及实战闯关

RAG：AI大模型联合向量数据库和 Llama-index，助力检索增强生成技术

ModelScope X 昇腾910快速上手

AI智能写作工具

中文竞技场（MS）大模型评测

高通量基因测序在药物研发和靶向治疗中的应用（一）

展开全部

相关课程

更多

个性化语音合成模型微调

234

1

去学习

ModelScope社区Library技术架构介绍

212

1

去学习

相关电子书

更多

视觉AI能力的开放现状及ModelScope实战 立即下载

ModelScope助力语音AI模型创新与应用 立即下载

低代码开发师（初级）实战教程 立即下载