开发者社区 > ModelScope模型即服务 > 自然语言处理 > 正文

modelscope-funasr如果想让模型同时具备 中文、英文能力 是不是不能用这个预训练模型?

iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch 这个模型 使用的tokenizer 是CharTokenizer 4d8513bbe258436dcc63a92294cfb5aa.png
那比如 如果 我想微调 同时具备英文和中文能力时,这个地方 英文 也变成了一个字母一个字母的token话了。所以 在modelscope-funasr 如果想让模型同时具备 中文、英文能力 是不是 不能用这个预训练模型?或者说 可不可以换 tokenizer?a5f24c5ef9a0f3335ff538be3e4cb8bc.png
013da5a7230fabc1bc595bd2e8895e9e.png

展开
收起
三分钟热度的鱼 2024-03-27 17:00:27 75 0
2 条回答
写回答
取消 提交回答
  • 可以使用modelsce-funasr预训练模型进行中英文的语音识别,并且可以更换tokenizer

    modelscope-funasr是阿里巴巴提供的一个端到端的语音识别工具包,旨在为研究人员和开发人员在学术研究和工业应用之间架设桥梁。它支持多种语言,包括中文和英文,因此具备同时处理这两种语言的能力。ModelScope平台上也提供了多种不同大小、不同语种的模型供用户选择和使用。

    关于iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch这个模型使用的tokenizer,它是以字符为单位进行分词的CharTokenizer。这种分词方式对于中文来说十分合适,因为中文写作不像英文那样由空格分隔单词。但是对于英文来说,这可能会导致将每个字母作为一个独立的token,这并非最佳做法。

    在modelscope-funasr中,如果想要支持新的语言或者修改现有的语言处理能力,可以通过修改tokenizer来实现。比如拓展到维吾尔语,就可以使用相应的bpe模型生成新的tokenizer,并替换掉原来的tokenizer。同样地,如果需要支持中英文混合识别,理论上也是可以更换一个适合中英文的tokenizer,或者对现有tokenizer进行适当修改来达到目的。

    综上所述,虽然modelscope-funasr提供的预训练模型默认使用的是CharTokenizer,但用户可以根据自己的需求更换或定制tokenizer,从而实现想要的中英文混合语音识别功能。

    2024-03-31 09:25:12
    赞同 展开评论 打赏
  • 26dfb77cba0c7199d6aebd17cc4d615e.png
    这个搞错了 ,正常走上面。
    此回答整理自钉群“modelscope-funasr社区交流”

    2024-03-27 17:17:46
    赞同 1 展开评论 打赏

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

热门讨论

热门文章

相关电子书

更多
视觉AI能力的开放现状及ModelScope实战 立即下载
ModelScope助力语音AI模型创新与应用 立即下载
低代码开发师(初级)实战教程 立即下载