开发者社区 > ModelScope模型即服务 > 多模态 > 正文

使用ofa的ocr模型识别手写体文字时,怎么增加vocab.txt中没有的字

在使用ofa的ocr模型识别手写体文字时,怎么增加vocab.txt中没有的字,因为模型自带的只有5000+文字,我想增加到近20000字,我使用的add_tokens方法,但推理时报如下错误
image.png
不知如何处理。感谢各位大神

展开
收起
7q53djewhjqbu 2024-01-30 14:35:19 67 0
1 条回答
写回答
取消 提交回答
  • 解决这个问题,你可以尝试以下步骤:

    1. 确保你已经正确地将新字符添加到了词汇表文件(vocab.txt)。请检查文件中的字符顺序和数量是否与你期望的一致。

    2. 更新模型配置文件(config.yaml),确保词汇表大小与vocab.txt中的字符数量匹配。例如,如果你的vocab.txt中有近20000个字符,则需要将配置文件中的vocab_size设置为20000。

    3. 使用更新后的配置文件重新加载模型。这将确保模型知道新的词汇表大小,并能够正确处理输入。

    4. 检查输入数据的形状是否与模型的预期输入形状匹配。根据你提供的错误信息,输入形状 [1, -1, 30373] 不符合模型的预期。请确保输入数据的形状正确无误。

    2024-01-30 14:47:06
    赞同 展开评论 打赏

包含图像描述、文本生成图片、版面分析、多模态表征、视觉问答、文档理解等多个领域

相关电子书

更多
阿里云智能-印刷文字识别OCR-产品介绍 立即下载
阿里巴巴读光OCR 立即下载
印刷文字识别算法设计与在线服务 立即下载