开发者社区 > ModelScope模型即服务 > 多模态 > 正文
1
0
分享

使用ofa的ocr模型识别手写体文字时,怎么增加vocab.txt中没有的字

在使用ofa的ocr模型识别手写体文字时,怎么增加vocab.txt中没有的字,因为模型自带的只有5000+文字,我想增加到近20000字,我使用的add_tokens方法,但推理时报如下错误
image.png
不知如何处理。感谢各位大神

展开
收起
7q53djewhjqbu 2024-01-30 14:35:19 98 0 发布于浙江
举报
飞天免费试用计划
领取免费云资源,开启云上实践第一步
图像搜索
7款服务类型 1个月
额度1个月内有效
1 条回答
写回答
取消 提交回答
  • 解决这个问题,你可以尝试以下步骤:

    1. 确保你已经正确地将新字符添加到了词汇表文件(vocab.txt)。请检查文件中的字符顺序和数量是否与你期望的一致。

    2. 更新模型配置文件(config.yaml),确保词汇表大小与vocab.txt中的字符数量匹配。例如,如果你的vocab.txt中有近20000个字符,则需要将配置文件中的vocab_size设置为20000。

    3. 使用更新后的配置文件重新加载模型。这将确保模型知道新的词汇表大小,并能够正确处理输入。

    4. 检查输入数据的形状是否与模型的预期输入形状匹配。根据你提供的错误信息,输入形状 [1, -1, 30373] 不符合模型的预期。请确保输入数据的形状正确无误。

    2024-01-30 14:47:06 发布于湖北 举报
    赞同 评论 打赏

    评论

    全部评论 (0)

    登录后可评论

包含图像描述、文本生成图片、版面分析、多模态表征、视觉问答、文档理解等多个领域

热门讨论

热门文章

相关电子书

更多
印刷文字识别算法设计与在线服务 立即下载
雷音识字-通用OCR云产品 立即下载
OCR:图文结构理解探索和实践 立即下载
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等