ModelScope读光ocr手写体模型问题中，不知道如何训练？

ModelScope读光ocr手写体模型问题中，我将灰度化的动作拆解到三通道现在的识别模型只能识别灰度无法识别颜色如有多种颜色的背景横线干扰无法区分我解开成三通道参数但是不知道如何训练？

展开

收起

闲o月 2024-01-02 19:34:31 254 版权

3 条回答

写回答

取消提交回答

sunrr

对于OCR手写体识别模型的训练，你需要一个包含手写体文本及其对应标签的数据集。这个数据集应该包含各种不同的手写风格、字体大小、倾斜角度以及背景颜色和图案。

在训练模型时，你需要将每个图像转换为灰度图，因为大多数OCR模型都是基于灰度图像进行训练的。然后，你可以使用深度学习框架（如TensorFlow或PyTorch）来构建和训练你的模型。

如果你的模型无法区分颜色和背景横线，可能是因为你的数据集不够多样化，或者你的模型没有学习到足够的特征来区分这些干扰。你可以尝试增加数据集的大小和多样性，或者尝试使用更复杂的模型（如卷积神经网络，CNN）来进行训练。

2024-01-03 10:26:22

赞同展开评论
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

在您的情况下，由于当前的识别模型只能处理灰度图像，而无法处理彩色图像，因此，一种可能的解决方案是将灰度化的过程分解到三个通道中。然而，您也提到如果背景有多种颜色的横线干扰，只使用灰度模型就无法区分颜色。

关于如何训练的问题，首先需要确定您的模型是否可以接受三通道的输入。如果可以，那么您可以将灰度的三个参数作用在三通道的参数上，以此来避免颜色对文字识别的影响。然后，您可能需要修改模型的第一层，使其可以接受三通道的输入。

另外，您可以考虑使用基于OFA模型的finetune后的OCR文字识别任务，这种模型可以有效识别手写体文字。OFA (One-For-All)是通用多模态预训练模型，它使用简单的序列到序列的学习框架统一模态（跨模态、视觉、语言等模态）和任务（如图片生成、视觉定位、图片描述、图片分类、文本生成等）。这可能会有助于解决您的问题。

2024-01-02 22:20:21

赞同展开评论
三颗橙子

现在就是三通道图像输入呀，一方面来说，其他颜色干扰线这个问题其实直接用灰度图就可以，模型可以学到的；另一方面，如果需要输入模型三通道，你可以把RGB->GRAY的手动删掉，然后把模型第一层的输入通道数改成3就好了，而且读参数的时候那一层不读就好了，相当于重新训第一层，一般很快会收敛的 https://blog.csdn.net/LXX516/article/details/80124768 可参考在这里加， ./modelscope/models/cv/ocr_recognition/model.py 参考94-105行训练框架里面走的也是这里load参数，你在这里提前改成需要的格式就好此回答整理自钉群“魔搭ModelScope开发者联盟群 ①”

2024-01-02 20:27:20

赞同展开评论

ModelScope读光ocr手写体模型问题中，不知道如何训练？

计算机视觉

相关文章

热门讨论

热门文章