用的文字识别OCR表格信息抽取，还是有很多地方标注了但是实际用的时候没识别出来为什么？

用的文字识别OCR表格信息抽取，还是有很多地方标注了但是实际用的时候没识别出来，而且空格还是没有识别为什么?
lQLPJwi3v6CplETNBRrNC96wtsrqn7Qbu40E6-EQJECRAA_3038_1306.png
lQLPJwkSsoe2-ITNBjLNDSKwVSdYONrRPOgE6-Lxd4CnAA_3362_1586.png

展开

收起

三分钟热度的鱼 2023-09-13 19:05:41 351 版权

5 条回答

写回答

取消提交回答

三掌柜666

十分耕耘，一定会有一分收获！
楼主你好，阿里云文字识别OCR表格信息抽取是一种自动化的技术，在实际使用时可能会存在一些误差。造成这种情况的原因可能有以下几点：
1. 图片质量不好：OCR技术对图片质量的要求比较高，如果图片模糊、光线不好、色彩不均匀等，都会影响识别效果。因此，在使用OCR技术时，要尽可能保证图片的质量，选择高清、清晰的图片进行处理。
2. 表格结构复杂：如果表格结构比较复杂，包含嵌套表格、单元格合并等情况，那么识别的难度会增加，可能会导致部分信息无法识别出来。针对这种情况，可以尝试将表格拆分成多个简单的表格再进行识别，减少难度。
3. 字体、字号、颜色不一致：如果表格中的字体、字号、颜色不一致，会导致OCR技术难以准确地识别出表格内容。因此，在制作表格时，要尽可能保持字体、字号、颜色的一致性。
4. 语言不匹配：OCR技术会根据设置的语言进行识别，如果设置的语言与表格内容不匹配，也会影响识别效果。因此，在使用OCR技术时，要根据实际情况选择合适的语言进行设置。
要想提高OCR技术的识别效果，需要从多个方面入手，尽可能减少误差。
2023-09-17 12:59:10

赞同展开评论
六月的雨在钉钉

从事java行业9年至今，热爱技术，热爱以博文记录日常工作，csdn博主，座右铭是：让技术不再枯燥，让每一位技术人爱上技术

您好，文字识别OCR文档自学习自定义表格模版识别可以通过标注，训练数据集的方式来提高表格识别精确率，

但是并不能保证100%识别准确，只能通过配置调优，模版训练来提高识别精确率。

2023-09-17 10:58:50

赞同展开评论
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
阿里云OCR文字识别服务在识别表格信息时，可能会因为表格的排列方式、字体、字号、字形等因素影响识别效果。如果您的表格中存在多行数据，但是OCR服务只识别了其中的部分行，或者识别出的表格信息中存在空格问题，您可以尝试以下方法：
1. 使用高质量的表格图片：确保表格图片清晰、对比度高、背景干净。
2. 调整OCR服务的参数：根据实际需求调整OCR服务的参数，例如识别精度、字符分割精度等。
3. 使用增强功能：如果OCR服务仍然无法正确识别表格信息，您可以尝试使用OCR服务的增强功能，例如文本增强、图像增强等。
4. 使用多标注功能：如果OCR服务无法正确识别表格信息，您可以尝试使用OCR服务的多标注功能，手动标注表格的行数和空格位置。
2023-09-14 13:59:19

赞同展开评论
Star时光
在使用文字识别OCR进行表格信息抽取时，可能会遇到一些情况导致标注的信息无法被准确识别出来。以下是可能导致这种情况发生的一些常见原因：
1. 图像质量问题：OCR对于图像质量非常敏感。如果输入的图像模糊、光照不均或者存在噪声等问题，可能会影响OCR的准确性和可靠性。您可以尝试通过优化图像预处理步骤，如调整对比度、清晰度和亮度，以改善图像质量。
2. 文本布局和格式：OCR对于复杂的文本布局和格式可能遇到困难。例如，表格中的合并单元格、嵌套表格、多级标题等情况可能增加了识别的复杂性。针对这些情况，您可以尝试使用表格识别功能，并根据具体的表格结构设置相应的规则和参数。
3. 字体样式和大小：特殊的字体样式、大小和颜色可能会使OCR难以正确识别文本。某些字体可能与OCR训练数据集中的字体不匹配，导致识别结果不准确。确保使用的字体符合OCR模型的训练范围，并尽量选择易于识别的字体。
4. 文本复杂性：一些特定类型的文本，如手写文本、倾斜文本、非标准语言或专业术语等，可能会增加识别的困难。OCR模型在处理这些复杂文本时可能存在限制。对于这些情况，可以尝试使用更先进的OCR技术，并针对特定的场景进行训练和调优。
5. 训练数据不足或不适用：OCR模型的性能取决于使用的训练数据集。如果您的数据集与实际应用场景不匹配，或者数据样本太少，模型可能无法准确地识别所需信息。在这种情况下，建议收集更多具有代表性的样本，并进行适当的训练和调优。
6. 参数设置不合适：OCR服务通常提供一些参数和选项，以根据实际需求进行配置。如果参数设置不正确或不适用于特定的文本场景，可能会导致识别结果不准确。请确保根据具体需求和测试结果进行参数调整。
2023-09-13 19:24:29

赞同展开评论
圆不溜秋的小猫猫

这部分列表型表格用表格工具标注后，kv题目这部分就无需再标注，看遗漏的题目也都是这部分的。
此回答整理自钉群“【官方】阿里云OCR文档自学习用户答疑群”

2023-09-13 19:17:48

赞同展开评论

用的文字识别OCR表格信息抽取，还是有很多地方标注了但是实际用的时候没识别出来为什么？

文字识别

相关文章

热门讨论

热门文章