开发者社区 > 视觉智能 > 文字识别 > 正文

用的文字识别OCR表格信息抽取,还是有很多地方标注了但是实际用的时候没识别出来为什么?

用的文字识别OCR表格信息抽取,还是有很多地方标注了但是实际用的时候没识别出来,而且空格还是没有识别为什么?71c85280ad5e021faa7c56263cb0b431.png
lQLPJwi3v6CplETNBRrNC96wtsrqn7Qbu40E6-EQJECRAA_3038_1306.png
lQLPJwkSsoe2-ITNBjLNDSKwVSdYONrRPOgE6-Lxd4CnAA_3362_1586.png

展开
收起
三分钟热度的鱼 2023-09-13 19:05:41 61 0
5 条回答
写回答
取消 提交回答
  • 十分耕耘,一定会有一分收获!

    楼主你好,阿里云文字识别OCR表格信息抽取是一种自动化的技术,在实际使用时可能会存在一些误差。造成这种情况的原因可能有以下几点:

    1. 图片质量不好:OCR技术对图片质量的要求比较高,如果图片模糊、光线不好、色彩不均匀等,都会影响识别效果。因此,在使用OCR技术时,要尽可能保证图片的质量,选择高清、清晰的图片进行处理。

    2. 表格结构复杂:如果表格结构比较复杂,包含嵌套表格、单元格合并等情况,那么识别的难度会增加,可能会导致部分信息无法识别出来。针对这种情况,可以尝试将表格拆分成多个简单的表格再进行识别,减少难度。

    3. 字体、字号、颜色不一致:如果表格中的字体、字号、颜色不一致,会导致OCR技术难以准确地识别出表格内容。因此,在制作表格时,要尽可能保持字体、字号、颜色的一致性。

    4. 语言不匹配:OCR技术会根据设置的语言进行识别,如果设置的语言与表格内容不匹配,也会影响识别效果。因此,在使用OCR技术时,要根据实际情况选择合适的语言进行设置。

    要想提高OCR技术的识别效果,需要从多个方面入手,尽可能减少误差。

    2023-09-17 12:59:10
    赞同 展开评论 打赏
  • 从事java行业8年至今,热爱技术,热爱以博文记录日常工作,csdn博主,座右铭是:让技术不再枯燥,让每一位技术人爱上技术

    您好,文字识别OCR文档自学习自定义表格模版识别可以通过标注,训练数据集的方式来提高表格识别精确率,
    image.png
    但是并不能保证100%识别准确,只能通过配置调优,模版训练来提高识别精确率。

    2023-09-17 10:58:50
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    image.png

    阿里云OCR文字识别服务在识别表格信息时,可能会因为表格的排列方式、字体、字号、字形等因素影响识别效果。如果您的表格中存在多行数据,但是OCR服务只识别了其中的部分行,或者识别出的表格信息中存在空格问题,您可以尝试以下方法:
    image.png

    1. 使用高质量的表格图片:确保表格图片清晰、对比度高、背景干净。

    2. 调整OCR服务的参数:根据实际需求调整OCR服务的参数,例如识别精度、字符分割精度等。

    3. 使用增强功能:如果OCR服务仍然无法正确识别表格信息,您可以尝试使用OCR服务的增强功能,例如文本增强、图像增强等。

    4. 使用多标注功能:如果OCR服务无法正确识别表格信息,您可以尝试使用OCR服务的多标注功能,手动标注表格的行数和空格位置。

    2023-09-14 13:59:19
    赞同 展开评论 打赏
  • 在使用文字识别OCR进行表格信息抽取时,可能会遇到一些情况导致标注的信息无法被准确识别出来。以下是可能导致这种情况发生的一些常见原因:
    image.png

    1. 图像质量问题:OCR对于图像质量非常敏感。如果输入的图像模糊、光照不均或者存在噪声等问题,可能会影响OCR的准确性和可靠性。您可以尝试通过优化图像预处理步骤,如调整对比度、清晰度和亮度,以改善图像质量。

    2. 文本布局和格式:OCR对于复杂的文本布局和格式可能遇到困难。例如,表格中的合并单元格、嵌套表格、多级标题等情况可能增加了识别的复杂性。针对这些情况,您可以尝试使用表格识别功能,并根据具体的表格结构设置相应的规则和参数。
      image.png

    3. 字体样式和大小:特殊的字体样式、大小和颜色可能会使OCR难以正确识别文本。某些字体可能与OCR训练数据集中的字体不匹配,导致识别结果不准确。确保使用的字体符合OCR模型的训练范围,并尽量选择易于识别的字体。

    4. 文本复杂性:一些特定类型的文本,如手写文本、倾斜文本、非标准语言或专业术语等,可能会增加识别的困难。OCR模型在处理这些复杂文本时可能存在限制。对于这些情况,可以尝试使用更先进的OCR技术,并针对特定的场景进行训练和调优。

    5. 训练数据不足或不适用:OCR模型的性能取决于使用的训练数据集。如果您的数据集与实际应用场景不匹配,或者数据样本太少,模型可能无法准确地识别所需信息。在这种情况下,建议收集更多具有代表性的样本,并进行适当的训练和调优。

    6. 参数设置不合适:OCR服务通常提供一些参数和选项,以根据实际需求进行配置。如果参数设置不正确或不适用于特定的文本场景,可能会导致识别结果不准确。请确保根据具体需求和测试结果进行参数调整。

    2023-09-13 19:24:29
    赞同 展开评论 打赏
  • 这部分列表型表格用表格工具标注后,kv题目这部分就无需再标注,看遗漏的题目也都是这部分的。f19c662dda2121877edfa60989673e33.png
    此回答整理自钉群“【官方】阿里云OCR文档自学习用户答疑群”

    2023-09-13 19:17:48
    赞同 展开评论 打赏

文字识别技术可以灵活应用于证件文字识别、发票文字识别、文档识别与整理等行业场景,满足认证、鉴权、票据流转审核等业务需求。

热门讨论

热门文章

相关电子书

更多
阿里云智能-印刷文字识别OCR-产品介绍 立即下载
阿里巴巴读光OCR 立即下载
印刷文字识别算法设计与在线服务 立即下载