开发者社区 > 视觉智能 > 文字识别 > 正文

OCR表格信息抽取能不能支持对某一个识别后的单元格数据二次处理呢?

问题1:OCR表格信息抽取能不能支持对某一个识别后的单元格数据二次处理呢?因为客户发来的模板是在一个单元格,但我想达到根据词典拆开的效果。5e53114feac644f67b7164a63188d223.png 问题2:按列标是什么意思呢?

展开
收起
三分钟热度的鱼 2023-06-13 18:11:47 64 0
3 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    OCR 表格信息抽取通常可以支持对识别后的单元格数据进行二次处理,以达到您所需要的结果。您可以根据 OCR 抽取后的结果进行二次处理,例如根据词典拆分单元格数据、合并单元格、格式化数据等。

    一般来说,OCR 抽取后的结果通常会以文本或结构化数据的形式输出,您可以对这些数据进行处理。如果您使用的是 OCR 抽取服务,服务提供商通常会提供相应的 SDK 或 API,您可以使用这些工具来访问和处理 OCR 抽取结果。

    如果您使用的是 OCR 抽取软件或工具,您可以使用相应的工具来访问和处理 OCR 抽取结果。例如,您可以使用 Python 中的 pandas 库来处理和分析表格数据,使用 NLP 工具库来进行文本处理和分析。

    2023-06-13 21:57:08
    赞同 展开评论 打赏
  • 问题1:OCR 抽取的结果可以再次进行二次处理,例如根据词典拆分单元格数据。你可以使用编程语言(如 Python)或者其他工具对 OCR 抽取结果进行处理。具体操作可以参考以下几个步骤:

    1. 使用 OCR 技术对表格进行识别,获取表格中的所有单元格数据。
    2. 对每个单元格数据进行处理,例如使用正则表达式或者字符串操作将单元格数据按照词典进行拆分。
    3. 将处理后的数据重新组合成表格形式,输出结果。

    问题2:按列标是指按照表格中的列索引进行处理。在 OCR 抽取中,可以根据表格中每个单元格的位置信息(例如左上角坐标和右下角坐标)来获取每个单元格所在的列和行。按列标处理即是对表格中每一列的单元格数据进行处理。

    2023-06-13 18:36:42
    赞同 展开评论 打赏
  • 针对问题1的回答:准备好训练数据,按列标 是可以的。针对问题2的回答:每个单元格只框出对应的文字内容,比如“宽”这一列就只框“1234”此回答整理自钉群“【官方】阿里云OCR文档自学习用户答疑群”

    2023-06-13 18:28:49
    赞同 展开评论 打赏

文字识别技术可以灵活应用于证件文字识别、发票文字识别、文档识别与整理等行业场景,满足认证、鉴权、票据流转审核等业务需求。

相关电子书

更多
阿里云智能-印刷文字识别OCR-产品介绍 立即下载
阿里巴巴读光OCR 立即下载
印刷文字识别算法设计与在线服务 立即下载