开发者社区 > 视觉智能 > 文字识别 > 正文

文字识别OCR表格信息抽取也能用分类器吗?

文字识别OCR表格信息抽取也能用分类器吗?

展开
收起
三分钟热度的鱼 2023-08-08 10:11:25 71 0
7 条回答
写回答
取消 提交回答
  • 十分耕耘,一定会有一分收获!

    楼主你好,是的,阿里云文字识别OCR表格信息抽取可以与分类器一起使用。首先通过OCR抽取表格中的文本信息,然后使用分类器对这些信息进行分类或标记。例如,可以通过OCR抽取一张发票中的商品名称、数量和单价等信息,然后使用分类器对每个商品进行分类,以便对商品进行统计和分析。此外,阿里云还提供了自然语言处理服务,可以帮助用户更好地处理和理解文本信息。

    2023-08-29 14:33:46
    赞同 展开评论 打赏
  • 北京阿里云ACE会长

    而对于表格信息来说,不同的表格裁剪到图片中后是同样的类型,所以没有必要使用分类器来区分。

    抽取表格信息需要使用OCR表格抽取功能,具体做法是:

    使用表格识别API,识别出图片中包含的表格布局

    将表格单元格中的文字转为文本,形成二维数组

    进行结构化的表头与字段识别

    输出包含表格数据与布局信息的结构化结果

    所有这些过程中都不需要使用"分类器"。

    所以总的来说,抽取表格信息时不能使用分类器。
    你需要调用OCR服务专门的表格识别API,传入包含表格的图片,然后可以获得表格数据与布局信息。

    2023-08-09 19:02:55
    赞同 展开评论 打赏
  • 是的,分类器可以用于文字识别OCR表格信息抽取。在OCR中,表格信息抽取是指从图像或扫描文档中提取表格结构和内容,然后将其转换为可处理的数据格式,如CSV、Excel等。

    使用分类器可以帮助提高表格信息抽取的准确性和效率。分类器可以根据预定义的规则或模式,自动识别和分类表格中的不同元素,如表头、行标题、列标题、数据单元格等。分类器可能会使用机器学习算法来训练和优化模型,以便更好地理解和提取表格中的信息。

    下面是一些常见的分类器应用场景:

    1. 表头识别:使用分类器识别表格的表头,以确定每列的含义和对应的数据类型。

    2. 数据行识别:分类器可以根据预定义的规则或机器学习算法,判断表格中的每一行是属于数据行还是其他类型的行,如表头行、摘要行等。

    3. 列类型识别:分类器可以识别表格中不同列的类型,例如日期、货币、数字、文本等,以便进行相应的处理和分析。

    4. 数据单元格分类:分类器可以将表格中的数据单元格分类为不同的类别,如姓名、地址、产品名称等,以便后续的处理和分析。

    需要注意的是,分类器的准确性取决于所使用的训练数据集和算法。因此,在应用分类器之前,需要进行充分的训练和验证,以确保准确地识别和抽取表格信息。

    2023-08-08 19:02:48
    赞同 展开评论 打赏
  • 天下风云出我辈,一入江湖岁月催,皇图霸业谈笑中,不胜人生一场醉。

    在OCR中,分类器通常用于对识别出的文字进行分类,例如将文字分类为中文、英文、数字等。但是,对于表格信息抽取这种任务,分类器并不一定适用。
    表格信息抽取通常需要对表格中的每个单元格进行分析和理解,以提取出其中的信息。这种任务需要对表格中的每个单元格进行深入的分析和理解,因此使用分类器来进行抽取可能并不适用。
    相反,一些深度学习技术,例如卷积神经网络、循环神经网络等,可能更适合用于表格信息抽取。这些技术可以对表格中的每个单元格进行深入的分析和理解,以提取出其中的信息。

    2023-08-08 17:34:54
    赞同 展开评论 打赏
  • 从事java行业9年至今,热爱技术,热爱以博文记录日常工作,csdn博主,座右铭是:让技术不再枯燥,让每一位技术人爱上技术

    您好,文字识别OCR表格信息抽取可以用分类器的,分类器是一个支持多模板、多模型分类路由的工具
    image.png
    目前只有长文档模型不能使用分类器

    2023-08-08 14:13:54
    赞同 展开评论 打赏
  • 可以的,分类器可以把不同模版或模型关联在一起,实现图片类型的分类和结构化识别。此回答整理自钉群“【官方】阿里云OCR文档自学习用户答疑群”

    2023-08-08 13:51:01
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    是的,文字识别OCR表格信息抽取可以与分类器结合使用。分类器可以用来对提取的文本进行进一步的分析、归类和处理。
    image.png
    image.png

    一种常见的做法是将OCR提取的表格数据作为输入,然后使用分类器对这些数据进行分类或标记。分类器可以基于预定义的类别或标签,根据特定的规则或训练模型来确定每个数据元素所属的类别。

    例如,在发票识别中,OCR提取的表格数据可能包括发票号码、日期、金额等字段。通过使用分类器,你可以自动将提取的数据按照不同的类别进行归类,如发票号码类别、日期类别、金额类别等。

    分类器的训练可以基于机器学习算法,如支持向量机(SVM)、随机森林、神经网络等。通过对大量已标注的数据进行训练,分类器可以学习到数据的模式和特征,并在新的数据上进行准确的分类。

    2023-08-08 13:29:20
    赞同 展开评论 打赏
滑动查看更多

文字识别技术可以灵活应用于证件文字识别、发票文字识别、文档识别与整理等行业场景,满足认证、鉴权、票据流转审核等业务需求。

相关电子书

更多
阿里云智能-印刷文字识别OCR-产品介绍 立即下载
阿里巴巴读光OCR 立即下载
印刷文字识别算法设计与在线服务 立即下载