开发者社区 > 视觉智能 > 文字识别 > 正文

文字识别OCR混贴发票识别中最外层的1部分与2部分,这些个数据,分别表示什么意思呢?

文字识别OCR混贴发票识别中最外层的1部分与2部分,这些个数据,分别表示什么意思呢?截取时的原图的高宽是不是用1部分的吗?若是,用的是带org还是不带org开头的?
3268a0a60f21edb3b4d26c3e362942ee.png

展开
收起
2401。 2023-08-27 10:37:01 76 0
6 条回答
写回答
取消 提交回答
  • https://help.aliyun.com/document_detail/442266.html?spm=a2c4g.442266.0.0.40ea29a1BAiMBy
    此回答整理自钉群“【官方】阿里云OCR公共云客户交流群”。

    2023-08-28 20:28:19
    赞同 展开评论 打赏
  • 从事java行业9年至今,热爱技术,热爱以博文记录日常工作,csdn博主,座右铭是:让技术不再枯燥,让每一位技术人爱上技术

    您好,文字识别OCR混贴发票识别中返回参数orgHeight 表示 原图的高度 ;height 表示 算法矫正图片后的高度;宽度的处理也是这样的逻辑
    image.png
    您理解的是正确的,外层位置的高度宽度,也就是您说的1位置的高度宽度是您截图时的高宽;内层的高宽也就是2位置的高宽是混贴发票截图内部的子项的高度和宽度。

    2023-08-28 18:02:24
    赞同 展开评论 打赏
  • 天下风云出我辈,一入江湖岁月催,皇图霸业谈笑中,不胜人生一场醉。

    阿里云混贴发票识别,是阿里云官方自研OCR文字识别产品,适用于获取多种发票集合在一个页面的场景,需要获取多种发票上的关键信息。
    阿里云OCR产品基于阿里巴巴达摩院强大的AI技术及海量数据,历经多年沉淀打磨,具有服务稳定、操作简易、实时性高、能力全面等几大优势。
    image.png
    一般都带的,直接拉满就行
    image.png

    2023-08-28 17:48:28
    赞同 展开评论 打赏
  • 公众号:网络技术联盟站,InfoQ签约作者,阿里云社区签约作者,华为云 云享专家,BOSS直聘 创作王者,腾讯课堂创作领航员,博客+论坛:https://www.wljslmz.cn,工程师导航:https://www.wljslmz.com

    在阿里云文字识别OCR混贴发票识别中,"1部分"和"2部分"主要代表了混贴发票的不同区域或部分,具体含义如下:

    1. "1部分":代表混贴发票中一个发票的识别结果,即一个子图的识别结果。一般情况下,每个子图对应一个发票,"1部分"表示对于该发票的识别结果。

    2. "2部分":代表混贴发票中的其他部分,即除了每个发票外的区域或内容。在混贴发票识别中,有时候除了识别每个发票的详细内容之外,还可能提供一些其他的汇总信息或整体识别结果,这些信息通常包含在"2部分"中。

    而对于截取时的原图的高和宽,根据阿里云文字识别OCR混贴发票识别接口的说明,可以使用返回的sliceRect中的orgWidth和orgHeight作为原图的宽度和高度。

    具体来说,orgWidth表示原图的宽度,orgHeight表示原图的高度。在截取操作中,可以使用这两个值来指定原图的尺寸,并根据截取的区域和这两个值进行相应的计算和操作。对于原图的截取,可以根据您提供的代码示例,使用Graphics2D的drawImage方法,并使用orgWidth和orgHeight作为源图像的宽度和高度。

    2023-08-27 23:54:44
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    混贴发票指的是多张发票在同一张图片中混合出现的情况。OCR技术可以用于识别混贴发票,并对每个部分进行区分和解析。

    在混贴发票识别中,通常将发票分为以下两个部分:

    1. 第一部分(1部分):也称为"主体部分"或"主体发票",是指位于混贴发票的最外层的一张发票,即整个图片中占据较大面积的部分。这部分发票往往包含了重要的基本信息,如发票代码、发票号码等。

    2. 第二部分(2部分):是指位于混贴发票的次外层的一张或多张发票,即图片中较小面积的部分。这些发票往往是作为附属发票与主体发票一起存在的,例如购买明细或增值税专用发票的明细等。

    在使用OCR进行混贴发票识别时,通常会首先对整个图片进行处理和分割,将其中的第一部分和第二部分分开。然后针对每个部分单独进行文字识别和数据提取。

    关于截取时的原图的高宽,通常会以第一部分作为参考。具体来说,可以使用第一部分的位置和尺寸信息来确定截取区域,以确保识别和提取的准确性。

    至于带"org"还是不带"org"开头的命名方式,这可能取决于具体的实现和系统设计。在实际应用中,可以根据需要进行命名约定,以方便标识和处理不同部分的发票图像。

    需要注意的是,混贴发票的识别是一项复杂的任务,可能受到图像质量、发票排列方式等因素的影响。为了获得更好的识别结果,可能需要综合使用图像处理、分割和OCR技术,并根据实际情况进行调整和改进。

    2023-08-27 20:09:08
    赞同 展开评论 打赏
  • 十分耕耘,一定会有一分收获!

    楼主你好,1部分表示识别出的发票总体信息,包括发票代码、发票号码、开票日期、合计金额、合计税额等核心信息。
    2部分表示发票明细信息,包括商品名称、规格型号、单位、数量、单价、金额、税率、税额等详细信息。

    截取时的原图的高宽可以使用1部分中的“发票图像大小”参数,它是表示识别区域在原图中的位置和大小。该参数中的高宽都是不带org开头的。

    2023-08-27 14:45:48
    赞同 展开评论 打赏
滑动查看更多

文字识别技术可以灵活应用于证件文字识别、发票文字识别、文档识别与整理等行业场景,满足认证、鉴权、票据流转审核等业务需求。

相关电子书

更多
阿里云智能-印刷文字识别OCR-产品介绍 立即下载
阿里巴巴读光OCR 立即下载
印刷文字识别算法设计与在线服务 立即下载