开发者社区 > 视觉智能 > 文字识别 > 正文

文字识别OCR混贴发票识别中(一图多发票)怎么知道这个坐标哪个是图片需要截取的起始坐标?

文字识别OCR混贴发票识别中(一图多发票)怎么知道这个坐标哪个是图片需要截取的起始坐标?同时这个所谓的从原图上截取,这个原图是指我混贴照片吗?

展开
收起
2401。 2023-08-27 10:32:35 75 0
5 条回答
写回答
取消 提交回答
  • 从事java行业9年至今,热爱技术,热爱以博文记录日常工作,csdn博主,座右铭是:让技术不再枯燥,让每一位技术人爱上技术

    您好,文字识别OCR识别具体图片内容信息时会返回图片中内容的坐标信息,比如发票日期的坐标信息
    image.png
    具体的value值即是图片中对应坐标位置的文本内容。原图是您上传的图片

    2023-08-29 13:20:20
    赞同 展开评论 打赏
  • 是的 原图就是你上传的图片。此回答整理自钉群“【官方】阿里云OCR公共云客户交流群”。

    2023-08-28 20:28:18
    赞同 展开评论 打赏
  • 天下风云出我辈,一入江湖岁月催,皇图霸业谈笑中,不胜人生一场醉。

    文字块的外矩形四个点的坐标按顺时针排列(左上、右上、右下、左下)。当NeedRotate=true时,如果最外层的angle不为0,需要按照angle矫正图片后,坐标才准确。
    image.png阿里云表格识别,是阿里云官方自研OCR文字识别产品,支持对多种表格格式(有线表格、条纹表格、无线表格)进行智能文字识别并结构化输出识别结果。
    阿里云OCR产品基于阿里巴巴达摩院强大的AI技术及海量数据,历经多年沉淀打磨,具有服务稳定、操作简易、实时性高、能力全面等几大优势。
    image.png

    2023-08-28 17:45:36
    赞同 展开评论 打赏
  • 公众号:网络技术联盟站,InfoQ签约作者,阿里云社区签约作者,华为云 云享专家,BOSS直聘 创作王者,腾讯课堂创作领航员,博客+论坛:https://www.wljslmz.cn,工程师导航:https://www.wljslmz.com

    在阿里云文字识别OCR的混贴发票识别中,根据返回的sliceRect参数来截取子图,确实需要知道截取的起始坐标。

    对于混贴发票识别,sliceRect返回的四个坐标点表示子图在原图中的位置。这四个坐标点形成了一个矩形区域,其中两个对角点坐标 (x0, y0), (x2, y2) 不限制顺序,但需要保持相对位置的一致性。

    为了知道哪个坐标是截取的起始坐标,您可以参考以下方法:

    1. 具体定义:根据阿里云的API文档和说明,可以查看对sliceRect的具体定义和描述,以确定哪个坐标点是矩形区域的起始坐标。

    2. 矩形区域大小:通过观察和比较四个坐标点的位置和数值,可以推断出哪两个坐标点形成了起始坐标和终止坐标。通常来说,起始坐标的数值较小,而终止坐标的数值较大。

    关于原图的问题,混贴发票识别中的原图是指您上传或传入的混贴发票图像。您可以使用混贴发票识别的API将整张混贴发票图像作为输入,并根据返回的sliceRect参数来截取每个子图进行进一步的识别和处理。

    2023-08-27 23:53:28
    赞同 展开评论 打赏
  • 十分耕耘,一定会有一分收获!

    楼主你好,在进行阿里云文字识别OCR混贴发票识别中的一图多发票识别时,需要先确定图片需要截取的起始坐标。这个起始坐标可以通过手动观察原始图片来确定,也可以通过代码自动计算得出。

    在进行从原图上截取时,原图指的是混贴照片中包含多张发票的图片。这些发票可能具有不同的大小和位置,因此需要先找到每张发票的位置信息,然后从原图上截取出每张发票的图像,再进行识别。

    2023-08-27 14:45:50
    赞同 展开评论 打赏

文字识别技术可以灵活应用于证件文字识别、发票文字识别、文档识别与整理等行业场景,满足认证、鉴权、票据流转审核等业务需求。

相关电子书

更多
阿里云智能-印刷文字识别OCR-产品介绍 立即下载
阿里巴巴读光OCR 立即下载
印刷文字识别算法设计与在线服务 立即下载