文字识别OCR混贴发票识别中(一图多发票)有推荐的算法吗？

文字识别OCR混贴发票识别中(一图多发票)有推荐的算法吗？（目前待截取图片的第一个角的x坐标取的是x0-x3的最小值，第一个角的y坐标取的是y0-y3的最小值,第二个角的x坐标取的是x0-x3的Max(x)-Min(x),,第二个角的y坐标取的是Max(y)-Min(y)）,,,然后原图的第一个角的x坐标、y坐标以及第二个角的x坐标、y坐标我就不知道了）
graphics2D.drawImage(image, minX, minY, maxX-minX, maxY-minY, orgWidth, orgHeight, srcWidth, srcHeight, null);

展开

收起

2401。 2023-08-27 10:32:35 345 版权

5 条回答

写回答

取消提交回答

挚爱长虹

目前没有这一类的算法这个需要二次开发。此回答整理自钉群“【官方】阿里云OCR公共云客户交流群”。

2023-08-28 20:28:18

赞同展开评论
魏红斌

天下风云出我辈，一入江湖岁月催，皇图霸业谈笑中，不胜人生一场醉。

阿里云混贴发票识别，是阿里云官方自研OCR文字识别产品，适用于获取多种发票集合在一个页面的场景，需要获取多种发票上的关键信息。
阿里云OCR产品基于阿里巴巴达摩院强大的AI技术及海量数据，历经多年沉淀打磨，具有服务稳定、操作简易、实时性高、能力全面等几大优势。

发票信息（subMsgs字段）

结构化信息（result字段）

2023-08-28 17:51:16

赞同展开评论
wljslmz

公众号：网络技术联盟站，InfoQ签约作者，阿里云社区签约作者，华为云云享专家，BOSS直聘创作王者，腾讯课堂创作领航员，博客+论坛：https://www.wljslmz.cn，工程师导航：https://www.wljslmz.com
在阿里云文字识别OCR混贴发票识别中涉及到截取子图的算法会有多种选择。不同的算法可以根据具体的需求和场景来确定。这里提供一个可能的算法示例：
1. 获取最小和最大坐标值：根据返回的sliceRect参数，获取四个坐标点的x和y的最小值和最大值。即：minX = min(x0, x1, x2, x3)，minY = min(y0, y1, y2, y3)，maxX = max(x0, x1, x2, x3)，maxY = max(y0, y1, y2, y3)。
2. 计算截取区域的宽度和高度：根据最小和最大坐标值，计算截取的区域宽度和高度。即：width = maxX - minX，height = maxY - minY。
3. 进行截取操作：根据计算得到的宽度、高度以及sliceRect的原图信息（orgWidth、orgHeight、srcWidth、srcHeight），使用相应的截取函数对原图进行截取。在提供的代码示例中，使用graphics2D.drawImage()对原图进行截取操作，具体参数设置请参考相关文档。
这个算法示例仅供参考，根据实际场景和需求，您可以针对混贴发票识别的具体情况进行适当的调整和优化。
2023-08-27 23:54:45

赞同展开评论
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
在文字识别OCR中处理混贴发票的一图多发票问题，有一些常见的算法和技术可供参考。以下是几种常见的算法：
1. 基于边缘检测和轮廓分析：使用边缘检测算法（如Canny边缘检测）来提取发票的边缘信息，然后利用轮廓分析算法（如OpenCV中的轮廓分析功能）来检测和分割不同的发票区域。
2. 基于图像分割：使用图像分割算法（如基于阈值或聚类的方法）将图片中的发票区域从背景中提取出来，并单独处理每个发票区域。
3. 基于模板匹配：创建发票模板，然后使用模板匹配算法（如OpenCV中的模板匹配功能）来在图片中寻找与模板相似的区域，以定位发票位置。
4. 基于深度学习和目标检测：使用深度学习技术，如卷积神经网络（CNN）或目标检测算法（如YOLO、Faster R-CNN等），对图片进行训练和推理，以检测并定位发票区域。
根据您描述的截取方式，可以根据最小和最大的x、y坐标来确定发票区域的位置和大小。在使用Java的Graphics2D.drawImage方法时，可以根据这些坐标参数进行截取操作。

需要注意的是，具体选择哪种算法或技术取决于您的需求和实际情况，如发票样式、图像质量等。同时，这些算法和技术可能需要结合其他图像处理、分析和OCR技术来实现完整的混贴发票识别系统。
2023-08-27 20:26:00

赞同展开评论
三掌柜666

十分耕耘，一定会有一分收获！

楼主你好，阿里云文字识别OCR混贴发票识别中推荐使用基于深度学习的物体检测算法，例如Faster R-CNN、YOLO、SSD等。这些算法能够有效地对图片中的多个发票区域进行检测和定位，并输出每个发票区域的坐标信息。同时，对于待截取图片的第一个角和第二个角的坐标信息，可以通过计算发票区域左上角和右下角的坐标来获得。具体代码实现可能因算法不同而有所差异。

2023-08-27 14:45:49

赞同展开评论

文字识别OCR混贴发票识别中(一图多发票)有推荐的算法吗？

文字识别

相关文章

热门讨论

热门文章