文字识别OCR我看识别接口有返回一些坐标信息啥的，想着通过这些个坐标是能截取出一张图片嘛？

展开

收起

青城山下庄文杰 2023-08-20 15:54:28 1225 版权

6 条回答

写回答

取消提交回答

yuanzhengme

Java开发

是的，除了识别的文本，还有文本区域的坐标信息，可以根据坐标信息截取文本周围的图片数据。

2024-08-02 08:31:31

赞同展开评论
Ð

可以根据子图坐标信息在原图中截取-此回答整理自钉群“【官方】阿里云OCR公共云客户交流群”

2023-08-22 09:41:27

赞同展开评论
Star时光
是的，阿里云文字识别OCR接口返回的坐标信息可以用于截取出图片中指定区域的部分。

通常，在识别接口的返回结果中，会包含每个识别到的文字的坐标信息。这些坐标信息描述了文字在原始图像中所处的位置和大小。您可以利用这些坐标信息进行截取操作，从原始图像中提取出包含特定文字的区域。

具体操作步骤如下：
1. 解析OCR接口的返回结果，获取每个文字对象的坐标信息。通常，坐标信息可以表示为矩形框的左上角和右下角的坐标或者四个点的坐标。
2. 根据坐标信息，将其映射到原始图像中的位置。确保坐标信息与原始图像的比例和尺寸相匹配。
3. 基于坐标信息，对原始图像进行裁剪操作，截取出指定区域的部分。可以使用编程语言或图像处理工具来实现此操作。
通过以上步骤，您可以根据OCR接口返回的坐标信息，从原始图像中截取出包含特定文字的部分图像。
2023-08-21 20:54:00

赞同展开评论
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
是的，通过文字识别OCR接口返回的坐标信息，您可以截取出原始图像中与识别文本对应的区域，从而生成一张包含该文本区域的图片。

通常，OCR接口返回的坐标信息指定了文本所在的矩形边界框（例如，左上角坐标和右下角坐标）。您可以使用这些坐标来裁剪原始图像，并提取出指定的文本区域。

以下是一个示例步骤：
1. 调用OCR接口进行文字识别，获取到文本内容和对应的坐标信息。
2. 解析OCR接口返回的坐标信息，获得文本所在的矩形边界框的左上角坐标 (x1, y1) 和右下角坐标 (x2, y2)。
3. 使用图像处理库（如Pillow、OpenCV等）加载原始图像，并根据坐标信息裁剪出文本区域。
4. 将裁剪后的图像保存到文件或进行后续处理。
请注意，截取的文本区域可能包含其他噪点或背景信息。如果需要进一步优化图像质量，您可以考虑进行图像预处理操作，例如去除背景、调整亮度和对比度等。

此外，要注意确保坐标信息和原始图像的尺寸匹配，以及处理不同坐标系的情况（如像素坐标、百分比坐标等），具体取决于所使用的OCR接口和图像处理库的要求。
2023-08-21 17:56:49

赞同展开评论
魏红斌

天下风云出我辈，一入江湖岁月催，皇图霸业谈笑中，不胜人生一场醉。

阿里云全文识别高精版，是阿里云官方自研OCR文字识别产品，智能识别图片所包含的全部字段，集表格识别、旋转识别、生僻字识别等多功能为一体，提供高性价比的多场景文字识别体验。
阿里云OCR产品基于阿里巴巴达摩院强大的AI技术及海量数据，历经多年沉淀打磨，具有服务稳定、操作简易、实时性高、能力全面等几大优势。
文字块的外矩形四个点的坐标按顺时针排列（左上、右上、右下、左下）。当NeedRotate=true时，如果最外层的angle不为0，需要按照angle矫正图片后，坐标才准确。

2023-08-21 16:38:40

赞同展开评论
wljslmz

公众号：网络技术联盟站，InfoQ签约作者，阿里云社区签约作者，华为云云享专家，BOSS直聘创作王者，腾讯课堂创作领航员，博客+论坛：https://www.wljslmz.cn，工程师导航：https://www.wljslmz.com
是的，阿里云的文字识别（OCR）接口在返回结果中通常会包含一些坐标信息，如文字所在的位置、边界框等。您可以利用这些坐标信息来截取出包含文字的局部图像。

具体步骤如下：
1. 调用文字识别（OCR）接口并获取返回的结果数据，其中包含了文字的坐标信息。
2. 根据坐标信息，可以确定文字所在的位置和边界框。
3. 使用图像处理库（如PIL、OpenCV等）加载原始图片，并根据坐标信息进行裁剪操作。裁剪后的图像即为包含文字的局部图像。
4. 可选：根据需求，您可以对截取到的局部图像进行后续处理，如调整大小、增加水印等。
通过以上步骤，您可以利用文字识别（OCR）接口返回的坐标信息，从原始图片中截取出包含特定文字的局部图像。
2023-08-20 17:12:28

赞同展开评论