针对图片中通用文字识别OCR,都能标识出位置吗?标识的位置是整个文字块的?还是按行区分的?

针对图片中通用文字识别OCR,都能标识出位置吗?标识的位置是整个文字块的?还是按行区分的?

展开
收起
三分钟热度的鱼 2024-05-04 23:52:51 59 分享 版权
阿里云 AI 助理回答

阿里云的通用文字识别OCR服务能够标识出图片中文字的位置信息,并且这些位置信息是按照文字块进行区分的,而不是单纯按行区分。以下是详细说明:

1. 位置标识的范围

通用文字识别OCR接口(如RecognizeGeneral)会返回每个文字块的位置信息。文字块是指图片中被检测到的一段连续的文字区域,可能包含单个字符、单词或一段短语。
- 每个文字块的位置通过其外接矩形的四个顶点坐标来表示,按顺时针顺序排列(左上、右上、右下、左下)。
- 这些坐标信息可以通过返回参数中的prism_wordsInfo字段获取,其中每个文字块的信息包括:
- pos:文字块的外接矩形四个顶点坐标。
- word:该文字块的具体文字内容。

2. 文字块与行的关系

  • 文字块的划分通常基于图片中的自然分隔,例如段落、标题、表格单元格等区域。
  • 如果图片中的文字是以行为单位排列的,则每个文字块可能会对应一行文字;但如果图片中存在复杂的排版(如多列文本、表格、混合格式等),则文字块可能跨越多行或仅包含部分行的内容。

3. 返回结果的结构化信息

在返回结果中,除了文字块的位置信息外,还会提供以下相关数据:
- prism_wnum:表示识别出的文字块数量。
- widthheight:算法矫正后的图片宽度和高度。
- orgWidthorgHeight:原图的宽度和高度。

4. 重要提醒

  • 文字块的角度:如果图片存在倾斜或畸变,文字块的角度信息也会被记录在angle字段中,这有助于理解文字块的方向。
  • 复杂场景支持:OCR服务支持模糊、光照不均、透视畸变等低质量图片的识别,因此即使图片质量较差,也能较为准确地定位文字块的位置。

总结

阿里云通用文字识别OCR服务能够标识出图片中文字的位置信息,这些位置信息是基于文字块的,而非单纯的行区分。文字块的位置通过外接矩形的四个顶点坐标表示,适用于各种复杂排版和低质量图片场景。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答

文字识别技术可以灵活应用于证件文字识别、发票文字识别、文档识别与整理等行业场景,满足认证、鉴权、票据流转审核等业务需求。

热门讨论

热门文章

还有其他疑问?
咨询AI助理