针对图片中通用文字识别OCR,都能标识出位置吗?标识的位置是整个文字块的?还是按行区分的?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
阿里云的通用文字识别OCR服务能够标识出图片中文字的位置信息,并且这些位置信息是按照文字块进行区分的,而不是单纯按行区分。以下是详细说明:
通用文字识别OCR接口(如RecognizeGeneral
)会返回每个文字块的位置信息。文字块是指图片中被检测到的一段连续的文字区域,可能包含单个字符、单词或一段短语。
- 每个文字块的位置通过其外接矩形的四个顶点坐标来表示,按顺时针顺序排列(左上、右上、右下、左下)。
- 这些坐标信息可以通过返回参数中的prism_wordsInfo
字段获取,其中每个文字块的信息包括:
- pos
:文字块的外接矩形四个顶点坐标。
- word
:该文字块的具体文字内容。
在返回结果中,除了文字块的位置信息外,还会提供以下相关数据:
- prism_wnum
:表示识别出的文字块数量。
- width
和 height
:算法矫正后的图片宽度和高度。
- orgWidth
和 orgHeight
:原图的宽度和高度。
angle
字段中,这有助于理解文字块的方向。阿里云通用文字识别OCR服务能够标识出图片中文字的位置信息,这些位置信息是基于文字块的,而非单纯的行区分。文字块的位置通过外接矩形的四个顶点坐标表示,适用于各种复杂排版和低质量图片场景。