文字识别ocr中证件扫描识别的prism_keyValueInfo字段代表的坐标是什么坐标,我看对应到原图坐标系中和信息真实坐标完全对不上。但是看文档又说是原图中的坐标这是什么原因?
文字识别 OCR 中的 prism_keyValueInfo 字段代表坐标系转换后的坐标。由于文字识别 OCR 会对图像进行预处理和分割,因此实际坐标与原始坐标可能存在差异,这是因为图像经过缩放、旋转和裁剪等操作,使得识别结果与原始坐标不一致。
您可以采取以下方法解决这个问题:
楼主你好,阿里云文字识别OCR中,证件扫描识别的prism_keyValueInfo
字段代表的坐标是相对于原图左上角的坐标,但是这里的坐标系与一般的图像处理库中的坐标系有所不同。
在一般的图像处理库中,坐标系的原点通常在左上角,x轴向右延伸,y轴向下延伸。而在阿里云OCR中,坐标系的原点在左下角,x轴向右延伸,y轴向上延伸。所以在将OCR返回的坐标映射回原图时,需要根据这个变化进行处理。
举个例子,假设OCR返回的prism_keyValueInfo
中一个字段的坐标为(x,y,w,h)
,其中(x,y)
表示左上角的坐标,w
表示宽度,h
表示高度,则对应的在原图中的坐标为(x,原图高度-y-h,w,h)
。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。