开发者社区 > 视觉智能 > 文字识别 > 正文

文字识别ocr中证件扫描识别的prism_keyValueInfo字段代表的坐标是什么坐标呢?

文字识别ocr中证件扫描识别的prism_keyValueInfo字段代表的坐标是什么坐标,我看对应到原图坐标系中和信息真实坐标完全对不上。但是看文档又说是原图中的坐标这是什么原因?

展开
收起
小小鹿鹿鹿 2023-11-20 21:58:12 94 0
2 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    文字识别 OCR 中的 prism_keyValueInfo 字段代表坐标系转换后的坐标。由于文字识别 OCR 会对图像进行预处理和分割,因此实际坐标与原始坐标可能存在差异,这是因为图像经过缩放、旋转和裁剪等操作,使得识别结果与原始坐标不一致。
    您可以采取以下方法解决这个问题:

    1. 检查坐标系:检查输出坐标系是否正确。
    2. 复制图像:请检查复制的图像是否保持原始比例和分辨率。
    3. 调整图像:尝试调整图像的大小和方向,以获得正确的坐标。
    4. 使用坐标变换函数:可以使用坐标变换函数将其转换为正确的坐标系。
    2023-11-21 21:51:24
    赞同 1 展开评论 打赏
  • 十分耕耘,一定会有一分收获!

    楼主你好,阿里云文字识别OCR中,证件扫描识别的prism_keyValueInfo字段代表的坐标是相对于原图左上角的坐标,但是这里的坐标系与一般的图像处理库中的坐标系有所不同。

    在一般的图像处理库中,坐标系的原点通常在左上角,x轴向右延伸,y轴向下延伸。而在阿里云OCR中,坐标系的原点在左下角,x轴向右延伸,y轴向上延伸。所以在将OCR返回的坐标映射回原图时,需要根据这个变化进行处理。

    举个例子,假设OCR返回的prism_keyValueInfo中一个字段的坐标为(x,y,w,h),其中(x,y)表示左上角的坐标,w表示宽度,h表示高度,则对应的在原图中的坐标为(x,原图高度-y-h,w,h)

    2023-11-20 22:05:15
    赞同 展开评论 打赏

文字识别技术可以灵活应用于证件文字识别、发票文字识别、文档识别与整理等行业场景,满足认证、鉴权、票据流转审核等业务需求。

相关电子书

更多
阿里云智能-印刷文字识别OCR-产品介绍 立即下载
阿里巴巴读光OCR 立即下载
印刷文字识别算法设计与在线服务 立即下载