文档备案控制台

开发者社区视觉智能文字识别正文

文字识别ocr中证件扫描识别的prism_keyValueInfo字段代表的坐标是什么坐标呢？

文字识别ocr中证件扫描识别的prism_keyValueInfo字段代表的坐标是什么坐标，我看对应到原图坐标系中和信息真实坐标完全对不上。但是看文档又说是原图中的坐标这是什么原因？

展开

收起

小小鹿鹿鹿 2023-11-20 21:58:12 316 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
文字识别 OCR 中的 prism_keyValueInfo 字段代表坐标系转换后的坐标。由于文字识别 OCR 会对图像进行预处理和分割，因此实际坐标与原始坐标可能存在差异，这是因为图像经过缩放、旋转和裁剪等操作，使得识别结果与原始坐标不一致。
您可以采取以下方法解决这个问题：
1. 检查坐标系：检查输出坐标系是否正确。
2. 复制图像：请检查复制的图像是否保持原始比例和分辨率。
3. 调整图像：尝试调整图像的大小和方向，以获得正确的坐标。
4. 使用坐标变换函数：可以使用坐标变换函数将其转换为正确的坐标系。
2023-11-21 21:51:24

赞同 1 展开评论
三掌柜666

十分耕耘，一定会有一分收获！

楼主你好，阿里云文字识别OCR中，证件扫描识别的prism_keyValueInfo字段代表的坐标是相对于原图左上角的坐标，但是这里的坐标系与一般的图像处理库中的坐标系有所不同。

在一般的图像处理库中，坐标系的原点通常在左上角，x轴向右延伸，y轴向下延伸。而在阿里云OCR中，坐标系的原点在左下角，x轴向右延伸，y轴向上延伸。所以在将OCR返回的坐标映射回原图时，需要根据这个变化进行处理。

举个例子，假设OCR返回的prism_keyValueInfo中一个字段的坐标为(x,y,w,h)，其中(x,y)表示左上角的坐标，w表示宽度，h表示高度，则对应的在原图中的坐标为(x,原图高度-y-h,w,h)。

2023-11-20 22:05:15

赞同展开评论

问答分类：

文字识别文字识别视觉智能开放平台

问答标签：

印刷文字识别文字识别文字识别ocr 印刷文字识别ocr 印刷文字识别字段印刷文字识别ocr证件

问答地址：

开发者社区 > 视觉智能 > 文字识别 > 问答

相关问答

印刷文字识别

文字识别OCR户口页主页和常住人口页在api调用中是通过哪个字段控制的？

217

2

0

文字识别OCR证件识别返回的这个字段，为啥不加到文档里面呀？

175

1

0

在文字识别OCR中，户口页主页和常住人口页在api调用中是通过哪个字段控制的？

180

1

0

在文字识别OCR中，请问发票类型以哪个字段为准？在subMsgs里面的type返回是增值税发票

261

3

0

在文字识别OCR中，请问ocr支持单位资质、证照、个人资质、体检报告等关键字段识别提取吗？

215

1

0

在文字识别OCR中，用简道云，前端事件进行OCR营业执照识别，返回值的设置怎么调呀？返回字段是什么？

193

1

0

在文字识别OCR中，为什么能获取紫色框的内容？但是没有绿色框的坐标。

146

1

0

你好，接入OCR精细化切题接口成功后，描述绿色框的坐标没有找到，只有紫色框的四个坐标，这是为什么？

197

1

0

钉钉增值税发票已经改版了，咱这边的OCR文字识别什么时候能新增这个能力？

327

5

0

文字识别OCR 买了资源包，识别不成功会扣次数么？

314

4

0

视觉智能

文字识别

文字识别技术可以灵活应用于证件文字识别、发票文字识别、文档识别与整理等行业场景，满足认证、鉴权、票据流转审核等业务需求。

我要提问

相关文章

内网环境跑通RPA自动化：企业级私有化部署实战

AI办公高频问题汇总梳理清单

Deepseek大语言模型在多语种手稿数字化中的工程实践与策略

阿里云Qwen 3.7 Plus与Max实测对比：2026年多模态能力与性价比深度解析

热门讨论

热门文章

身份证识别ocr，每次购买需要更换url地址吗？

你好，我想问下，python调用接口，Sample.main() 函数，会return 文字识别的结

文字识别ocr支持android吗，android sdk文档链接有不？

文字识别OCR体验了一下，识别不出来，麻烦帮我看下怎么解决？

OCR中java 代码示例，返回这个是什么意思？

文字识别OCR目前有哪些情况会导致识别失败？

请问文字识别OCR的TaskId这个参数是什么意思？不是只要唯一就可以吗？

文字识别OCR API有没有Delphi的demo哦？

为什么我们这边的文字识别OCR现在出现了发票类型识别不稳定的情况？

目前OCR中如果部署在本地的话，识别速度怎么样？一张图片平均多久可以识别到

展开全部

基于深度学习的自然场景文字检测及端到端的OCR中文文字识别

图像文字识别(OCR)用什么算法小结

浪潮发布业界最高GPU密度的SR-AI整机柜

阿里宜搭发布OCR文字识别插件助力合作伙伴升级

使用图像文字识别技术获取失信黑名单

【全自动改PDF名】批量OCR识别提取PDF自定义指定区域内容保存到 Excel 以及根据PDF文件内容的标题来批量重命名

OCR文字识别技术总结（一）

分析对比大模型OCR、传统OCR和深度学习OCR

【繁体图片文字识别】竖排的繁体图片文字识别翻译，竖排的繁体图片文字如何识别，竖排繁体图片识别后转横排，竖排的繁体识别比较友好的方法

【PDF提取全自动改名】如何批量提取PDF指定区域的文字内容，用内容批量给PDF命名或者导出表格，学会全自动解放双手

展开全部

还有其他疑问?