文档备案控制台

开发者社区视觉智能文字识别正文

针对图片中通用文字识别OCR，都能标识出位置吗？标识的位置是整个文字块的？还是按行区分的？

针对图片中通用文字识别OCR，都能标识出位置吗？标识的位置是整个文字块的？还是按行区分的？

展开

收起

三分钟热度的鱼 2024-05-04 23:52:51 247 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

阿里云 AI 助理回答

阿里云的通用文字识别OCR服务能够标识出图片中文字的位置信息，并且这些位置信息是按照文字块进行区分的，而不是单纯按行区分。以下是详细说明：

1. 位置标识的范围

通用文字识别OCR接口（如RecognizeGeneral）会返回每个文字块的位置信息。文字块是指图片中被检测到的一段连续的文字区域，可能包含单个字符、单词或一段短语。
- 每个文字块的位置通过其外接矩形的四个顶点坐标来表示，按顺时针顺序排列（左上、右上、右下、左下）。
- 这些坐标信息可以通过返回参数中的prism_wordsInfo字段获取，其中每个文字块的信息包括：
- pos：文字块的外接矩形四个顶点坐标。
- word：该文字块的具体文字内容。

2. 文字块与行的关系

文字块的划分通常基于图片中的自然分隔，例如段落、标题、表格单元格等区域。
如果图片中的文字是以行为单位排列的，则每个文字块可能会对应一行文字；但如果图片中存在复杂的排版（如多列文本、表格、混合格式等），则文字块可能跨越多行或仅包含部分行的内容。

3. 返回结果的结构化信息

在返回结果中，除了文字块的位置信息外，还会提供以下相关数据：
- prism_wnum：表示识别出的文字块数量。
- width 和 height：算法矫正后的图片宽度和高度。
- orgWidth 和 orgHeight：原图的宽度和高度。

4. 重要提醒

文字块的角度：如果图片存在倾斜或畸变，文字块的角度信息也会被记录在angle字段中，这有助于理解文字块的方向。
复杂场景支持：OCR服务支持模糊、光照不均、透视畸变等低质量图片的识别，因此即使图片质量较差，也能较为准确地定位文字块的位置。

总结

阿里云通用文字识别OCR服务能够标识出图片中文字的位置信息，这些位置信息是基于文字块的，而非单纯的行区分。文字块的位置通过外接矩形的四个顶点坐标表示，适用于各种复杂排版和低质量图片场景。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

文字识别文字识别视觉智能开放平台

问答标签：

文字识别ocr 印刷文字识别文字识别印刷文字识别文字图片印刷文字识别印刷文字识别ocr

问答地址：

开发者社区 > 视觉智能 > 文字识别 > 问答

相关问答

印刷文字识别

调用【身份证OCR文字】接口返回403(Forbidden)

459

0

0

文字识别OCR type 传 Advanced 是能识别图片的，但是传这个参数就不行，咋整？

317

2

0

文字识别OCR比如我截图一张excel图片，目的是想把识别到同一行的内容当作一行来输出可以吗？

229

2

0

在文字识别OCR中，请教一个关于通过pdf文字识别获得文字后如何结构化整理的问题?

277

1

0

文字识别OCR如何传本地图片？

343

1

0

在文字识别OCR中程序怎么替换图片中指定部分文字?

214

0

0

在文字识别OCR中为什么识别图片时，老是提示涉及敏感信息，不能识别？

349

1

0

通用文字识别高精版一个月5000次费用多少？

284

2

0

文字识别OCR 图片上的问题该怎么解决呢？

191

1

0

文字识别OCR 识别越南银行凭证提取凭证图片的文字调用哪个接口吗？

193

1

0

视觉智能

文字识别

文字识别技术可以灵活应用于证件文字识别、发票文字识别、文档识别与整理等行业场景，满足认证、鉴权、票据流转审核等业务需求。

我要提问

相关文章

大模型训练语料和知识库内容安全治理实践：企业落地要看哪些环节？

离谱！我以为 OCR 还在一页页抠字，结果百度 1.2 万 Star Unlimited-OCR 直接把长文档一口气读完

离谱！我以为 OCR 还在一页页抠字，结果百度 1.2 万 Star Unlimited-OCR 直接把长文档一口气读完

多语言交通标识目标检测数据集：34类别 | 目标检测

阿里云AI产品免费试用活动：超30款AI产品免费试用，开通百炼享1亿+大模型 tokens 限免体验

热门讨论

热门文章

你好，我想问下，python调用接口，Sample.main() 函数，会return 文字识别的结

身份证识别ocr，每次购买需要更换url地址吗？

文字识别ocr支持android吗，android sdk文档链接有不？

文字识别OCR目前有哪些情况会导致识别失败？

文字识别OCR体验了一下，识别不出来，麻烦帮我看下怎么解决？

请问文字识别OCR的TaskId这个参数是什么意思？不是只要唯一就可以吗？

有自定义表格手写体文字识别OCR的产品吗？

为什么我们这边的文字识别OCR现在出现了发票类型识别不稳定的情况？

文字识别OCR有没有文章自然段落识别的接口呀？

文字识别OCR API有没有Delphi的demo哦？

展开全部

图像文字识别(OCR)用什么算法小结

吴恩达《机器学习》课程总结（18）应用实例：图片文字识别

阿里宜搭发布OCR文字识别插件助力合作伙伴升级

使用图像文字识别技术获取失信黑名单

【全自动改PDF名】批量OCR识别提取PDF自定义指定区域内容保存到 Excel 以及根据PDF文件内容的标题来批量重命名

【PDF提取全自动改名】如何批量提取PDF指定区域的文字内容，用内容批量给PDF命名或者导出表格，学会全自动解放双手

分析对比大模型OCR、传统OCR和深度学习OCR

文字识别OCR开源框架的对比--Tesseract vs EasyOCR

OCR文字识别技术总结（一）

高效率办公PDF批量处理：批量OCR识别PDF区域文字内容，用PDF内容批量改名或导出表格的货物运单应用案例

展开全部

还有其他疑问?