开发者社区 > 视觉智能 > 文字识别 > 正文

在文字识别OCR中,图片ocr结果的字符坐标在图片上对不上?

在文字识别OCR中,图片ocr结果的字符坐标在图片上对不上?当前使用的是全文识别高精版.我是按照单字符x,y坐标渲染的呀,蓝色的结果不是靠单字符坐标渲染的吗?你们官网这个是不是使用了矫正的操作 ?如果矫正的话是使用了其中的哪个字段进行了矫正lQLPJwgB2WCJYFzNA5_NBniwWI-gqWTAozQE_ODGJgCfAA_1656_927.pnglQLPJwp-fr3TX9zNAfDNAx-wqCPUL23QImgE_ODfwUCfAA_799_496.pngb2f39b276e8b9aefc327d2acc6566f33.png

展开
收起
小小鹿鹿鹿 2023-09-25 12:56:40 500 0
5 条回答
写回答
取消 提交回答
  • 文字识别OCR的结果可能会出现字符坐标与图片上的坐标不一致的情况,这可能是由于OCR引擎的识别精度问题或者图像预处理的问题。如果你使用的是全文识别高精版,那么它可能会使用一些矫正的操作来提高识别的准确性。具体的矫正操作可能涉及到一些算法和参数,这些内容通常不会公开。你可以尝试查看官方文档或者联系他们的技术支持以获取更详细的信息。

    另外,你也可以尝试自己进行一些图像预处理,比如旋转、裁剪等操作,以提高OCR的识别准确性。

    2023-09-26 20:02:29
    赞同 展开评论 打赏
  • 十分耕耘,一定会有一分收获!

    楼主你好,阿里云OCR的高精版支持文字矫正,并且在返回的识别结果中会有相应的信息。如果图片OCR结果的字符坐标在图片上对不上,可能是由于文字矫正没有生效或者坐标渲染的逻辑有误导致的。建议您检查一下代码实现中文字矫正和坐标渲染的逻辑,并参考阿里云OCR API文档中的相关信息进行调整。具体而言,您可以查看返回结果中的words属性来获取文字矫正后的识别结果,并结合位置信息进行坐标渲染。

    以下是参考文档中关于文字矫正的说明:

    文字矫正可以解决图像倾斜、透视变形等不利于OCR识别的因素,提高OCR识别率。文字矫正结果包含以下内容:

    • angle:旋转角度,-90度 <= angle <= 90度。angle = 0度时表示不需要旋转。
    • left_top_x:旋转前左上角x坐标。
    • left_top_y:旋转前左上角y坐标。
    • right_top_x:旋转前右上角x坐标。
    • right_top_y:旋转前右上角y坐标。
    • right_bottom_x:旋转前右下角x坐标。
    • right_bottom_y:旋转前右下角y坐标。
    • left_bottom_x:旋转前左下角x坐标。
    • left_bottom_y:旋转前左下角y坐标。
    2023-09-26 08:42:43
    赞同 展开评论 打赏
  • 在文字识别OCR中,图片OCR结果的字符坐标可能会因多种因素导致与图片上的实际位置略有偏差。这是由于图像处理和OCR算法的特性所致。以下是一些可能导致字符坐标与图片不完全匹配的情况:
    image.png

    1. 图像预处理:在进行OCR之前,通常会对图像进行预处理,例如裁剪、缩放、旋转、去噪等操作。这些处理可能会导致字符的精确位置发生微小变化。

    2. 字符分割和识别算法:OCR系统通常会使用字符分割和识别算法来提取文本,并将每个字符的位置标记出来。这些算法可能会在某些情况下造成字符边界的微小误差。

    3. 图像质量和清晰度:如果图像质量较低或者存在模糊、失真或光照不均等问题,OCR结果的字符坐标可能会受到影响。
      image.png

    为了更好地对齐OCR结果的字符坐标和图片上的位置,您可以考虑以下方法:

    • 使用更高质量的图像:使用拍摄或扫描质量更好的图像,可以减少识别误差。

    • 尝试参数调整:根据OCR API或SDK提供商的文档,尝试调整相关参数,如分辨率、缩放比例等,以改善字符坐标的准确性。

    • 后处理操作:如果需要与图片位置完全匹配,您可以在获得OCR结果后,使用图像处理技术进行后处理,如基于字符间距和行高等信息进行校正和对齐。

    2023-09-25 20:18:55
    赞同 展开评论 打赏
  • 蓝色结果遮罩就是按照坐标渲染的.目前就是用的返回结果的坐标这是单字坐标 不是整块的.https://help.aliyun.com/document_detail/442247.html?spm=a2c4g.442328.0.i0#api-detail-45 可以参考这里的返回结果说明 体验馆的返回结果 和 直接调用api的也是同样的结果.lQLPJx4It2keBPzNA1HNBj2w3vCVmcRLgscE_OYMLYC6AA_1597_849.png这个应该是二次开发的原因。目前还没有这方面的示例代码体验馆就是根据这些结果坐标反回单位.这块目前没有示例代码。你根据子块可以试一下。是primes_words下的pos此回答来自钉群【官方】阿里云OCR公共云客户交流群。

    2023-09-25 14:13:00
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在文字识别OCR中,对于整体文本块的识别结果(例如全文识别高精度版),字符的坐标在图片上可能不会准确对应。这是因为在OCR过程中,系统通常会进行文本校正和布局分析,以提高整体文本的可读性和排版效果。
    image.png

    OCR引擎会尝试检测和纠正图像中的倾斜、扭曲等问题,并对文字进行排列和对齐操作,以更好地还原原始文本的结构。这意味着字符的实际位置可能会经过矫正和调整。

    在使用全文识别高精度版时,你可能看到返回结果中包含了一些额外的字段,用于描述矫正后的文本行或单词的位置信息。具体而言,官方文档中提到可以使用words_block_rectangle字段来获取整个识别文本块的位置信息。
    image.png

    如果你希望在图片上按照字符级别渲染结果,你可以根据OCR API返回的字符位置信息(如text_area字段)进行绘制。但请注意,由于矫正和布局分析的影响,字符的实际位置可能与原始图片上的像素坐标不完全对应。

    2023-09-25 13:12:32
    赞同 展开评论 打赏

文字识别技术可以灵活应用于证件文字识别、发票文字识别、文档识别与整理等行业场景,满足认证、鉴权、票据流转审核等业务需求。

热门讨论

热门文章

相关电子书

更多
阿里云智能-印刷文字识别OCR-产品介绍 立即下载
阿里巴巴读光OCR 立即下载
印刷文字识别算法设计与在线服务 立即下载