开发者社区 > 视觉智能 > 文字识别 > 正文

请问文字识别OCR表格识别中坐标的单位是什么呢?

请问文字识别OCR表格识别中坐标的单位是什么呢?
igEcAqNwbmcDAQTNAWEFzQFhBtoAI4QBpCEHfhACqunHo3RfuXW01ccDzwAAAYn4L1HSBM4ABSCNB84O134qCAAKBAvNFoU.png_720x720q90.jpg

展开
收起
青城山下庄文杰 2023-08-20 15:50:06 139 0
4 条回答
写回答
取消 提交回答
  • 天下风云出我辈,一入江湖岁月催,皇图霸业谈笑中,不胜人生一场醉。

    阿里云表格识别,是阿里云官方自研OCR文字识别产品,支持对多种表格格式(有线表格、条纹表格、无线表格)进行智能文字识别并结构化输出识别结果。
    阿里云OCR产品基于阿里巴巴达摩院强大的AI技术及海量数据,历经多年沉淀打磨,具有服务稳定、操作简易、实时性高、能力全面等几大优势。文字块的外矩形四个点的坐标按顺时针排列(左上、右上、右下、左下)。当NeedRotate=true时,如果最外层的angle不为0,需要按照angle矫正图片后,坐标才准确。
    image.png
    image.png

    2023-08-21 16:08:12
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在文字识别OCR的表格识别中,坐标通常使用像素(Pixel)作为单位。OCR系统将图像分割成一个个小区域,并为每个区域提供相应的坐标信息。这些坐标表示了区域在图像中的位置和大小。

    一般来说,坐标信息由四个值组成:左上角的横坐标(X轴),左上角的纵坐标(Y轴),区域的宽度和高度。通常,原点位于图像的左上角,横坐标从左向右递增,纵坐标从上向下递增。

    例如,对于一个表格中的一个单元格,可以使用四个坐标值来表示其边界框的位置,如(x, y, width, height)。其中,x表示矩形左上角的横坐标,y表示矩形左上角的纵坐标,width表示矩形的宽度,height表示矩形的高度。

    请注意,坐标的单位是像素,并且在不同分辨率的图像中,相同的距离可能对应不同数量的像素,因此在处理图像时需要考虑图像分辨率的影响。

    2023-08-21 13:47:40
    赞同 展开评论 打赏
  • 公众号:网络技术联盟站,InfoQ签约作者,阿里云社区签约作者,华为云 云享专家,BOSS直聘 创作王者,腾讯课堂创作领航员,博客+论坛:https://www.wljslmz.cn,工程师导航:https://www.wljslmz.com

    在阿里云的文字识别(OCR)表格识别中,坐标的单位通常是像素(pixel)。OCR服务会将文档图片划分为一个个单元格,并识别出每个单元格的文字内容及其对应的坐标位置。坐标的单位是以像素表示的,用于确定文本或表格在图片上的位置和大小。

    您可以通过调用阿里云OCR接口获得返回的识别结果中的坐标信息。通常,坐标信息会以左上角和右下角两个点的方式表示,即 (x1, y1, x2, y2),其中 (x1, y1) 表示左上角的坐标,(x2, y2) 表示右下角的坐标。

    2023-08-20 17:19:46
    赞同 展开评论 打赏
  • 发表文章、提出问题、分享经验、结交志同道合的朋友

    你好,那是文字坐标信息。具体来说,在进行印刷体文字识别时,OCR接口会返回文本行(line)和单个字符(word)的位置信息。在返回结果中,每一行都包含了该行的左上角坐标(x、y)、宽度(w)和高度(h),而每一个单个字符都包含了该字符的左上角坐标(x、y)、宽度(w)和高度(h)。

    例如,返回的POS参数含义:
    image.png

    2023-08-20 16:09:41
    赞同 展开评论 打赏

文字识别技术可以灵活应用于证件文字识别、发票文字识别、文档识别与整理等行业场景,满足认证、鉴权、票据流转审核等业务需求。

相关电子书

更多
阿里云智能-印刷文字识别OCR-产品介绍 立即下载
阿里巴巴读光OCR 立即下载
印刷文字识别算法设计与在线服务 立即下载