阿里云表格识别,是阿里云官方自研OCR文字识别产品,支持对多种表格格式(有线表格、条纹表格、无线表格)进行智能文字识别并结构化输出识别结果。
阿里云OCR产品基于阿里巴巴达摩院强大的AI技术及海量数据,历经多年沉淀打磨,具有服务稳定、操作简易、实时性高、能力全面等几大优势。文字块的外矩形四个点的坐标按顺时针排列(左上、右上、右下、左下)。当NeedRotate=true时,如果最外层的angle不为0,需要按照angle矫正图片后,坐标才准确。
在文字识别OCR的表格识别中,坐标通常使用像素(Pixel)作为单位。OCR系统将图像分割成一个个小区域,并为每个区域提供相应的坐标信息。这些坐标表示了区域在图像中的位置和大小。
一般来说,坐标信息由四个值组成:左上角的横坐标(X轴),左上角的纵坐标(Y轴),区域的宽度和高度。通常,原点位于图像的左上角,横坐标从左向右递增,纵坐标从上向下递增。
例如,对于一个表格中的一个单元格,可以使用四个坐标值来表示其边界框的位置,如(x, y, width, height)
。其中,x
表示矩形左上角的横坐标,y
表示矩形左上角的纵坐标,width
表示矩形的宽度,height
表示矩形的高度。
请注意,坐标的单位是像素,并且在不同分辨率的图像中,相同的距离可能对应不同数量的像素,因此在处理图像时需要考虑图像分辨率的影响。
在阿里云的文字识别(OCR)表格识别中,坐标的单位通常是像素(pixel)。OCR服务会将文档图片划分为一个个单元格,并识别出每个单元格的文字内容及其对应的坐标位置。坐标的单位是以像素表示的,用于确定文本或表格在图片上的位置和大小。
您可以通过调用阿里云OCR接口获得返回的识别结果中的坐标信息。通常,坐标信息会以左上角和右下角两个点的方式表示,即 (x1, y1, x2, y2),其中 (x1, y1) 表示左上角的坐标,(x2, y2) 表示右下角的坐标。
你好,那是文字坐标信息。具体来说,在进行印刷体文字识别时,OCR接口会返回文本行(line)和单个字符(word)的位置信息。在返回结果中,每一行都包含了该行的左上角坐标(x、y)、宽度(w)和高度(h),而每一个单个字符都包含了该字符的左上角坐标(x、y)、宽度(w)和高度(h)。
例如,返回的POS参数含义:
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。