【数图大作业】基于模板匹配的文字识别(二)(文字行列分割)

本文涉及的产品
小语种识别,小语种识别 200次/月
教育场景识别,教育场景识别 200次/月
文档理解,结构化解析 100页
简介: 【数图大作业】基于模板匹配的文字识别(二)(文字行列分割)

行分割


任务:


确定每行文字的开始行和结束行的位置。


步骤:


先将源图像进行二值化反色得到黑底白字的反色图,从反色图像第一行开始,判断反色图像中每行是否出现了白点,即原图中该行是否存在黑点,如果存在则表明该行存在汉字。


再次扫描,从第一行开始到倒数第二行,判断此行与下一行反色后白点总数是否满足一定条件。如果此行没有白点而下一行白点总数不为0,则下一行是汉字的上边界;如果此行白点总数不为0而下一行没有白点,则此行是汉字的下边界。


流程图:



代码:


int CVICALLBACK rowSplit (int panel, int control, int event, void *callbackData, int eventData1, int eventData2)
{
  Point point;
  PixelValue grayLevel;
  // 每行文字上界和下界的数目
  int topm=0, botm=0; 
  // 获取输入图像的宽高
  imaqGetImageSize (srcImage, &width, &height); 
  // 每行(反色后)白点的数目
  int *pt = calloc(height, sizeof(int)); 
  switch (event)
  {
  case EVENT_COMMIT:
  // 出现(反色后)白色像素则确定边界 
  for(int h = 0; h < height; h++)
  {   for(int w = 0; w < width; w++)
      {   point.x = w;
    point.y = h;
    imaqGetPixel(binImage, point, &grayLevel);
    if(grayLevel.grayscale == 255.0)
      *(pt + h) = *(pt + h) + 1;
         }
  }
  // 记录每行文字上界和下界
  for(int h = 0; h < height - 1; h++)
  {   
    if(*(pt + h) == 0 & *(pt + h + 1) > 0) 
    {
    topRow[topm++] = h; 
    num_row = num_row + 1; 
    }
    if(*(pt + h) > 0 & *(pt + h + 1) == 0) 
    bottomRow[botm++] = h; 
  }
  // 记录行分割后每行文字的高度
  for(int topm = 0; topm < num_row; topm++)
    _height[topm] = bottomRow[topm] - topRow[topm]; 
  break;
  }
  return 0;
}


列分割


任务:


确定每个文字的开始列和结束列的位置。


步骤:


在行分割的基础上,先进行行扫描,然后进行列扫描,判断一行汉字里的每一列是否出现了白点,即原图中该列是否存在黑点,如果存在则表明该列存在汉字。


再次扫描,从每一行的第一列开始扫描到倒数第二列,判断此列与下一列反色后白点总数是否满足一定条件。如果此列没有白点而下一列白点总数不为0,则下一列是字的左边界;如果此列白点总数不为0而下一列没有白点,则此列是字的右边界。


代码:


for(h = 0; h < num_row; h++)
{
  i = 0, j = 0;
  // 出现(反色后)白色像素则确定边界 
  for(int x = 0; x < width; x++)
  {   
  for(int y = topRow[h]; y <= bottonRow[h]; y++)
  {   
    point.x = x;
    point.y = y;
    imaqGetPixel(binImage, point, &grayLevel);
    if(grayLevel.grayscale == 255.0) 
     *(pt + h * width + x) = *(pt + h * width + x) + 1; 
    }
  }
  // 记录每行文字左界和右界
  for(int x = 0; x < width - 1; x++)
  {   
    if(*(pt + h * width + x) == 0 & *(pt + h * width + x + 1) > 0)   
      leftMargin[h][i++] = x;
    if(*(pt + h * width + x) > 0 & *(pt + h * width + x + 1) == 0)    
    {
    rightMargin[h][j++] = x; 
    num_col[h] = num_col[h] + 1;
    }
  }
  }


列分割的原理和行分割基本一致,但是有可能出现误分割的情况(字中间存在空隙,即某行文字中某列反色后白色像素点数目为0)。


左右结构字体防误切割


任务:


识别出类似于“八”和“川”这种可能会被误分割成两部分或三部分的字。


步骤:


1.对于“八”型的字:

如果列分割的时候被分成第h行的第i个和第i+1个字,则根据第i个和第i+1个字的左右边界坐标值是否满足一定条件,来判断是否需要合并。







通过分析字形,确定判断条件:

(1) 第i+1个字的左边界与第i个字的右边界相距小于文字高度的三分之一;

(2) 第i+1个字的右边界与第i个字的左边界相距小于文字高度;

(3) 第i+2个字的右边界与第i个字的左边界相距大于文字高度。

以上三个条件都满足,则为“八”型的字。


对于“八”型的字,将初次列分割得到第i个和第i+1个字的左右边界合并,并将该行字的个数减去1。


2.对于“川”型的字:

如果列分割的时候被分成第h行的第i个、第i+1个字和第i+2个字,则根据第i个、第i+1个字和第i+2个字的左右边界坐标值是否满足一定条件,来判断是否需要合并。




通过分析字形,确定判断条件:

(1) 第i+2个字的左边界与第i+1个字的右边界相距小于文字高度的三分之一;

(2) 第i+1个字的左边界与第i个字的右边界相距小于文字高度的三分之一;

(3) 第i+2个字的右边界与第i个字的左边界相距小于文字高度;

(4) 第i+3个字的右边界与第i个字的左边界相距大于文字高度。

以上条件(1)和(2)满足任意一条,同时满足条件(3)和(4),则为“川”型的字。


对于“川”型的字,将初次列分割得到第i个、第i+1个和第i+2个字的左右边界合并,并将该行字的个数减去2。


流程图:




代码:


for(i = 0; i < num_col[h]; i++)
{   
  // 判断是否为“八”字这类容易被误分割成两部分的字,并对此进行合并
  if((leftMargin[h][i+1] - rightMargin[h][i] <= _height[h]/3) && (rightMargin[h][i+1] - leftMargin[h][i] <= _height[h]) 
  && (rightMargin[h][i+2] - leftMargin[h][i] >= _height[h]))              
  {   
  for(g = i; g < num_col[h]; g++)
    rightMargin[h][g] = rightMargin[h][g+1]; 
  for(j = i + 1; j < num_col[h]; j++)
    leftMargin[h][j] = leftMargin[h][j+1]; 
    num_col[h] = num_col[h] - 1; 
  }
  // 判断是否为“川”字这类容易被误分割成三部分的字,并对此进行合并  
  if(((leftMargin[h][i+2] - rightMargin[h][i+1] <= _height[h]/3) || (leftMargin[h][i+1] - rightMargin[h][i] <= _height[h]/3))
  && (rightMargin[h][i+2] - leftMargin[h][i] <= _height[h]) && (rightMargin[h][i+3] - leftMargin[h][i] >= _height[h]))
  {   
  for(g = i;g < num_col[h]; g++)
    rightMargin[h][g] = rightMargin[h][g+2]; 
  for(j = i + 1; j < num_col[h]; j++)
    leftMargin[h][j] = leftMargin[h][j+2]; 
    num_col[h] = num_col[h] - 2; 
  }
}


分割效果



相关文章
|
3月前
|
机器学习/深度学习 文字识别 前端开发
基于 Spring Boot 3.3 + OCR 实现图片转文字功能
【8月更文挑战第30天】在当今数字化信息时代,图像中的文字信息越来越重要。无论是文档扫描、名片识别,还是车辆牌照识别,OCR(Optical Character Recognition,光学字符识别)技术都发挥着关键作用。本文将围绕如何使用Spring Boot 3.3结合OCR技术,实现图片转文字的功能,分享工作学习中的技术干货。
183 2
|
3月前
|
机器学习/深度学习 人工智能 文字识别
轻松识别文字,这款Python OCR库支持超过80种语言
轻松识别文字,这款Python OCR库支持超过80种语言
|
4月前
|
文字识别
印刷文字识别使用问题之影响印刷体文字识别率包括哪些
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
4月前
|
人工智能 文字识别 开发工具
印刷文字识别使用问题之是否支持识别并返回文字在图片中的位置信息
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
3月前
|
数据采集 机器学习/深度学习 文字识别
OCR -- 文本检测 - 训练DB文字检测模型
OCR -- 文本检测 - 训练DB文字检测模型
64 0
|
4月前
|
机器学习/深度学习 人工智能 文字识别
文本,文字扫描01,OCR文本识别技术展示,一个安卓App,一个简单的设计,文字识别可以应用于人工智能,机器学习,车牌识别,身份证识别,银行卡识别,PaddleOCR+SpringBoot+Andr
文本,文字扫描01,OCR文本识别技术展示,一个安卓App,一个简单的设计,文字识别可以应用于人工智能,机器学习,车牌识别,身份证识别,银行卡识别,PaddleOCR+SpringBoot+Andr
|
4月前
|
文字识别 Java
文本,文字识别07,SpringBoot服务开发-入参和返回值,编写接口的时候,要注意识别的文字返回的是多行,因此必须是List集合,Bean层,及实体类的搭建
文本,文字识别07,SpringBoot服务开发-入参和返回值,编写接口的时候,要注意识别的文字返回的是多行,因此必须是List集合,Bean层,及实体类的搭建
|
4月前
|
人工智能 文字识别 Java
印刷文字识别使用问题之识别出的文字如何直接保存到Word文档中进行编辑
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
4月前
|
文字识别 API
印刷文字识别使用问题之怎么指定文字并返回其坐标
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
4月前
|
文字识别
印刷文字识别使用问题之自定义模板功能在什么地方
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

热门文章

最新文章

  • 1
    【Python】已解决:Python正确安装文字识别库EasyOCR
    424
  • 2
    提升爬虫OCR识别率:解决嘈杂验证码问题
    122
  • 3
    文本,文字识别14,身份证和车牌识别接口
    28
  • 4
    文本,文字识别13,参数校验,实现参数校验,使用@Valid注解
    26
  • 5
    文本,文字识别12,接口返回值和异常封装,一个好的接口,应该包括,错误码,提示信息,返回的数据,应该知道出错,错在哪里,抛出业务异常应该怎样解决?出现业务异常的时候,抛出业务异常,全局异常处理
    37
  • 6
    文本,文识11,解析OCR结果,paddOCR返回的数据,接口返回的数据有code,data,OCR返回是JSON的数据,得到JSON数据先安装依赖,Base64转换工具网站在21.14
    95
  • 7
    文本,文识10,springBoot提供RestTemplate以调用Flask OCR接口,调用flask实现ocr接口,用paddleocr进行图片识别云服务技术,单个paddleocr接口有影响
    89
  • 8
    文本,文识08图片保存()上,最方便在于整体生成代码,serivce及实体类,base64编码保存图片文件,调用flask实现内部ocr接口,通过paddleocr识别,解析结果,base64转图片
    45
  • 9
    文本,文字识别07,SpringBoot服务开发-入参和返回值,编写接口的时候,要注意识别的文字返回的是多行,因此必须是List集合,Bean层,及实体类的搭建
    49
  • 10
    文本,文字识别,Flask实现内部接口开发,OCR外部接口的开发,如何开发一个识别接口,通过post调用,参数是图片的路径,内部调用,直接传图片路径就行
    64