EAST、PixelLink、TextBoxes++、DBNet、CRNN…你都掌握了吗?一文总结OCR必备经典模型(一)

本文涉及的产品
个人证照识别,个人证照识别 200次/月
OCR统一识别,每月200次
票据凭证识别,票据凭证识别 200次/月
简介: EAST、PixelLink、TextBoxes++、DBNet、CRNN…你都掌握了吗?一文总结OCR必备经典模型

EAST、PixelLink、TextBoxes++、DBNet、CRNN…你都掌握了吗?一文总结OCR必备经典模型(二)

机器之心 2023-07-30 12:40 发表于北京

以下文章来源于机器之心SOTA模型,作者机器之心SOTA模型

机器之心专栏

本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。

本文将分 3 期进行连载,共介绍 17 OCR任务上曾取得 SOTA 的经典模型。


  • 第 1 期:CTPN、TextBoxes、SegLink、RRPN、FTSN、DMPNet
  • 第 2 期:EAST、PixelLink、TextBoxes++、DBNet、CRNN、RARE
  • 第 3 期:ABCNet、Deep TextSpotter、SEE、FOTS、End-to-End TextSpotter

您正在阅读的是其中的第 2 期。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。

第 1 期回顾:CTPN、TextBoxes、SegLink、RRPN、FTSN、DMPNet…你都掌握了吗?一文总结OCR必备经典模型(一)


本期收录模型速览

模型 SOTA!模型资源站收录情况 模型来源论文
EAST https://sota.jiqizhixin.com/project/east
收录实现数量:6
支持框架:PyTorch、TensorFlow等
EAST: An Efficient and Accurate Scene Text Detector
PixelLink https://sota.jiqizhixin.com/project/pixellink
收录实现数量:3
支持框架:TensorFlow
Detecting Scene Text via Instance Segmentation
TextBoxes++ https://sota.jiqizhixin.com/project/textboxes-_1
收录实现数量:4
支持框架:PyTorch、TensorFlow
TextBoxes++: A Single-Shot Oriented Scene Text Detector
DBNet https://sota.jiqizhixin.com/project/dbnet_1
收录实现数量:4
支持框架:PyTorch、TensorFlow等
Real-time Scene Text Detection with Differentiable Binarization
CRNN https://sota.jiqizhixin.com/project/crnn-4
收录实现数量:4
支持框架:PyTorch、TensorFlow等
An End-to-End Trainable Neural Network for Image-based Sequence Recognition and ItsApplication to Scene Text Recognition
RARE https://sota.jiqizhixin.com/project/rare
收录实现数量:3
支持框架:PyTorch、TensorFlow
Robust Scene Text Recognition with Automatic Rectification



光学字符识别(Optical Character Recognition,OCR)是指对文本资料进行扫描后对图像文件进行分析处理,以获取文字及版面信息的过程。一般来说,在获取到文字之前需要首先对文字进行定位,即执行文本检测任务,将图像中的文字区域位置检测出来;在找到文本所在区域之后,对该区域中的文字进行文字识别。文字识别就是通过输入文字图片,然后解码成文字的方法。OCR解码是文字识别中最为核心的问题。传统技术解决方案中,分别训练文本检测和文字识别两个模型,然后在实施阶段将这两个模型串联到数据流水线中组成图文识别系统。

对于文本检测任务,主要包括两种场景,一种是简单场景,另一种是复杂场景。简单场景主要是对印刷文件等的文本检测,例如像书本扫描、屏幕截图,或是清晰度高、规整的照片等。由于印刷字体的排版很规范,背景清晰,现在的检测、识别技术已经很成熟了,检测的效果都比较好。通过利用计算机视觉中的图像形态学操作,包括膨胀、腐蚀基本操作,即可实现简单场景的文字检测。复杂场景主要是指自然场景,由于光照环境以及文字存在着很多样的形式,例如灯箱广告牌、产品包装盒、设备说明、商标等,存在角度倾斜、变形、背景复杂、光线忽明忽暗、清晰度不足等情况,这时要将文本检测出来难度就比较大了,此时主要考虑引入深度学习模型进行检测。

对于文字识别任务,一般由下面的步骤组成:首先是读取输入的图像,提取图像特征,因此,需要有个卷积层用于读取图像和提取特征;然后,由于文本序列是不定长的,因此需要处理不定长序列预测的问题;再次,为了提升模型的适用性,最好不要要求对输入字符进行分割,直接可进行端到端的训练,这样可减少大量的分割标注工作,这时就要引入 CTC 模型(Connectionist temporal classification, 联接时间分类)来解决样本的分割对齐的问题;最后,根据一定的规则,对模型输出结果进行纠正处理,输出正确结果。

最近流行的技术解决方案中,考虑用一个多目标网络直接训练出一个端到端的模型以替代两阶段模型。在训练阶段,端到端模型的输入是训练图像及图像中的文本坐标、文本内容,模型优化目标是输出端边框坐标预测误差与文本内容预测误差的加权和。在实施阶段,原始图像经过端到端模型处理后直接输出预测文本信息。相比于传统方案,该方案中模型训练效率更高、资源开销更少。




我们在这篇报告中分别总结了OCR中必备的文本检测模型、文字识别模型和端到端的方法。其中,文本检测模型主要考虑复杂场景中的深度学习模型。


一、文本检测模型


1、 EAST


EAST(Efficient and Accuracy Scene Tex)是旷世科技发布在CVPR2017的作品,由于提供了方向信息,EAST可以检测各个方向的文本。EAST的整体网络结构分为3个部分:(1) 特征提取层,使用的基础网络结构是PVANet,分别从stage1、stage2、stage3、stage4抽出特征,即一种FPN(feature pyramid network)的思想;(2) 特征融合层,在抽出的特征层从后向前做上采样,然后执行concat;(3) 输出层,输出一个score map和4个回归的框加上1个角度信息,或者输出一个scoremap和8个坐标信息。

具体的,图1给出原文的网络结构图,该模型可以分解为三个部分:特征提取器stem、特征合并分支和输出层。如图所示,输入一张图片,经过四个阶段的卷积层可以得到四张feature map, 分别为f_4、f_3、f_2、f_1,它们相对于输入图片分别缩小1/4、1/8、1/16、1/32,之后使用上采样、concat(串联)、卷积操作依次得到h_4、h_3、h_2、h_1,在得到这个融合的feature map后,使用大小为通道数为32的卷积核卷积得到最终的feature map。得到最终的feature map后,使用一个大小为1x1通道数为1的卷积核得到一张score map用表示。在feature map上使用一个大小为1x1通道数为4的卷积核得到text boxes,使用一个大小为1x1通道数为1的卷积核得到text rotation angle,这里text boxes和text rotation angle合起来称为geometry map,并用F_g表示。


图1文本检测模型结构

图2 EAST pipeline



图2展示了EAST的pipeline。将一幅图像送入FCN( fully convolutional network),并生成多通道的像素级文本分数图和几何图形。其中一个预测通道是一个分数图,其像素值的范围是[0, 1]。其余的通道表示从每个像素的角度来看包围着这个词的几何形状。分数代表了在同一位置预测的几何形状的置信度。

F_s大小为原图的1/4通道数为1,每个像素表示对应于原图中像素为文字的概率值,所以值在[0,1]范围内。F_g大小也为原图的1/4通道数为5,即4+1(text boxes + text rotation angle)。text boxes通道数为4,其中text boxes每个像素如果对应原图中该像素为文字,四个通道分别表示该像素点到文本框的四条边的距离,范围定义为输入图像大小,如果输入图像为512,那范围就是[0,512]。text rotation angle通道数为1,其中text rotation angle每个像素如果对应原图中该像素为文字,该像素所在框的倾斜角度,角度的度数范围定义为[-45,45]。

损失函数为:



其中,ℓ_s和ℓ_g分别表示score map和geometry map的损失。score map采用交叉熵计算,geometry map用的是IoU loss的计算方式。

最后文章还提出了Locality-Aware NMS,先合并一次窗口,然后采用标准的NMS去抑制窗口。locality_aware_nms在标准nms的基础上加了weighted_merge,将2个IoU高于某个threshold的输出框进行基于得分的合并。合并后的输出框的坐标数值介于2个合并的输入框之间,从而有效利用所有回归出的框的坐标信息,减少位置误差。



项目 SOTA!平台项目详情页
EAST 前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/east


2、 PixelLink

我们上述介绍的文本检测算法中大部分是由文本/非文本分类和位置回归任务组成的,而且回归在获取bounding box中扮演关键的角色。PixelLink放弃了回归的方式去检测bounding box,转而采用实例分割的方式,把文字区域分割出来,然后找到相应的外接矩形。相比于基于回归的方法,PixelLink性能更优,且需要更少的训练数据和迭代次数。

PixelLink网络的backbone采用的是VGG16,并将最后两层全连接层改为卷积层,结构采用的是FCN的结构,文章尝试了两种feature map的融合结构,分别取{conv2_2, conv3_3, conv4_3, conv5_3, fc_7}进行融合和取{conv3_3, conv4_3, conv5_3, fc_7}进行融合。输入为图像,输出为18通道的结果,其中,2通道表示预测的每个像素是否为文本,16通道表示每个像素与它八个邻域是否需要连接的概率图。在得到上述的18个通道后,先是使用了两个阈值分别对像素预测结果和link预测的结果进行过滤,然后对于预测为正样本的像素结合link通道的预测结果将所有像素连接起来,这样就能得到文本检测的区域。大多数文字检测算法的bounding box都是使用regression的方式得到,和回归不同,论文使用了实例分割的方法先得到文字区域,然后使用opencv中的minAreaRect 算法得到相应的矩形(该函数是输出包围点集的最小矩形,该矩形可以是旋转的)。这样就可以输出一些列的文本框了,但是文章为了防止一些噪声的影响,将检查结果中短边小于10或者面积小于300的文本框进行滤除,从而得到最终的文本检查结果。
PixelLink完整的结构如图3。


图3 PixelLink的架构。训练一个CNN模型来进行两种像素级的预测:文本/非文本预测和Link预测。经过阈值处理后,positive像素被positive Link连接起来,实现实例分割。然后应用minAreaRect直接从分割结果中提取边界框。可以通过后置过滤来有效去除预测的噪声。为了更好地说明问题,作者展示了一个输入样本。虚线框中的八个热图代表了八个方向的Link预测。尽管有些词在文本/非文本预测中难以分离,但通过Link预测,它们是可以分离的

PixelLink的loss function由每个像素的分类损失函数和link损失函数组成,都采用了交叉熵。由于instance的大小不同,一些图像文字区域的面积大于所有其他文字的面积,因此提出一种实例平衡交叉熵损失函数,即为每一个instance计算一个权重:权重为所有像素面积的平均值除以每一个instance的面积。训练过程中采取了OHEM(Online Hard Example Ming)的训练策略,选取r x S个负样本中loss最高的像素,其中,r为负样本与正样本的比值,一般选取3。link 的loss是要分成正负link分开计算的,分开计算后对正负link loss进行归一化后相加,形成最终的link loss。


项目 SOTA!平台项目详情页
PixelLink 前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/pixellink


3、TextBoxes++

TextBoxes++主要是受到SSD的default box启发,在SSD框架基础之上做了一些调整,从而能够检测倾斜文本。SSD中default box 是水平的框,不能检测倾斜的文字。为了检测倾斜的文字,TextBoxes++采用四边形或旋转矩形来作为default box回归的target。为了更加密集的覆盖图像中的文字,对default box 做了垂直方向的偏移,更加密集的覆盖图像。同时,为了使感受野更加适应文本行,使用了长条状的卷积核。在训练过程中,使用了OHEM(Online Hard Example Ming)和数据增强,并且数据增强使用了随机裁剪的策略来增强对小目标的检测。TextBoxes++在6个不同的scale下检测旋转文字,在测试过程中,将所有的bounding box汇集到一起并做一起级联的NMS。最后,将CRNN接在后端,利用文字识别的高语义去优化检测过程。

TextBoxes++的backbone是经典的VGG16,保持前五个卷积层(conv1-conv5),并通过参数下采样方法将最后两个全连接转化成卷积层(conv6-conv7),然后在后面再加上8个卷积层,每两个一组(conv8-conv11),形成四个不同分辨率的stage。类似于SSD,不同scale的层都会接入到Multiple output layers,也叫text-box layers。它负责将不同scale下检测到的框进行一个聚合,并做一个级联的NMS。Textboxes++是一个全卷积的结构,因此在训练和测试的过程中可以接受不同大小的图片。不同于Textboxes,TextBoxes++将最后一个global average pooling 替换成了卷积层,这样有益于多尺度的训练和测试。


图4 TextBoxes++是一个全卷积网络,包括来自VGG-16的13层,然后是10个额外的卷积层,6个文本框层连接到6个中间卷积层。文本框层的每个位置预测每个默认框的n维向量,包括文本存在分数(2维)、水平边界矩形偏移量(4维)和旋转矩形边界框偏移量(5维)或四边形bounding box偏移量(8维)。在测试阶段应用非最大抑制,以合并所有6个文本框层的结果。"#c "代表通道的数量

垂直偏移的default box
text-box layer在输入的特征图的基础上同时预测classification和regression,输出的bounding box包括旋转的bounding box和包含对应旋转矩形的最小外接矩形。这个可以通过回归特征图上的每个像素对应的default box 的偏移来实现。在训练过程中,default box通过计算与ground truth的overlap来匹配ground truth,匹配策略和SSD相同。由于ground truth很多时候是倾斜的,因此,在匹配的时候,default box与ground truth的最小外接矩形计算IoU。因为default box 有很多不同的长宽比,这样可以使其更加适应任务。

卷积核形状的选择
对于水平框的情况下卷积核的形状是1 x 5 ,但是对于带有旋转情况下文章选择的是3 x 5。这种inception-style的不规则卷积核可以更好的适应长宽比更大的文字。由于inception结构,这种方形的感受野带来的噪声信号也可以被避免。

训练部分
损失函数采用了和SSD相同的函数,classification采用softmax交叉熵,regression采用smooth L1。

训练过程采用OHEM策略,不同于传统的OHEM,训练分为两个stage,stage1的正负样本比为1:3,stage2的正负样本比为1:6。

数据增强策略就是在原图随机裁剪一块与ground truth 的Jaccard overlap大于最小值的图片,此外增加一个目标收敛的约束。对于裁剪后的bounding box B和ground-truth bounding box G,Jaccard overlap J和物体覆盖度C定义为:

其中,| · |表示cardinality(即面积)。基于物体覆盖率C的随机裁剪策略更适合于小物体,如自然图像中的大多数文字。

级联NMS
由于计算倾斜文字的IoU较为耗时,作者在中间做了一个过渡,先计算所有框的最小外接矩形的IoU,做一次阈值为0.5的NMS,消除一部分框,然后在计算倾斜框的IoU的基础上做一次阈值为0.2的NMS。

端到端文字识别
最后,在Textboxes++后端接上CRNN(Convolutional Recurrent Neural Network)的框架,可以识别出相应的文字,然后通过文字的语义信息优化检测框的位置。整个CRNN网络结构包含三部分,从下到上依次为:CNN(卷积层),使用深度CNN,对输入图像提取特征,得到特征图;RNN(循环层),使用双向RNN(BLSTM)对特征序列进行预测,对序列中的每个特征向量进行学习,并输出预测标签(真实值)分布;CTC loss(转录层),使用 CTC 损失,把从循环层获取的一系列标签分布转换成最终的标签序列。关于CRNN我们会在后文“文字识别模型”章节中详细介绍。

项目 SOTA!平台项目详情页

TextBoxes++

前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/textboxes-_1



相关文章
|
6天前
|
机器学习/深度学习 人工智能 文字识别
Kimi 上线视觉思考模型,K1 系列强化学习模型正式开放,无需借助外部 OCR 处理图像与文本进行思考并回答
k1视觉思考模型是kimi推出的k1系列强化学习AI模型,具备端到端图像理解和思维链技术,能够在数学、物理、化学等领域表现优异。本文详细介绍了k1视觉思考模型的功能、技术原理、使用方法及其在多个应用场景中的表现。
126 68
Kimi 上线视觉思考模型,K1 系列强化学习模型正式开放,无需借助外部 OCR 处理图像与文本进行思考并回答
|
3月前
|
编解码 人工智能 文字识别
阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!
GOT来促进OCR-2.0的到来。该模型具有580百万参数,是一个统一、优雅和端到端的模型,由高压缩编码器和长上下文解码器组成。
阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!
|
4月前
|
文字识别 并行计算 PyTorch
MiniCPM-V 系列模型在多模态文档 RAG 中的应用(无需OCR的多模态文档检索+生成)
现在我们以 OpenBMB 基于 MiniCPM-V-2.0 训练的端到端多模态检索模型 MiniCPM-Visual-Embedding-v0 为例,实现无需OCR的多模态文档检索与问答。
MiniCPM-V 系列模型在多模态文档 RAG 中的应用(无需OCR的多模态文档检索+生成)
|
4月前
|
数据采集 机器学习/深度学习 文字识别
OCR -- 文本检测 - 训练DB文字检测模型
OCR -- 文本检测 - 训练DB文字检测模型
97 0
|
5月前
|
文字识别 开发工具
印刷文字识别使用问题之模型已经生成,如何追加样本量
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
5月前
|
文字识别
印刷文字识别使用问题之如何实让其他人标注,自己创建模型
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
6月前
|
人工智能 文字识别 自然语言处理
OCR小模型仍有机会!华科等提出VIMTS:零样本视频端到端识别新SOTA
【6月更文挑战第7天】华中科技大学团队推出VIMTS模型,刷新零样本视频文本识别SOTA。该模型通过Prompt Queries Generation Module和Tasks-aware Adapter增强跨任务协同,提升泛化能力。在多个跨域基准测试中,VIMTS平均性能提升2.6%,视频识别上超越现有方法。此创新降低OCR对标注数据依赖,为资源受限场景提供新方案。论文链接:https://arxiv.org/pdf/2404.19652
82 3
|
7月前
|
编解码 文字识别 测试技术
论文介绍:TextMonkey——面向文本理解的无OCR大型多模态模型
【5月更文挑战第2天】TextMonkey是一款无OCR的大型多模态模型,设计用于高效提取文本信息。它采用Shifted Window Attention和零初始化技术处理高分辨率文档,减少训练成本。通过假设图像中的冗余标记,模型能精简标记并提升性能。TextMonkey还能定位文本答案在图像中的位置,增强可解释性,在场景文本任务和关键信息提取中表现优越,特别是在OCRBench基准测试中刷新记录。然而,它在处理小图像和需要深层推理的任务时仍面临挑战。[链接](https://arxiv.org/abs/2403.04473)
202 5
|
7月前
|
人工智能 文字识别 自然语言处理
【2023 CSIG垂直领域大模型】大模型时代,如何完成IDP智能文档处理领域的OCR大一统?
2023年12月28-31日,由中国图象图形学学会主办的第十九届CSIG青年科学家会议在中国广州隆重召开,会议吸引了学术界和企业界专家与青年学者,会议面向国际学术前沿与国家战略需求,聚焦最新前沿技术和热点领域,共同探讨图象图形学领域的前沿问题,分享最新的研究成果和创新观点,在垂直领域大模型专场,合合信息智能技术平台事业部副总经理、高级工程师丁凯博士为我们带来了《文档图像大模型的思考与探索》主题报告。
|
7月前
|
文字识别 算法 数据库
开源OCR模型DIY票证信息抽取
票证检测矫正模型在实际生活中有着广泛的需求,例如信息抽取、图像质量判断、证件扫描、票据审计等领等场景,可以大幅提高工作效率和准确性。