1. 前言背景
近期,2023年度视觉与学习青年学者研讨会 (Vision And Learning SEminar, VALSE) 在无锡圆满落幕,此研讨会是图像视觉领域的重磅会议。作为智能文档处理领域代表的合合信息自然不会缺席,合合信息出席会议并进行智能文档处理技术研发与实践成果分享,重点介绍了其在版面分析与文档还原技术实现上的新突破。
一系列的技术突破成功的提高了图像识别的准确率。 其介绍成功地引起了我对文档图像识别与文档还原技术的浓厚兴趣,因为我经常为OCR识别出现的错字和漏字问题所困扰。下面就我了解到的信息做一个简单的介绍。
2. 简单的了解下图像识别过程
首先,让我们先来了解下文档图像识别以及文档还原的过程。一般而言,文档图像识别以及文档还原的有如下几大步骤。
- 图像预处理:在进行文档图像处理之前,需要对原始图像进行预处理,以提高后续图像处理的效率和准确性。这些预处理包括以下几个方面:
- 形变矫正:针对图像的形变矫正,合合信息采用基于位移场网络学习方法的系统构架,可对形变文档进行智能矫正,包括弯曲矫正与透视矫正,同时智能定位文档边缘,切除多余背景。
- 阴影去除:通过合合信息阴影处理技术,可以智能消除图像中的阴影,提升材料规范性与后续的识别准确性。
- 摩尔纹去除:合合信息采用多重神经网络技术,通过分析暗角、摩尔纹的形成原理,对图像中存在的干扰因素进行对应处理,可去除所有样式的摩尔纹,同时保证图像信息完整、颜色不失真。
- 反光去除:合合信息采用基于位置感知的深度学习的单图像反光/反射消除方法。使用循环全对场变换(RAFT)来学习位移场,从而可以自动地从源图像到目标图像进行运动估计和位移场估计。
- 清晰度提升:通过增强图像亮度,对比度等参数,使图像更加清晰。
- 图像增强锐化:通过微分法和高频加重滤波法对图像进行增强锐化
- 版面分析:版面分析就是将对输入的图像的文字部分和版面元素进行分析和识别,把若干行文字关联起来,从而获得正确的顺序与段落关系。版面分析是文档图像还原的核心,因为普通的OCR技术只能提取图像中文字,并不能提取图像中的图片,印章等其他元素,以及各个元素之间的位置关系。
- 文档还原:文档还原就是依据版面分析步骤中识别到的各个元素以及元素之间的顺序信息。通过基于transformer的排版布局引擎进行排版分析,从而使图像很好"还原"成一个可编辑的Word或Excel文件。
下面我们就详细介绍下版面分析技术。
3. 版面分析难在哪里?
介绍版面分析技术之前首先我们需要搞清楚何为版面分析。
文档图像中通常含有大量的图片、表格等非文字内容,一篇普通的论文或者文稿,除文字信息外,其版面往往包含页眉、页脚、表格、二维码、公式等多种元素。在向系统输入文档图像后,机器会对文字部分和版面元素进行分析和识别,把若干行文字关联起来,从而获得正确的顺序与段落关系,这便是版面分析技术。
版面分析主要包括物理版面分析(区域分割、分类,文本检测与定位,文本行分割等),手写及印刷区分,表格分析(单元格提取与关系分析);逻辑版面分析(区域语义分类、阅读顺序),以及签名、图标、印章等版面元素的提取等。前者主要解决区域分割问题,关注的是文档图像的物理布局,后者则关注区域之间的逻辑关系或阅读顺序。如何精准地辨别各类元素,并在文档电子化过程中让它们回归到应有的位置,是该项技术的难点之一。
其中阅读顺序主要用于文本行分割和文本行识别等处理。一般来说,文本行分割可以通过以下步骤实现:
- 段落识别:首先使用段落识别技术将文档图像中的文本段落进行识别和分割。
- 行连通性:将文本行连通性,将其与相邻的文本行合并成一个文本块。
- 文本行方向:判断文本块的方向(从左到右或从右到左),以便于进行正确的文本行分割。
- 文本行分割:根据文本块的方向和行间距等信息,将文本块分割成单个的文本行。
传统的版面分析方法在进行版面布局分析和表格处理时会明显受制于版式差异,在应对不同场景下的文档图片时泛化效果存在缺陷,难以以一个通用的模型来处理各类版式的复杂文档。这就会导致文件材料在被拍照、扫描成电子文档的过程中可能出现漏字、错位的现象,从而使得图片转Word、图片转Excel等“可编辑”性的需求无法被满足。
4. 合合信息如何突破?
合合信息将全卷积神经网络(FCN)和图神经网络(GNN)两种深度学习的算法模型引入到文档版面分析中,结合文本区域的几何坐标、视觉特征、文本语义等多种模态信息对文本阅读顺序进行预测,显著提升分类结果。
首先,让我们简单的了解下这两种算法。
全卷积神经网络(FCN)是一种将卷积神经网络(CNN)用于图像分类任务时常用的技术。FCN将CNN末尾的全连接层转化成了卷积层,使得模型可以输出每个像素点的分类结果。在文档版面分析中,FCN可以用于将文档图像中的不同部分分割成不同的区域,例如文本、图片、表格等,从而更好地理解文档图像的结构和内容。
图神经网络(GNN)是一种用于处理图数据的神经网络。它可以处理图形数据中的节点和边之间的关系。在文档版面分析中,GNN可以用于处理文档中的节点和边之间的关系,例如文档中的段落之间的关系、图片之间的关系等。通过使用GNN,可以更好地理解文档的结构和内容,并提取出有用的信息。
如下图展示了合合信息文档还原系统的架构图。
从上面的架构图中可以看出文档还原系统核心部分主要就两个部分:
- 在接收到文档图像之后,系统通过版面元素检测和识别技术获取图像中的版面信息,这些版面信息包括段落,表格,印章,图片等信息,通过文字检测和识别技术获取图像中的文本信息和坐标信息。具体来说,使用全卷积神经网络(FCN)将文档中的不同部分分割成不同的区域,然后使用图神经网络(GNN)处理这些区域之间的关系,从而更好地理解文档的结构和内容。此外,还可以使用全卷积神经网络(FCN)和图神经网络(GNN)来识别文档中的实体、关系等信息,从而更好地理解文档的内容。
- 接着系统通过基于transformer的排版布局引擎输出文档排版属性,从而将图像“还原”成一个可编辑的Word或Excel文件。
下面就对每个部分所涉及到的相关技术点做一个简要的介绍和分析。
4.1. 版面元素检测与识别
合合信息版面分析技术通过引入全卷积神经网络(FCN)和图神经网络(GNN)两种深度学习的算法解决版面分割、区域间的逻辑关系处理等方面的难题,可将文档图像切分成不同类型内容(文本、图形、公式、表格、印章等)的区域,并分析区域之间的关系,让机器更精准地确定文档中的文字位置、字体、字号和排版方式,从而可以从各类版式复杂的文档图像中精准获取其所有信息。
那么,这两种算法模型如何能够提升文档图像检测与识别呢?这是因为
- 全卷积神经网络(FCN)在卷积神经网络(CNN)的基础上,将卷积神经网络的全连接层转换为卷积层,从而允许输入不同大小的图像。这种方法在文档图像识别中非常有用,因为文档图像的大小和形状各异。通过使用 FCN,我们可以将任意大小的图像输入到模型中进行识别,而不需要对图像进行缩放或裁剪。这提高了模型的准确性和鲁棒性。
- 图神经网络(GNN) 可以将图像转换为图形结构,并使用 GNN 对其进行识别。GNN 可以通过学习图形结构的特征来提高识别准确率。此外,GNN 还可以利用图形结构的全局信息,例如节点之间的连接和距离,来提高识别准确率。
其过程如下图所示:
其详细步骤如下图所示:
合合信息提出Layout Engine作为框架的视觉检测模块,首先进行卷积神经网络的区域性搜索,检测出文档中的各个元素,这些元素包括文本、印章、页眉、页脚、无线表、骑缝章、列表、水印、二维码、条形码、公式、图像、表格等。 该模块通过下采样、上采样以及attention模块获取图像多尺度、空间以及通道相关的特征。最后采用point-wise的方式获取文档元素的heatmap区域,可以有效的提取各种形状以及各类信息的元素区域。
4.2. 版面排版引擎的算法原理
通过前面版面元素检测和识别获取到文本信息,坐标信息以及其他版面信息之后,接着就交给基于transformer的排版布局引擎,该引擎的算法原理如下图所示:
从上图中可以看出该引擎接收到相关的文字信息和版面信息之后,首先
文档图像中通过字符嵌入(Character embedding),文本行嵌入(Textline embedding),段落嵌入(Paragraph embedding),关系嵌入(Relation embedding)抽出四部分嵌入向量。
- 字符嵌入(Character embedding):将每个字符表示为一个向量的过程,通过将字符映射到一个连续的向量空间中,使得具有相似语义或上下文关系的字符在向量空间中更加接近。
- 文本行嵌入(Textline embedding):将整个文本行表示为一个向量的过程。通过将文本行中的所有字符的嵌入向量进行聚合,可以捕捉到整个文本行的语义和上下文信息。
- 段落嵌入(Paragraph embedding):将整个段落表示为一个向量的过程。通过将段落中的句子或文本行的嵌入向量进行聚合,可以捕捉到段落的整体语义和上下文信息。
- 关系嵌入(Relation embedding):将文本中不同元素之间的关系表示为向量的过程。这些元素可以是词语、句子、文本行或段落等。通过学习元素之间的关系嵌入,可以捕捉到它们之间的语义关联性和相互作用。这对于解决文本关系分析、语义关系建模和知识图谱构建等任务非常有用。
接着,将这些嵌入向量送入Transformer中。Transformer是一种基于自注意力机制的深度学习模型,用于序列到序列的任务。它应用到文本排版,就是将前面输入的嵌入向量的多帧序列转化成一个固定长度的背景向量,完成编码工作,将生成的固定长度的向量再通过一定的方式转化为对应的输出字母序列,完成解码工作。最终输出的结果将用于机器学习方法进行分析,从而达到还原文档段落属性的效果。
5、文档还原效果好
介绍完了合合信息在版面分析与还原技术上的新突破之后,接着我们看下使用扫描全能王进行文档还原的效果。如下图是一个表格图像,其内容被完整的识别出来了。
6、总结
合合信息通过基于深度学习的方法解决版面分割、区域间的逻辑关系处理等方面的难题,可以将文档图像切分成不同类型的内容(文本、表格、印章、公式等)的区域,并并分析区域之间的关系,让机器更精准地确定文档中的文字位置、字体、大小和排版方式,从各类版式复杂的图片文档中精准获取信息,让电子文档电获得“所见即所得”的处理效果。
感兴趣的小伙伴可以下载扫描全能王抢先体验一波。