深度学习助力版面分析技术,图像“还原”有方

简介: 深度学习助力版面分析技术,图像“还原”有方

1. 前言背景

近期,2023年度视觉与学习青年学者研讨会 (Vision And Learning SEminar, VALSE)  在无锡圆满落幕,此研讨会是图像视觉领域的重磅会议。作为智能文档处理领域代表的合合信息自然不会缺席,合合信息出席会议并进行智能文档处理技术研发与实践成果分享,重点介绍了其在版面分析与文档还原技术实现上的新突破。

一系列的技术突破成功的提高了图像识别的准确率。 其介绍成功地引起了我对文档图像识别与文档还原技术的浓厚兴趣,因为我经常为OCR识别出现的错字和漏字问题所困扰。下面就我了解到的信息做一个简单的介绍。

2. 简单的了解下图像识别过程

首先,让我们先来了解下文档图像识别以及文档还原的过程。一般而言,文档图像识别以及文档还原的有如下几大步骤。

  1. 图像预处理:在进行文档图像处理之前,需要对原始图像进行预处理,以提高后续图像处理的效率和准确性。这些预处理包括以下几个方面:    
  1. 形变矫正:针对图像的形变矫正,合合信息采用基于位移场网络学习方法的系统构架,可对形变文档进行智能矫正,包括弯曲矫正与透视矫正,同时智能定位文档边缘,切除多余背景。
  2. 阴影去除:通过合合信息阴影处理技术,可以智能消除图像中的阴影,提升材料规范性与后续的识别准确性。
  3. 摩尔纹去除:合合信息采用多重神经网络技术,通过分析暗角、摩尔纹的形成原理,对图像中存在的干扰因素进行对应处理,可去除所有样式的摩尔纹,同时保证图像信息完整、颜色不失真。
  4. 反光去除:合合信息采用基于位置感知的深度学习的单图像反光/反射消除方法。使用循环全对场变换(RAFT)来学习位移场,从而可以自动地从源图像到目标图像进行运动估计和位移场估计。
  5. 清晰度提升:通过增强图像亮度,对比度等参数,使图像更加清晰。
  6. 图像增强锐化:通过微分法和高频加重滤波法对图像进行增强锐化
  1. 版面分析:版面分析就是将对输入的图像的文字部分和版面元素进行分析和识别,把若干行文字关联起来,从而获得正确的顺序与段落关系。版面分析是文档图像还原的核心,因为普通的OCR技术只能提取图像中文字,并不能提取图像中的图片,印章等其他元素,以及各个元素之间的位置关系。
  2. 文档还原:文档还原就是依据版面分析步骤中识别到的各个元素以及元素之间的顺序信息。通过基于transformer的排版布局引擎进行排版分析,从而使图像很好"还原"成一个可编辑的Word或Excel文件。
    下面我们就详细介绍下版面分析技术。

3. 版面分析难在哪里?

介绍版面分析技术之前首先我们需要搞清楚何为版面分析。

文档图像中通常含有大量的图片、表格等非文字内容,一篇普通的论文或者文稿,除文字信息外,其版面往往包含页眉、页脚、表格、二维码、公式等多种元素。在向系统输入文档图像后,机器会对文字部分和版面元素进行分析和识别,把若干行文字关联起来,从而获得正确的顺序与段落关系,这便是版面分析技术。

版面分析主要包括物理版面分析(区域分割、分类,文本检测与定位,文本行分割等),手写及印刷区分,表格分析(单元格提取与关系分析);逻辑版面分析(区域语义分类、阅读顺序),以及签名、图标、印章等版面元素的提取等。前者主要解决区域分割问题,关注的是文档图像的物理布局,后者则关注区域之间的逻辑关系或阅读顺序。如何精准地辨别各类元素,并在文档电子化过程中让它们回归到应有的位置,是该项技术的难点之一。

其中阅读顺序主要用于文本行分割和文本行识别等处理。一般来说,文本行分割可以通过以下步骤实现:

  1. 段落识别:首先使用段落识别技术将文档图像中的文本段落进行识别和分割。
  2. 行连通性:将文本行连通性,将其与相邻的文本行合并成一个文本块。
  3. 文本行方向:判断文本块的方向(从左到右或从右到左),以便于进行正确的文本行分割。
  4. 文本行分割:根据文本块的方向和行间距等信息,将文本块分割成单个的文本行。

传统的版面分析方法在进行版面布局分析和表格处理时会明显受制于版式差异,在应对不同场景下的文档图片时泛化效果存在缺陷,难以以一个通用的模型来处理各类版式的复杂文档。这就会导致文件材料在被拍照、扫描成电子文档的过程中可能出现漏字、错位的现象,从而使得图片转Word、图片转Excel等“可编辑”性的需求无法被满足。

4. 合合信息如何突破?

合合信息将全卷积神经网络(FCN)和图神经网络(GNN)两种深度学习的算法模型引入到文档版面分析中,结合文本区域的几何坐标、视觉特征、文本语义等多种模态信息对文本阅读顺序进行预测,显著提升分类结果。

首先,让我们简单的了解下这两种算法。

全卷积神经网络(FCN)是一种将卷积神经网络(CNN)用于图像分类任务时常用的技术。FCN将CNN末尾的全连接层转化成了卷积层,使得模型可以输出每个像素点的分类结果。在文档版面分析中,FCN可以用于将文档图像中的不同部分分割成不同的区域,例如文本、图片、表格等,从而更好地理解文档图像的结构和内容。

图神经网络(GNN)是一种用于处理图数据的神经网络。它可以处理图形数据中的节点和边之间的关系。在文档版面分析中,GNN可以用于处理文档中的节点和边之间的关系,例如文档中的段落之间的关系、图片之间的关系等。通过使用GNN,可以更好地理解文档的结构和内容,并提取出有用的信息。

如下图展示了合合信息文档还原系统的架构图。

从上面的架构图中可以看出文档还原系统核心部分主要就两个部分:

  1. 在接收到文档图像之后,系统通过版面元素检测和识别技术获取图像中的版面信息,这些版面信息包括段落,表格,印章,图片等信息,通过文字检测和识别技术获取图像中的文本信息和坐标信息。具体来说,使用全卷积神经网络(FCN)将文档中的不同部分分割成不同的区域,然后使用图神经网络(GNN)处理这些区域之间的关系,从而更好地理解文档的结构和内容。此外,还可以使用全卷积神经网络(FCN)和图神经网络(GNN)来识别文档中的实体、关系等信息,从而更好地理解文档的内容。
  2. 接着系统通过基于transformer的排版布局引擎输出文档排版属性,从而将图像“还原”成一个可编辑的Word或Excel文件。
    下面就对每个部分所涉及到的相关技术点做一个简要的介绍和分析。

4.1. 版面元素检测与识别

合合信息版面分析技术通过引入全卷积神经网络(FCN)和图神经网络(GNN)两种深度学习的算法解决版面分割、区域间的逻辑关系处理等方面的难题,可将文档图像切分成不同类型内容(文本、图形、公式、表格、印章等)的区域,并分析区域之间的关系,让机器更精准地确定文档中的文字位置、字体、字号和排版方式,从而可以从各类版式复杂的文档图像中精准获取其所有信息。

那么,这两种算法模型如何能够提升文档图像检测与识别呢?这是因为

  1. 全卷积神经网络(FCN)在卷积神经网络(CNN)的基础上,将卷积神经网络的全连接层转换为卷积层,从而允许输入不同大小的图像。这种方法在文档图像识别中非常有用,因为文档图像的大小和形状各异。通过使用  FCN,我们可以将任意大小的图像输入到模型中进行识别,而不需要对图像进行缩放或裁剪。这提高了模型的准确性和鲁棒性。
  2. 图神经网络(GNN) 可以将图像转换为图形结构,并使用 GNN 对其进行识别。GNN 可以通过学习图形结构的特征来提高识别准确率。此外,GNN 还可以利用图形结构的全局信息,例如节点之间的连接和距离,来提高识别准确率。
    其过程如下图所示:

    其详细步骤如下图所示:

    合合信息提出Layout  Engine作为框架的视觉检测模块,首先进行卷积神经网络的区域性搜索,检测出文档中的各个元素,这些元素包括文本、印章、页眉、页脚、无线表、骑缝章、列表、水印、二维码、条形码、公式、图像、表格等。   该模块通过下采样、上采样以及attention模块获取图像多尺度、空间以及通道相关的特征。最后采用point-wise的方式获取文档元素的heatmap区域,可以有效的提取各种形状以及各类信息的元素区域。

4.2. 版面排版引擎的算法原理

通过前面版面元素检测和识别获取到文本信息,坐标信息以及其他版面信息之后,接着就交给基于transformer的排版布局引擎,该引擎的算法原理如下图所示:

从上图中可以看出该引擎接收到相关的文字信息和版面信息之后,首先

文档图像中通过字符嵌入(Character embedding),文本行嵌入(Textline embedding),段落嵌入(Paragraph embedding),关系嵌入(Relation embedding)抽出四部分嵌入向量。

  1. 字符嵌入(Character embedding):将每个字符表示为一个向量的过程,通过将字符映射到一个连续的向量空间中,使得具有相似语义或上下文关系的字符在向量空间中更加接近。
  2. 文本行嵌入(Textline embedding):将整个文本行表示为一个向量的过程。通过将文本行中的所有字符的嵌入向量进行聚合,可以捕捉到整个文本行的语义和上下文信息。
  3. 段落嵌入(Paragraph embedding):将整个段落表示为一个向量的过程。通过将段落中的句子或文本行的嵌入向量进行聚合,可以捕捉到段落的整体语义和上下文信息。
  4. 关系嵌入(Relation   embedding):将文本中不同元素之间的关系表示为向量的过程。这些元素可以是词语、句子、文本行或段落等。通过学习元素之间的关系嵌入,可以捕捉到它们之间的语义关联性和相互作用。这对于解决文本关系分析、语义关系建模和知识图谱构建等任务非常有用。

接着,将这些嵌入向量送入Transformer中。Transformer是一种基于自注意力机制的深度学习模型,用于序列到序列的任务。它应用到文本排版,就是将前面输入的嵌入向量的多帧序列转化成一个固定长度的背景向量,完成编码工作,将生成的固定长度的向量再通过一定的方式转化为对应的输出字母序列,完成解码工作。最终输出的结果将用于机器学习方法进行分析,从而达到还原文档段落属性的效果。

5、文档还原效果好

介绍完了合合信息在版面分析与还原技术上的新突破之后,接着我们看下使用扫描全能王进行文档还原的效果。如下图是一个表格图像,其内容被完整的识别出来了。

6、总结

合合信息通过基于深度学习的方法解决版面分割、区域间的逻辑关系处理等方面的难题,可以将文档图像切分成不同类型的内容(文本、表格、印章、公式等)的区域,并并分析区域之间的关系,让机器更精准地确定文档中的文字位置、字体、大小和排版方式,从各类版式复杂的图片文档中精准获取信息,让电子文档电获得“所见即所得”的处理效果。

感兴趣的小伙伴可以下载扫描全能王抢先体验一波。

相关文章
|
12天前
|
机器学习/深度学习
深度学习中的正则化技术:防止过拟合的利器
【10月更文挑战第30天】本文将深入探讨深度学习中一个关键概念——正则化,它如同园艺师精心修剪枝叶,确保模型不至于在训练数据的细节中迷失方向。我们将从直观的角度理解正则化的重要性,并逐步介绍几种主流的正则化技术,包括L1和L2正则化、Dropout以及数据增强。每种技术都将通过实际代码示例来展示其应用,旨在为读者提供一套完整的工具箱,以应对深度学习中的过拟合问题。
|
12天前
|
机器学习/深度学习 人工智能 算法
基于深度学习的地面垃圾识别分类技术
AI垃圾分类系统结合深度学习和计算机视觉技术,实现高效、精准的垃圾识别与自动分类。系统集成高精度图像识别、多模态数据分析和实时处理技术,适用于市政环卫、垃圾处理厂和智能回收设备,显著提升管理效率,降低人工成本。
基于深度学习的地面垃圾识别分类技术
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与深度学习:探索未来技术的无限可能
在21世纪,人工智能(AI)和深度学习已经成为推动科技进步的重要力量。本文将深入探讨这两种技术的基本概念、发展历程以及它们如何共同塑造未来的科技景观。我们将分析人工智能的最新趋势,包括自然语言处理、计算机视觉和强化学习,并讨论这些技术在现实世界中的应用。此外,我们还将探讨深度学习的工作原理,包括神经网络、卷积神经网络(CNN)和循环神经网络(RNN),并分析这些模型如何帮助解决复杂的问题。通过本文,读者将对人工智能和深度学习有更深入的了解,并能够预见这些技术将如何继续影响我们的世界。
34 7
|
5天前
|
机器学习/深度学习 算法 自动驾驶
深度学习中的图像识别技术
【10月更文挑战第37天】本文将深入探讨深度学习在图像识别领域的应用,通过解析神经网络模型的构建、训练和优化过程,揭示深度学习如何赋能计算机视觉。文章还将展示代码示例,帮助读者理解并实现自己的图像识别项目。
|
6天前
|
机器学习/深度学习 人工智能 自动驾驶
深度学习中的图像识别技术及其应用
【10月更文挑战第36天】在当今科技飞速发展的时代,深度学习已成为人工智能领域的一颗璀璨明珠。本文将深入探讨深度学习在图像识别方面的技术原理和应用实例,旨在为读者提供一个全面而深入的了解。我们将从基础理论出发,逐步揭示深度学习如何革新了我们对图像数据的处理和理解方式。
|
11天前
|
机器学习/深度学习 监控 PyTorch
深度学习工程实践:PyTorch Lightning与Ignite框架的技术特性对比分析
在深度学习框架的选择上,PyTorch Lightning和Ignite代表了两种不同的技术路线。本文将从技术实现的角度,深入分析这两个框架在实际应用中的差异,为开发者提供客观的技术参考。
32 7
|
8天前
|
机器学习/深度学习 算法 TensorFlow
深度学习中的图像识别技术
【10月更文挑战第34天】本文将探讨深度学习在图像识别领域的应用,并介绍如何利用Python和TensorFlow库实现一个简单的图像分类模型。我们将从基本原理出发,逐步讲解数据准备、模型构建、训练过程以及结果评估等关键步骤。通过本文的学习,读者可以了解到深度学习在图像识别中的强大能力,并掌握如何使用现代工具和技术来解决实际问题。
19 2
|
14天前
|
机器学习/深度学习 编解码 算法
什么是超分辨率?浅谈一下基于深度学习的图像超分辨率技术
超分辨率技术旨在提升图像或视频的清晰度,通过增加单位长度内的采样点数量来提高空间分辨率。基于深度学习的方法,如SRCNN、VDSR、SRResNet等,通过卷积神经网络和残差学习等技术,显著提升了图像重建的质量。此外,基于参考图像的超分辨率技术通过利用高分辨率参考图像,进一步提高了重建图像的真实感和细节。
|
22天前
|
机器学习/深度学习 监控 自动驾驶
深度学习中的图像识别技术及其应用
【10月更文挑战第20天】本文将探讨深度学习在图像识别领域的应用,包括其原理、关键技术和实践案例。我们将从基础概念出发,逐步深入到模型构建、训练技巧以及性能评估等高级话题。通过实例分析,揭示深度学习如何革新传统图像处理流程,提升识别准确率和效率。无论你是初学者还是有经验的开发者,这篇文章都将为你提供有价值的见解和实用的知识。
|
9天前
|
机器学习/深度学习 人工智能 自动驾驶
深度学习的奇迹:如何用神经网络识别图像
【10月更文挑战第33天】在这篇文章中,我们将探索深度学习的奇妙世界,特别是卷积神经网络(CNN)在图像识别中的应用。我们将通过一个简单的代码示例,展示如何使用Python和Keras库构建一个能够识别手写数字的神经网络。这不仅是对深度学习概念的直观介绍,也是对技术实践的一次尝试。让我们一起踏上这段探索之旅,看看数据、模型和代码是如何交织在一起,创造出令人惊叹的结果。
19 0