深度学习助力版面分析技术,图像“还原”有方

简介: 深度学习助力版面分析技术,图像“还原”有方

1. 前言背景

近期,2023年度视觉与学习青年学者研讨会 (Vision And Learning SEminar, VALSE)  在无锡圆满落幕,此研讨会是图像视觉领域的重磅会议。作为智能文档处理领域代表的合合信息自然不会缺席,合合信息出席会议并进行智能文档处理技术研发与实践成果分享,重点介绍了其在版面分析与文档还原技术实现上的新突破。

一系列的技术突破成功的提高了图像识别的准确率。 其介绍成功地引起了我对文档图像识别与文档还原技术的浓厚兴趣,因为我经常为OCR识别出现的错字和漏字问题所困扰。下面就我了解到的信息做一个简单的介绍。

2. 简单的了解下图像识别过程

首先,让我们先来了解下文档图像识别以及文档还原的过程。一般而言,文档图像识别以及文档还原的有如下几大步骤。

  1. 图像预处理:在进行文档图像处理之前,需要对原始图像进行预处理,以提高后续图像处理的效率和准确性。这些预处理包括以下几个方面:    
  1. 形变矫正:针对图像的形变矫正,合合信息采用基于位移场网络学习方法的系统构架,可对形变文档进行智能矫正,包括弯曲矫正与透视矫正,同时智能定位文档边缘,切除多余背景。
  2. 阴影去除:通过合合信息阴影处理技术,可以智能消除图像中的阴影,提升材料规范性与后续的识别准确性。
  3. 摩尔纹去除:合合信息采用多重神经网络技术,通过分析暗角、摩尔纹的形成原理,对图像中存在的干扰因素进行对应处理,可去除所有样式的摩尔纹,同时保证图像信息完整、颜色不失真。
  4. 反光去除:合合信息采用基于位置感知的深度学习的单图像反光/反射消除方法。使用循环全对场变换(RAFT)来学习位移场,从而可以自动地从源图像到目标图像进行运动估计和位移场估计。
  5. 清晰度提升:通过增强图像亮度,对比度等参数,使图像更加清晰。
  6. 图像增强锐化:通过微分法和高频加重滤波法对图像进行增强锐化
  1. 版面分析:版面分析就是将对输入的图像的文字部分和版面元素进行分析和识别,把若干行文字关联起来,从而获得正确的顺序与段落关系。版面分析是文档图像还原的核心,因为普通的OCR技术只能提取图像中文字,并不能提取图像中的图片,印章等其他元素,以及各个元素之间的位置关系。
  2. 文档还原:文档还原就是依据版面分析步骤中识别到的各个元素以及元素之间的顺序信息。通过基于transformer的排版布局引擎进行排版分析,从而使图像很好"还原"成一个可编辑的Word或Excel文件。
    下面我们就详细介绍下版面分析技术。

3. 版面分析难在哪里?

介绍版面分析技术之前首先我们需要搞清楚何为版面分析。

文档图像中通常含有大量的图片、表格等非文字内容,一篇普通的论文或者文稿,除文字信息外,其版面往往包含页眉、页脚、表格、二维码、公式等多种元素。在向系统输入文档图像后,机器会对文字部分和版面元素进行分析和识别,把若干行文字关联起来,从而获得正确的顺序与段落关系,这便是版面分析技术。

版面分析主要包括物理版面分析(区域分割、分类,文本检测与定位,文本行分割等),手写及印刷区分,表格分析(单元格提取与关系分析);逻辑版面分析(区域语义分类、阅读顺序),以及签名、图标、印章等版面元素的提取等。前者主要解决区域分割问题,关注的是文档图像的物理布局,后者则关注区域之间的逻辑关系或阅读顺序。如何精准地辨别各类元素,并在文档电子化过程中让它们回归到应有的位置,是该项技术的难点之一。

其中阅读顺序主要用于文本行分割和文本行识别等处理。一般来说,文本行分割可以通过以下步骤实现:

  1. 段落识别:首先使用段落识别技术将文档图像中的文本段落进行识别和分割。
  2. 行连通性:将文本行连通性,将其与相邻的文本行合并成一个文本块。
  3. 文本行方向:判断文本块的方向(从左到右或从右到左),以便于进行正确的文本行分割。
  4. 文本行分割:根据文本块的方向和行间距等信息,将文本块分割成单个的文本行。

传统的版面分析方法在进行版面布局分析和表格处理时会明显受制于版式差异,在应对不同场景下的文档图片时泛化效果存在缺陷,难以以一个通用的模型来处理各类版式的复杂文档。这就会导致文件材料在被拍照、扫描成电子文档的过程中可能出现漏字、错位的现象,从而使得图片转Word、图片转Excel等“可编辑”性的需求无法被满足。

4. 合合信息如何突破?

合合信息将全卷积神经网络(FCN)和图神经网络(GNN)两种深度学习的算法模型引入到文档版面分析中,结合文本区域的几何坐标、视觉特征、文本语义等多种模态信息对文本阅读顺序进行预测,显著提升分类结果。

首先,让我们简单的了解下这两种算法。

全卷积神经网络(FCN)是一种将卷积神经网络(CNN)用于图像分类任务时常用的技术。FCN将CNN末尾的全连接层转化成了卷积层,使得模型可以输出每个像素点的分类结果。在文档版面分析中,FCN可以用于将文档图像中的不同部分分割成不同的区域,例如文本、图片、表格等,从而更好地理解文档图像的结构和内容。

图神经网络(GNN)是一种用于处理图数据的神经网络。它可以处理图形数据中的节点和边之间的关系。在文档版面分析中,GNN可以用于处理文档中的节点和边之间的关系,例如文档中的段落之间的关系、图片之间的关系等。通过使用GNN,可以更好地理解文档的结构和内容,并提取出有用的信息。

如下图展示了合合信息文档还原系统的架构图。

从上面的架构图中可以看出文档还原系统核心部分主要就两个部分:

  1. 在接收到文档图像之后,系统通过版面元素检测和识别技术获取图像中的版面信息,这些版面信息包括段落,表格,印章,图片等信息,通过文字检测和识别技术获取图像中的文本信息和坐标信息。具体来说,使用全卷积神经网络(FCN)将文档中的不同部分分割成不同的区域,然后使用图神经网络(GNN)处理这些区域之间的关系,从而更好地理解文档的结构和内容。此外,还可以使用全卷积神经网络(FCN)和图神经网络(GNN)来识别文档中的实体、关系等信息,从而更好地理解文档的内容。
  2. 接着系统通过基于transformer的排版布局引擎输出文档排版属性,从而将图像“还原”成一个可编辑的Word或Excel文件。
    下面就对每个部分所涉及到的相关技术点做一个简要的介绍和分析。

4.1. 版面元素检测与识别

合合信息版面分析技术通过引入全卷积神经网络(FCN)和图神经网络(GNN)两种深度学习的算法解决版面分割、区域间的逻辑关系处理等方面的难题,可将文档图像切分成不同类型内容(文本、图形、公式、表格、印章等)的区域,并分析区域之间的关系,让机器更精准地确定文档中的文字位置、字体、字号和排版方式,从而可以从各类版式复杂的文档图像中精准获取其所有信息。

那么,这两种算法模型如何能够提升文档图像检测与识别呢?这是因为

  1. 全卷积神经网络(FCN)在卷积神经网络(CNN)的基础上,将卷积神经网络的全连接层转换为卷积层,从而允许输入不同大小的图像。这种方法在文档图像识别中非常有用,因为文档图像的大小和形状各异。通过使用  FCN,我们可以将任意大小的图像输入到模型中进行识别,而不需要对图像进行缩放或裁剪。这提高了模型的准确性和鲁棒性。
  2. 图神经网络(GNN) 可以将图像转换为图形结构,并使用 GNN 对其进行识别。GNN 可以通过学习图形结构的特征来提高识别准确率。此外,GNN 还可以利用图形结构的全局信息,例如节点之间的连接和距离,来提高识别准确率。
    其过程如下图所示:

    其详细步骤如下图所示:

    合合信息提出Layout  Engine作为框架的视觉检测模块,首先进行卷积神经网络的区域性搜索,检测出文档中的各个元素,这些元素包括文本、印章、页眉、页脚、无线表、骑缝章、列表、水印、二维码、条形码、公式、图像、表格等。   该模块通过下采样、上采样以及attention模块获取图像多尺度、空间以及通道相关的特征。最后采用point-wise的方式获取文档元素的heatmap区域,可以有效的提取各种形状以及各类信息的元素区域。

4.2. 版面排版引擎的算法原理

通过前面版面元素检测和识别获取到文本信息,坐标信息以及其他版面信息之后,接着就交给基于transformer的排版布局引擎,该引擎的算法原理如下图所示:

从上图中可以看出该引擎接收到相关的文字信息和版面信息之后,首先

文档图像中通过字符嵌入(Character embedding),文本行嵌入(Textline embedding),段落嵌入(Paragraph embedding),关系嵌入(Relation embedding)抽出四部分嵌入向量。

  1. 字符嵌入(Character embedding):将每个字符表示为一个向量的过程,通过将字符映射到一个连续的向量空间中,使得具有相似语义或上下文关系的字符在向量空间中更加接近。
  2. 文本行嵌入(Textline embedding):将整个文本行表示为一个向量的过程。通过将文本行中的所有字符的嵌入向量进行聚合,可以捕捉到整个文本行的语义和上下文信息。
  3. 段落嵌入(Paragraph embedding):将整个段落表示为一个向量的过程。通过将段落中的句子或文本行的嵌入向量进行聚合,可以捕捉到段落的整体语义和上下文信息。
  4. 关系嵌入(Relation   embedding):将文本中不同元素之间的关系表示为向量的过程。这些元素可以是词语、句子、文本行或段落等。通过学习元素之间的关系嵌入,可以捕捉到它们之间的语义关联性和相互作用。这对于解决文本关系分析、语义关系建模和知识图谱构建等任务非常有用。

接着,将这些嵌入向量送入Transformer中。Transformer是一种基于自注意力机制的深度学习模型,用于序列到序列的任务。它应用到文本排版,就是将前面输入的嵌入向量的多帧序列转化成一个固定长度的背景向量,完成编码工作,将生成的固定长度的向量再通过一定的方式转化为对应的输出字母序列,完成解码工作。最终输出的结果将用于机器学习方法进行分析,从而达到还原文档段落属性的效果。

5、文档还原效果好

介绍完了合合信息在版面分析与还原技术上的新突破之后,接着我们看下使用扫描全能王进行文档还原的效果。如下图是一个表格图像,其内容被完整的识别出来了。

6、总结

合合信息通过基于深度学习的方法解决版面分割、区域间的逻辑关系处理等方面的难题,可以将文档图像切分成不同类型的内容(文本、表格、印章、公式等)的区域,并并分析区域之间的关系,让机器更精准地确定文档中的文字位置、字体、大小和排版方式,从各类版式复杂的图片文档中精准获取信息,让电子文档电获得“所见即所得”的处理效果。

感兴趣的小伙伴可以下载扫描全能王抢先体验一波。

相关文章
|
2天前
|
机器学习/深度学习 自动驾驶 安全
基于深度学习的图像识别技术在自动驾驶中的应用
随着人工智能技术的飞速发展,深度学习已成为推动自动驾驶技术进步的核心动力。本文深入探讨了深度学习在图像识别领域的应用,并分析了其在自动驾驶系统中的关键作用。通过引用最新的研究成果和实验数据,本文揭示了深度学习模型如何提高自动驾驶车辆对环境的感知能力,从而增强驾驶安全性和效率。
11 1
|
6天前
|
机器学习/深度学习
深度学习在医疗影像分析中的应用与挑战
随着深度学习技术的迅速发展,其在医疗影像分析领域展现出巨大的潜力和价值。本文将深入探讨深度学习如何革新医疗影像诊断流程,提高诊断的准确性与效率。通过引用最新的科研数据和实验证据,本文旨在揭示深度学习模型在处理复杂的医疗影像数据时的优势及面临的主要技术挑战。同时,文章还将讨论深度学习技术在未来医疗健康领域的应用前景以及可能的发展方向。
|
12天前
|
机器学习/深度学习 算法 固态存储
m基于深度学习的卫星遥感图像轮船检测系统matlab仿真,带GUI操作界面
在MATLAB 2022a中,使用GoogLeNet对卫星遥感图像进行轮船检测,展示了高效的目标识别。GoogLeNet的Inception架构结合全局平均池化增强模型泛化性。核心代码将图像切块并分类,预测为轮船的部分被突出显示,体现了深度学习在复杂场景检测中的应用。
55 8
|
13天前
|
机器学习/深度学习 算法 数据安全/隐私保护
深度学习在医疗影像分析中的应用与挑战
【6月更文挑战第21天】随着人工智能技术的飞速发展,深度学习已成为推动医学影像分析进步的关键力量。本文将探讨深度学习技术如何革新医疗影像的诊断流程,包括自动化病变检测、图像分割以及疾病预测等方面。同时,我们将讨论实施这些技术时遇到的伦理和法律问题。
|
13天前
|
机器学习/深度学习
深度学习中的正则化技术
【6月更文挑战第21天】在深度学习领域,正则化技术是防止模型过拟合的重要手段。本文将深入探讨几种常见的正则化方法,包括L1和L2正则化、Dropout、以及数据增强等,并分析它们在实际应用中的效果与挑战。通过比较不同正则化策略的优劣,我们旨在为深度学习研究者和实践者提供实用的指导和建议。
|
2天前
|
机器学习/深度学习 算法 数据安全/隐私保护
深度学习在医疗影像分析中的应用与挑战
随着人工智能技术的飞速发展,深度学习已成为医疗影像分析领域的革命性工具。本文将深入探讨深度学习技术在医疗影像分析中的具体应用,包括疾病诊断、治疗规划和预后评估等方面。同时,也将分析当前面临的主要挑战,如数据隐私保护、算法透明度和跨域泛化能力等。通过引用最新的科研研究和权威统计数据,本文旨在提供一个科学严谨、逻辑严密的视角,以理解深度学习在医疗影像分析中的潜力与局限。
11 0
|
2天前
|
机器学习/深度学习 算法 搜索推荐
深度学习在医疗影像分析中的应用及其挑战
本文深入探讨了深度学习技术在医疗影像分析领域的应用,并详细分析了当前面临的主要挑战。通过综合研究数据和案例分析,本文揭示了深度学习如何提高诊断准确性,加速疾病检测流程,并辅助临床决策。同时,文章也指出了数据隐私、模型泛化能力以及跨域适应性等关键问题,为深度学习技术的未来发展提供了方向。
7 0
|
3天前
|
机器学习/深度学习 算法 数据可视化
深度学习在医学影像分析中的应用与挑战
本文深入探讨了深度学习技术在医学影像分析领域的应用及其面临的主要挑战。通过引用最新的科研数据和实验证据,文章揭示了深度学习如何提高诊断准确性、加速疾病检测过程,并辅助临床决策。同时,本文也分析了深度学习模型在可解释性、数据隐私、模型泛化能力等方面遇到的关键问题,并提出了相应的解决策略。通过对现有文献的综合分析,本文旨在为深度学习在医学影像分析领域的进一步研究和应用提供科学严谨的参考和指导。
|
7天前
|
机器学习/深度学习 决策智能
**批量归一化(BN)**是2015年提出的深度学习优化技术,旨在解决**内部协变量偏移**和**梯度问题**。
【6月更文挑战第28天】**批量归一化(BN)**是2015年提出的深度学习优化技术,旨在解决**内部协变量偏移**和**梯度问题**。BN通过在每个小批量上执行**标准化**,然后应用学习到的γ和β参数,确保层间输入稳定性,加速训练,减少对超参数的敏感性,并作为隐含的正则化手段对抗过拟合。这提升了模型训练速度和性能,简化了初始化。
11 0
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的注意力机制:技术洞察与应用前景
在人工智能的浪潮下,深度学习技术以其强大的数据处理和模式识别能力引领着技术发展的前沿。特别是注意力机制的引入,它模仿人类视觉注意力的选择性聚焦,极大地提高了模型处理序列数据的效率和准确度。本文将深入解析注意力机制的原理,探讨其在自然语言处理、计算机视觉等领域的应用,并预测未来的发展趋势。通过严谨的逻辑推理和丰富的数据支撑,我们旨在展现注意力机制如何成为深度学习领域的重要创新点。