【AAAI 2024】M2Doc:文档版面分析的可插拔多模态融合方法

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: M2Doc是一种创新的多模态融合方法,设计用于增强文档版面分析任务中的纯视觉目标检测器。该方法包括Early-Fusion和Late-Fusion模块,前者通过门控机制融合视觉和文本特征,后者则在框级别合并这两种特征。M2Doc易于集成到各种目标检测器,实验证明它能显著提升DocLayNet和M6Doc数据集上的性能,特别是与DINO结合时,在多个数据集上达到SOTA结果。此外,研究表明M2Doc对于增强复杂逻辑版面分析任务中的文本理解和语义关联特别有效。

一、文章介绍

文档版面分析任务是文档智能的一个关键任务。然而,现有的很多文档版面分析研究方法都基于通用目标检测方法,忽视了文档的文本特征而仅仅只关注于视觉特征。近年来,基于预训练的文档智能模型在很多文档下游任务中都取得了成功,然而在具体的文档版面分析任务上同样也只是简单将预训练的参数迁移到纯视觉的目标检测器中进行fintune。基于此,本文设计了可插拔的多模态融合方法M2Doc,可以赋予纯视觉的目标检测器感受多模态的能力。M2Doc包含两个融合模块,Early-Fusion和Late-Fusion模块。其中Early-Fusion模块使用一个类似Gate的机制去融合主干网络提取出的视觉和文本的模态特征,Late-Fusion模块使用简单的加和操作去融合框级别的文本和视觉特征。得益于M2Doc简洁且有效的模型结构,它可以很容易地应用到多种目标检测器上。我们的实验结果也显示使用M2Doc的目标检测器可以在DocLayNet和M6Doc版面分析数据集上得到显著的提升,值得一提的是DINO目标检测器搭配M2Doc可以在多个数据集上取得SOTA的结果。


二、出发点

  • 版面分析任务与目标检测任务最大的不同在于它们面向的场景不同,版面分析任务的检测目标大多都是文本区域,也即天然就具有视觉和文本两个属性,故而使用多模态的建模方法去解决这个问题应该更符合任务的特点。
  • 版面分析任务的多数实例都具有语义的连接关系,例如存在上下文联系的两个实例大概率属于同一个类别,故而将语义信息考虑到文档版面分析任务中应该是更符合直觉的建模方式。
  • 现有的文档版面分析方法大多都是基于通用目标检测器改进的,它们在相对简单的物理版面分析数据集上能取得不错的成绩,但是在更复杂的逻辑版面分析场景中表现不佳。现有的多模态版面分析方法比较少,且也存在效果不好参数量过大等问题。

基于上述三点,本文为单模态的检测器设计了通用可插拔的多模态融合方法M2Doc,从而赋予它们在复杂逻辑版面分析场景中能感知文本内容和语义的能力。



三、M2Doc框架

M2Doc的总体框架如图3(a)所示。整个网络包含四个阶段:文本表征阶段、特征提取阶段、Early-Fusion阶段和Late-Fusion阶段。其中两个融合模块都是可插拔的,可以轻松应用到其他的单模态目标检测器中。(1)文本Grid表征阶段:给定一张文档的图片,文档图片中包含多个单词,我们处理的场景都提供OCR结果和对应的检测框。为了能够得到每个单词对应的特征表示,我们将各个单词按阅读顺序排布之后送入到预训练语言模型BERT得到对应每个单词的Embedding。然后我们利用OCR检测框,将每个单词的Embedding填回到其OCR框中。最终我们就得到了和原图像高宽一致,只是通道维度不同的文本Grid输入。这样的表征方式使得我们能够最大限度地保留了文本模态的版面格式,同时又使得两种模态的输入能够在像素级别上对齐,方便后面的特征融合。(2)特征提取阶段:因为在前面我们提到两种模态的输入其实在像素级别上是对齐的,于是我们仅使用单个主干网络去提取文本和视觉特征。我们使用ResNet网络作为我们的主干网络,经过主干网络之后我们得到了四个不同尺度的文本和视觉特征。(3)Early-Fusion阶段:在传统的单模态网络中,主干网络提取出的特征需要被用来生成候选框,以及作为候选框的视觉特征表达,所以我们需要在得到候选框之前就将两个模态的特征进行有效的融合。我们参照了指代分割领域的LAVT的做法,使用一个类似于Gate的机制来融合两个模态对应尺度的特征。在融合之后,考虑到在第一个阶段中没有文本的地方表征为0,于是我们使用LayerNorm去归一化融合后的特征。(4)Late-Fusion阶段:我们把第一次融合后的特征送入到候选框生成模块之后,得到了一系列的候选框。于是我们可以用一个简单的IoU的操作为每个候选框分配合适的文本特征。并且将每个候选框对应的视觉和文本特征进行二次融合。我们发现其实一个简单的带权重的加法融合的策略就已经能够比较好的将两个特征进行融合。


四、实验

a)  主实验

  • 从三个版面分析数据集的结果来看,Cascade Mask R-CNN和DINO加上M2Doc在DocLayNet、M6Doc数据集上都取得了SOTA的结果,证明了其有效性。
  • M2Doc相比于原有Baseline取得了很大的提升,并且VSR作为唯一一个多模态方法,它依然在DocLayNet数据集上和我们的方法相差较大,证明了M2Doc作为一个可插拔方法的有效性。
  • PubLayNet是一个比较简单的物理版面分析数据集,并且只区分五个和文本内容关系不大的基本元素,所以一个好的单模态检测器就已经能够在此数据集就已经能够取得不错的效果。并且和我们对比的方法大多都是用更大的主干网络(ViT、X101等),我们也在主干网络不占优的情况下达到了一个Comparable的结果。

b)  可插拔实验

可以看到,无论是在两阶段还是端到端的检测器上,我们的方法都能够很好地提升它们在复杂版面分析数据集上的表现,证明了M2Doc优秀的泛化能力和可插拔能力。

c)  消融实验


五、总结与展望

总的来说,本文面向复杂逻辑版面分析场景提出了一个可插拔的多模态融合方法,很好地从多模态的视角出发,提升了现有的单模态目标检测器在版面分析任务上的表现。我们认为还有以下工作值得未来进行探索:

  • 如何设计统一高效的多模态模型能够更好结合文档的视觉和文本特征是值得后续探索的。
  • 针对M2Doc,如何设计更有效的多模态融合策略也是值得进一步探索的。
  • 现有的关于文档的密集文本的表征方式相当复杂,如何能够进一步简化得到文本特征的步骤也值得研究。



● 论文标题:

M2Doc: A Multi-modal Fusion Approach for Document Layout Analysis

● 论文作者:

张宁、郑晓怡、陈佳禹、江宗源、黄俊、薛洋、金连文

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
6月前
|
人工智能 vr&ar 图形学
开源单图生成3D模型TripoSR的局限性分析
【2月更文挑战第25天】开源单图生成3D模型TripoSR的局限性分析
315 6
开源单图生成3D模型TripoSR的局限性分析
|
6月前
|
机器学习/深度学习 物联网 数据处理
社区供稿 | 封神榜团队提出首个引入视觉细化器的多模态大模型Ziya-Visual-Lyrics,多个任务SOTA
封神榜大模型团队基于在多模态领域积累的先进技术,首次在多模态大模型上加入图像标记、目标检测、语义分割模块,推出了多模态大模型Ziya-Visual-Lyrics。
|
6月前
|
人工智能 自动驾驶 机器人
Sora是世界模拟器吗?全球首篇综述全面解析通用世界模型
【5月更文挑战第23天】Sora模型是通用世界模拟器的里程碑,展示出在物理法则理解及多领域应用的潜力,尤其在视频生成和自动驾驶中。然而,它仍面临预测能力、模拟复杂物理现象、计算效率及评估体系的挑战。未来研究将聚焦3D模拟、智能体现和安全问题,旨在提升机器对物理世界的理解和适应性,同时应对信息失真、偏见和隐私问题。[论文链接](https://arxiv.org/abs/2405.03520)
147 2
|
6月前
|
编解码 人工智能
DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩
【5月更文挑战第23天】研究人员提出Lumina-T2X框架,统一生成和编辑图像、视频、音频及3D内容。使用Flow-based Large Diffusion Transformer (Flag-DiT)模型,实现多模态生成,支持内容编辑。尽管面临训练资源需求高、生成质量不及人类创作等问题,该框架在娱乐、广告等领域有广泛应用潜力。[论文链接](https://arxiv.org/pdf/2405.05945)
108 1
|
6月前
|
机器学习/深度学习 编解码 图形学
CVPR 2024:全新生成式编辑框架GenN2N,统一NeRF转换任务
【4月更文挑战第29天】CVPR 2024 提出GenN2N框架,统一处理NeRF转换任务,将NeRF编辑转化为图像到图像转换,适用于文本驱动编辑、着色等。通过结合VAE和GAN的生成模型及对比学习正则化,保证三维一致性。虽依赖高质量预训练转换器且计算成本高,但展示了出色性能和通用性,有望广泛应用于图形学和视觉领域。[CVPR 2024, NeRF, GenN2N, 生成式编辑, 图像到图像转换]
81 1
|
机器学习/深度学习 自然语言处理 搜索推荐
【论文速递】NAACL2022- 文档级事件论元抽取的双流AMR增强模型
以往的研究大多致力于从单个句子中抽取事件,而文档级别的事件抽取仍未得到充分的研究。在本文中,我们专注于从整个文档中抽取事件论元
176 0
|
机器学习/深度学习 人工智能 算法
CVPR 2023 | 一键去除视频闪烁,该研究提出了一个通用框架
CVPR 2023 | 一键去除视频闪烁,该研究提出了一个通用框架
213 0
|
人工智能 自然语言处理
UDOP项目原作解读:统一视觉、语言、格式、任务的通用文档处理模型
UDOP项目原作解读:统一视觉、语言、格式、任务的通用文档处理模型
335 0
|
机器学习/深度学习 自然语言处理 JavaScript
7 Papers & Radios | 首个用于工业开发的自动代码生成系统;多模态图像合成与编辑综述
7 Papers & Radios | 首个用于工业开发的自动代码生成系统;多模态图像合成与编辑综述
240 0

热门文章

最新文章