【AAAI 2024】M2Doc:文档版面分析的可插拔多模态融合方法

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: M2Doc是一种创新的多模态融合方法,设计用于增强文档版面分析任务中的纯视觉目标检测器。该方法包括Early-Fusion和Late-Fusion模块,前者通过门控机制融合视觉和文本特征,后者则在框级别合并这两种特征。M2Doc易于集成到各种目标检测器,实验证明它能显著提升DocLayNet和M6Doc数据集上的性能,特别是与DINO结合时,在多个数据集上达到SOTA结果。此外,研究表明M2Doc对于增强复杂逻辑版面分析任务中的文本理解和语义关联特别有效。

一、文章介绍

文档版面分析任务是文档智能的一个关键任务。然而,现有的很多文档版面分析研究方法都基于通用目标检测方法,忽视了文档的文本特征而仅仅只关注于视觉特征。近年来,基于预训练的文档智能模型在很多文档下游任务中都取得了成功,然而在具体的文档版面分析任务上同样也只是简单将预训练的参数迁移到纯视觉的目标检测器中进行fintune。基于此,本文设计了可插拔的多模态融合方法M2Doc,可以赋予纯视觉的目标检测器感受多模态的能力。M2Doc包含两个融合模块,Early-Fusion和Late-Fusion模块。其中Early-Fusion模块使用一个类似Gate的机制去融合主干网络提取出的视觉和文本的模态特征,Late-Fusion模块使用简单的加和操作去融合框级别的文本和视觉特征。得益于M2Doc简洁且有效的模型结构,它可以很容易地应用到多种目标检测器上。我们的实验结果也显示使用M2Doc的目标检测器可以在DocLayNet和M6Doc版面分析数据集上得到显著的提升,值得一提的是DINO目标检测器搭配M2Doc可以在多个数据集上取得SOTA的结果。


二、出发点

  • 版面分析任务与目标检测任务最大的不同在于它们面向的场景不同,版面分析任务的检测目标大多都是文本区域,也即天然就具有视觉和文本两个属性,故而使用多模态的建模方法去解决这个问题应该更符合任务的特点。
  • 版面分析任务的多数实例都具有语义的连接关系,例如存在上下文联系的两个实例大概率属于同一个类别,故而将语义信息考虑到文档版面分析任务中应该是更符合直觉的建模方式。
  • 现有的文档版面分析方法大多都是基于通用目标检测器改进的,它们在相对简单的物理版面分析数据集上能取得不错的成绩,但是在更复杂的逻辑版面分析场景中表现不佳。现有的多模态版面分析方法比较少,且也存在效果不好参数量过大等问题。

基于上述三点,本文为单模态的检测器设计了通用可插拔的多模态融合方法M2Doc,从而赋予它们在复杂逻辑版面分析场景中能感知文本内容和语义的能力。



三、M2Doc框架

M2Doc的总体框架如图3(a)所示。整个网络包含四个阶段:文本表征阶段、特征提取阶段、Early-Fusion阶段和Late-Fusion阶段。其中两个融合模块都是可插拔的,可以轻松应用到其他的单模态目标检测器中。(1)文本Grid表征阶段:给定一张文档的图片,文档图片中包含多个单词,我们处理的场景都提供OCR结果和对应的检测框。为了能够得到每个单词对应的特征表示,我们将各个单词按阅读顺序排布之后送入到预训练语言模型BERT得到对应每个单词的Embedding。然后我们利用OCR检测框,将每个单词的Embedding填回到其OCR框中。最终我们就得到了和原图像高宽一致,只是通道维度不同的文本Grid输入。这样的表征方式使得我们能够最大限度地保留了文本模态的版面格式,同时又使得两种模态的输入能够在像素级别上对齐,方便后面的特征融合。(2)特征提取阶段:因为在前面我们提到两种模态的输入其实在像素级别上是对齐的,于是我们仅使用单个主干网络去提取文本和视觉特征。我们使用ResNet网络作为我们的主干网络,经过主干网络之后我们得到了四个不同尺度的文本和视觉特征。(3)Early-Fusion阶段:在传统的单模态网络中,主干网络提取出的特征需要被用来生成候选框,以及作为候选框的视觉特征表达,所以我们需要在得到候选框之前就将两个模态的特征进行有效的融合。我们参照了指代分割领域的LAVT的做法,使用一个类似于Gate的机制来融合两个模态对应尺度的特征。在融合之后,考虑到在第一个阶段中没有文本的地方表征为0,于是我们使用LayerNorm去归一化融合后的特征。(4)Late-Fusion阶段:我们把第一次融合后的特征送入到候选框生成模块之后,得到了一系列的候选框。于是我们可以用一个简单的IoU的操作为每个候选框分配合适的文本特征。并且将每个候选框对应的视觉和文本特征进行二次融合。我们发现其实一个简单的带权重的加法融合的策略就已经能够比较好的将两个特征进行融合。


四、实验

a)  主实验

  • 从三个版面分析数据集的结果来看,Cascade Mask R-CNN和DINO加上M2Doc在DocLayNet、M6Doc数据集上都取得了SOTA的结果,证明了其有效性。
  • M2Doc相比于原有Baseline取得了很大的提升,并且VSR作为唯一一个多模态方法,它依然在DocLayNet数据集上和我们的方法相差较大,证明了M2Doc作为一个可插拔方法的有效性。
  • PubLayNet是一个比较简单的物理版面分析数据集,并且只区分五个和文本内容关系不大的基本元素,所以一个好的单模态检测器就已经能够在此数据集就已经能够取得不错的效果。并且和我们对比的方法大多都是用更大的主干网络(ViT、X101等),我们也在主干网络不占优的情况下达到了一个Comparable的结果。

b)  可插拔实验

可以看到,无论是在两阶段还是端到端的检测器上,我们的方法都能够很好地提升它们在复杂版面分析数据集上的表现,证明了M2Doc优秀的泛化能力和可插拔能力。

c)  消融实验


五、总结与展望

总的来说,本文面向复杂逻辑版面分析场景提出了一个可插拔的多模态融合方法,很好地从多模态的视角出发,提升了现有的单模态目标检测器在版面分析任务上的表现。我们认为还有以下工作值得未来进行探索:

  • 如何设计统一高效的多模态模型能够更好结合文档的视觉和文本特征是值得后续探索的。
  • 针对M2Doc,如何设计更有效的多模态融合策略也是值得进一步探索的。
  • 现有的关于文档的密集文本的表征方式相当复杂,如何能够进一步简化得到文本特征的步骤也值得研究。



● 论文标题:

M2Doc: A Multi-modal Fusion Approach for Document Layout Analysis

● 论文作者:

张宁、郑晓怡、陈佳禹、江宗源、黄俊、薛洋、金连文

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
机器学习/深度学习 自然语言处理 算法
多模态融合可能的突破方向
【2月更文挑战第21天】多模态融合可能的突破方向
320 1
多模态融合可能的突破方向
|
2月前
|
传感器 机器学习/深度学习 监控
【图像融合】差异的高斯:一种简单有效的通用图像融合方法[用于融合红外和可见光图像、多焦点图像、多模态医学图像和多曝光图像](Matlab代码实现)
【图像融合】差异的高斯:一种简单有效的通用图像融合方法[用于融合红外和可见光图像、多焦点图像、多模态医学图像和多曝光图像](Matlab代码实现)
|
3月前
|
机器学习/深度学习 人工智能 自动驾驶
AI Agent多模态融合策略研究与实证应用
本文从多模态信息融合的理论基础出发,构建了一个结合图像与文本的AI Agent模型,并通过PyTorch代码实现了完整的图文问答流程。未来,多模态智能体将在医疗、自动驾驶、虚拟助手等领域展现巨大潜力。模型优化的核心是提升不同模态的协同理解与推理能力,从而打造真正“理解世界”的AI Agent。
AI Agent多模态融合策略研究与实证应用
|
4月前
|
机器学习/深度学习 资源调度 算法
Kaggle金牌方案复现:CGO-Transformer-GRU多模态融合预测实战
本文详细介绍了在2023年Kaggle "Global Multimodal Demand Forecasting Challenge"中夺冠的**CGO-Transformer-GRU**方案。该方案通过融合协方差引导优化(CGO)、注意力机制和时序建模技术,解决了多模态数据预测中的核心挑战,包括异构数据对齐、模态动态变化及长短期依赖建模。方案创新性地提出了动态门控机制、混合架构和梯度平衡算法,并在公开数据集TMU-MDFD上取得了RMSE 7.83的优异成绩,领先亚军12.6%。
118 1
|
3月前
|
JSON 算法 安全
1688图片搜索逆向工程与多模态搜索融合实践——基于CLIP模型的特征向
本文介绍了通过逆向工程分析实现图片搜索的技术方案,包括请求特征捕获、签名算法破解及多模态搜索的实现。利用CLIP模型提取图像特征,并结合Faiss优化相似度计算,提升搜索效率。最后提供完整调用示例,模拟实现非官方API的图片搜索功能。
|
4月前
|
传感器 人工智能 搜索推荐
人机融合智能 | 可穿戴计算设备的多模态交互
本文介绍了可穿戴计算设备的多模态交互技术,阐述了以人为中心的设计目标与原则。内容涵盖设备的历史发展、特点及分类,并重点分析手指触控、手部动作、头部和眼睛动作等交互模态。同时探讨支持这些交互的传感器种类与原理,以及未来挑战。通过十个设计原则,强调自然高效、个性化、低认知负荷及隐私保护的重要性,为可穿戴技术的设计提供指导。
151 0
|
6月前
|
机器学习/深度学习 存储 数据可视化
KG4MM:融合知识图谱与多模态数据预测药物相互作用
本文探讨了用于多模态学习的知识图谱(KG4MM)在药物相互作用(DDI)预测中的应用。知识图谱通过整合药物的分子图像和文本描述,提供结构化先验知识,指导模型关注关键信息。具体实现中,利用图神经网络(GNN)连接知识图谱与多模态数据,通过注意力机制提取最具区分性的特征。以 Goserelin 和 Desmopressin 为例,模型结合直接边关系和共享节点路径,生成透明可解释的预测结果。实验表明,KG4MM 方法显著提升了预测准确性与可解释性,为生物医学领域提供了新思路。
134 0
KG4MM:融合知识图谱与多模态数据预测药物相互作用
|
7月前
|
语音技术 网络架构 开发者
HumanOmni:首个专注人类中心场景的多模态大模型,视觉与听觉融合的突破!
HumanOmni是业内首个理解以人为中心的场景,可以同时处理视觉信息、音频信息的多模态大模型。
353 9
HumanOmni:首个专注人类中心场景的多模态大模型,视觉与听觉融合的突破!
|
7月前
|
数据采集 机器学习/深度学习 数据挖掘
基于DeepSeek的多模态融合技术:实现图像、视频与音频的协同分析
随着多媒体数据的爆炸式增长,单一模态数据分析已无法满足复杂场景需求。多模态融合技术通过整合图像、视频、音频等多源数据,提供更全面精准的分析结果。DeepSeek作为强大的深度学习框架,在多模态融合领域展现巨大潜力。本文深入探讨基于DeepSeek的多模态融合技术,结合代码示例展示其在图像、视频与音频协同分析中的实际应用,涵盖数据预处理、特征融合、模型训练及评估等环节,并展望未来发展方向。
1368 13
|
9月前
|
人工智能 安全 算法
多端融合,打造最优落地效果的多模态百炼
本次分享由阿里云智能集团专家介绍多端融合的多模态百炼,涵盖七个方面:1)如何打造最优效果的多模态百炼;2)最新版本在生产力和产品力建设上的进展;3)rap能力升级;4)终端大模型场景探索与实践;5)内容安全工作;6)模型能力增强及生态应用;7)终端模型结合的消费链及手机、PC、车机器人等能力。重点介绍了百炼在多模态模型、效果运营中心、终端AI结合云端AI等方面的创新与优化,以及在内容安全和生态建设中的努力。
403 18