【2023 CSIG垂直领域大模型】大模型时代,如何完成IDP智能文档处理领域的OCR大一统?

简介: 2023年12月28-31日,由中国图象图形学学会主办的第十九届CSIG青年科学家会议在中国广州隆重召开,会议吸引了学术界和企业界专家与青年学者,会议面向国际学术前沿与国家战略需求,聚焦最新前沿技术和热点领域,共同探讨图象图形学领域的前沿问题,分享最新的研究成果和创新观点,在垂直领域大模型专场,合合信息智能技术平台事业部副总经理、高级工程师丁凯博士为我们带来了《文档图像大模型的思考与探索》主题报告。

2023年12月28-31日,由中国图象图形学学会主办的第十九届CSIG青年科学家会议在中国广州隆重召开,会议吸引了学术界和企业界专家与青年学者,会议面向国际学术前沿与国家战略需求,聚焦最新前沿技术和热点领域,共同探讨图象图形学领域的前沿问题,分享最新的研究成果和创新观点,在垂直领域大模型专场,合合信息智能技术平台事业部副总经理、高级工程师丁凯博士为我们带来了《文档图像大模型的思考与探索》主题报告。

本文将围绕以下问题,分享主题报告中大模型时代下的智能文档图像处理领域研究问题与深度思考:

  • 以GPT4-V Gemini为代表大模型能为IDP领域的技术方案和研发范式上带来什么样的启发?
  • 能否吸取大模型的优点,提出精度好、泛化强的OCR大一统模型?
  • 能否更好的将LLM与文档识别分析引擎相结合来解决IDP领域的核心问题?

一、像素级OCR统一模型:UPOCR

UPOCR是合合信息-华南理工大学文档图像分析识别与理解联合实验室于2023年12月提出的像素级OCR统一模型。UPOCR基于视觉Transformer(ViT)的编码器-解码器架构,将多样OCR任务统一为图像到图像变换范式,并引入了可学习任务提示,将编码器提取的通用特征表示推向任务特定空间,使解码器具有任务意识。实验表明,模型能够具有对不同任务的建模功能,能够同时实现文本擦除、文本分割和篡改文本检测等像素级OCR任务。

1.1、为什么提出UPOCR?

当前通用文字识别(OCR)领域面临多项主要问题,这些问题实然限制了其在各个应用领域的广泛应用。

  1. 任务特定性模型的碎片化:虽然OCR领域研究涌现出许多面向特定任务的模型,但每个模型都仅针对特定领域进行优化,模型过于碎片化,不同任务之间难以协同使用,跨领域和多场景的通用性受到较大限制。
  2. 缺乏统一接口:现有的一些通用模型依赖于特定的接口或解码机制如VQGAN,这种依赖性限制了模型在像素空间的灵活性和适应性,难以关联实现不同任务。
  3. 像素级OCR难题:当前模型在生成像素级的文本序列方面仍然面临挑战。这是因为文本生成不仅涉及语义理解,还需要考虑像素级别的细节,改善模型在生成像素级文本方面的能力仍是一个重要的研究方向。

1.2、UPOCR是什么?

UPOCR是一个通用的OCR模型,其采用了华南理工大学团队AAAI 2024录用论文中的ViTEraser作为主干网,同时借鉴基于MIM和分割图引导的一种自监督文档图像预训练方法SegMIM进行自监督预训练,然后结合文本擦除、文本分割和篡改文本检测等3个不同的任务提示词进行统一训练。

模型训练好后即可直接用于下游任务,无需再进行专门的精调,模型主要从统一范式、统一架构和统一训练策略三个方面进行研究。

1.2.1、UnifiedParadigm统一范式

如图所示,作者提出了一个OCR任务统一范式,其将各种像素级OCR任务转化为RGBtoRGB的转换问题。尽管这些任务的目标不同(例如图像生成和分割),但它们都可以被统一为在共享的特征空间中进行操作:

  1. 文本擦除任务:对于文本擦除任务,输出是与输入对应的去除文本的图像,属于RGBtoRGB任务。
  2. 文本分割任务:文本分割旨在将每个像素分配给前景(即文本笔画)或背景,在统一的图像到图像翻译范式下,UPOCR预测具有白色和黑色颜色的RGB图像,通过对比生成的RGB值与预定义的前景RGB值的距离来确定类别。
  3. 篡改文本检测任务:将篡改文本检测任务定义为篡改文本、真实文本和背景类别的每像素分类,进而UPOCR分别为篡改文本、真实文本和背景分配红色(255, 0, 0)、绿色(0, 255, 0)和蓝色(0, 0, 255)颜色。在推断过程中,通过比较预测的RGB值与这三种颜色的距离来确定每像素的类别。

1.2.2、Unified Architecture统一架构

如图所示,作者通过采用基于ViT的编码器-解码器实现了一个统一的图像到图像翻译范式来处理各种像素级OCR任务。其中,编码器-解码器架构采用了ViTEraser作为主干网络,编码器包括四个顺序块,每个编码器块包含一个用于下采样的块嵌入层和Swin Transformer v2块。解码器部分包括五个顺序块,每个解码器块包含一个用于上采样的块分割层和Swin Transformer v2块。另外,作者在编码器-解码器架构中引入可学习的任务提示,对应的提示被添加到编码器生成的隐藏特征的每个像素上,推动由编码器生成的通用OCR相关表示朝着任务特定区域。随后,解码器将调整后的隐藏特征转换为特定任务的输出图像。基于这种架构,UPOCR能够在极小的参数和计算开销下简单而有效地同时处理多样的任务。

1.2.3、Unified Training Strategy 统一训练策略

由于模型采用图像到图像的转换范式进行训练,所以在训练过程中,模型优化的目标只需要考虑最小化生成预测图像和真实图像在像素空间和特征空间上的差异,而不用考虑任务之间的差异。

  1. 像素空间损失:通过输出图像和真实图像之间的L1距离来测量像素空间中的差异:Lpix=i=13αiIout iIgti1,其中Iouti表示输出图像,Igti表示真实图像。
  2. 特征空间损失:对于与真实图像生成相关联的任务,还需要将输出图像和真实图像在特征空间对齐:Lfeat =0.01×Lper +120×Lsty
  3. 整体损失:模型整体损失是像素损失和特征损失的和:Ltotal =Lpix+Lfeat

1.3、UPOCR效果如何?

实验结果如上图三个表所示,左上方表格是文本擦除实验对比,即使与擦除领域专用的精调模型相比,UPOCR统一模型在大部分指标上也领先领域的SOTA方法;右上方表格是文本图像分割实验对比,可以看到,UPOCR在所有指标都比专门单一任务的分割方法好;左下方表格是文本篡改检测,UPOCR也取得了很好的效果。图5显示UPOCR模型设计的任务相关Prompt也可以很好的区分不同的任务,下图是文本擦除、分割、及篡改检测与现有子任务的SOTA方法的可视化对比图。

综上所述,UPOCR提出了一种简单而有效的统一像素级OCR接口,其采用基于ViT的编码器-解码器,通过可学习的任务提示来处理各种任务,在文本去除、文本分割和篡改文本检测等任务上都表现出极高的性能。

二、OCR大一统模型前沿研究速览

2.1、Donut:无需OCR的用于文档理解的Transformer模型

论文地址:https://link.springer.com/chapter/10.1007/978-3-031-19815-1_29

项目地址:https://github.com/clovaai/donut

Donut模型是一种基于Transformer架构的新颖的OCR-free VDU模型,Donut模型首先通过一个简单的规则生成布局,然后应用一些图像渲染技术来模拟真实的文档,其通过预训练和微调两个阶段进行训练。在预训练阶段,模型使用IIT-CDIP数据集进行视觉语言建模,学习从图像中读取文本。在微调阶段,模型被训练为生成JSON格式的输出,以解决下游任务,如文档分类、文档信息提取和文档视觉问答等。与其他基于OCR的模型相比,Donut不需要依赖于OCR引擎,因此具有更高的速度和更小的模型大小。在多个公共数据集上进行的实验表明,Donut在文档分类任务中表现出了先进性能。

2.2、NouGAT:实现文档图像到文档序列输出

论文地址:https://arxiv.org/abs/2308.13418

项目地址:https://github.com/facebookresearch/nougat

Nougat模型是一种通过Swing Transformer 和 Transformer Decoder实现文档图像到文档序列输出的OCR模型,模型采用基于OCR-free Transformer的端到端训练方法,采用预训练和微调的方式进行训练。在预训练阶段,Donut使用文档图像和它们的文本注释进行预训练,通过结合图像和之前的文本上下文来预测下一个词,从而学习如何读取文本。在微调阶段,Donut根据下游任务学习如何理解整个文档。各种VDU任务和数据集上的大量评估证明了Donut具有较强的理解能力。

2.3、SPTS v3:基于SPTS的OCR大一统模型

论文地址:https://arxiv.org/abs/2112.07917

项目地址:https://github.com/shannanyinxiang/SPTS

SPTS,全称Single-Point Text Spotting,是一种单点文本识别技术,它的主要创新之处在于:方法使用极低成本的单点标注进行训练将文本检测任务形式化为语言建模任务,只需要对每个文本实例进行单一点的标注,就可以训练出场景文本识别模型。SPTS基于自回归Transformer的框架,可以简单地将结果生成为顺序令牌,从而避免复杂的后处理或独占采样阶段。基于这样一个简洁的框架,SPTS在各种数据集上显示出先进性能。

三、大模型时代下的智能文档处理应用

3.1、LLM与文档识别分析应用

大语言模型能够理解自然语言文本,并具备上下文理解的能力,在文档识别分析应用中,将文档理解相关的工作交给大语言模型,自动进行篇章级的文档理解和分析,可以帮助系统更好地理解文档内容,包括上下文中的关系、实体识别、情感分析等。目前最常见和最广泛的应用包括检索增强生成(RAG)、文档问答、版面分析。

  1. 检索增强生成:已经有大语言模型针对从大量文档中检索相关信息,并以生成的方式提供更详细、准确的答案。这在信息检索的场景中具有重要的应用价值。
  2. 文档问答:LLM可以直接用于构建文档问答系统,使用户能够通过提出问题来获取文档中的相关信息,可以应用于如法律文件的解读、技术手册的查询、知识库理解等场景。

3.2、智能文档处理应用产品

智能文档处理(Intelligent Document Processing,IDP)利用人工智能和机器学习技术来自动分析和理解文档,它通过识别、解析、理解文档内容,并将其转换成可操作的数据或信息,以提高业务流程的自动化程度,提升工作效率,降低成本。丁凯博士还为我们带来合合信息文档图像识别与分析产品分享,基于这样的智能文档处理技术,产品可以快速、准确地处理大量的文档,帮助银行、保险、物流、供应链、客户服务等多个领域数智化转型,实现更高效、更可靠的业务流程管理。

合合信息TextIn智能文字识别产品基于自研的文字识别技术、计算机图形图像技术和智能图像处理引擎,能够快速将纸质文档或图片中的文字信息转化为计算机可读的文本格式,在纸质文档电子化、办公文档/报表识别、教育类文本识别、快递面单识别、切边增强、弯曲矫正、阴影处理、印章检测、手写擦除等诸多场景中提供更好的文档管理解决方案,帮助企业实现数字化转型和自动化管理。

虽然GPT4-V为代表的多模态大模型技术极大的推进了文档识别与分析领域的技术进展,但并没有完全解决图像文档处理领域面临的问题,还有很多问题值得我们研究,如何结合大模型的能力,更好的解决IDP的问题,值得我们做更多的思考和探索。

四、文末抽奖

合合信息给大家送福利了!填写年度问卷:https://qywx.wjx.cn/vm/exOhu6f.aspx,1月12日将随机抽取10个人送50元京东卡,欢迎参与!

相关文章
|
6天前
|
人工智能 自然语言处理 机器人
文档智能与RAG技术如何提升AI大模型的业务理解能力
随着人工智能的发展,AI大模型在自然语言处理中的应用日益广泛。文档智能和检索增强生成(RAG)技术的兴起,为模型更好地理解和适应特定业务场景提供了新方案。文档智能通过自动化提取和分析非结构化文档中的信息,提高工作效率和准确性。RAG结合检索机制和生成模型,利用外部知识库提高生成内容的相关性和准确性。两者的结合进一步增强了AI大模型的业务理解能力,助力企业数字化转型。
37 3
|
15天前
|
人工智能 JSON API
阿里云文档智能 & RAG解决方案:提升AI大模型业务理解与应用
阿里云推出的文档智能 & RAG解决方案,旨在通过先进的文档解析技术和检索增强生成(RAG)方法,显著提升人工智能大模型在业务场景中的应用效果。该方案通过文档智能(Document Mind)技术将非结构化文档内容转换为结构化数据,提取文档的层级树、样式和版面信息,并输出为Markdown和Json格式,为RAG提供语义分块策略。这一过程不仅解决了文档内容解析错误和切块丢失语义信息的问题,还优化了输出LLM友好的Markdown信息。方案的优势在于其多格式支持能力,能够处理包括Office文档、PDF、Html、图片在内的主流文件类型,返回文档的样式、版面信息和层级树结构。
75 2
|
29天前
|
机器学习/深度学习 数据采集 人工智能
文档智能 & RAG 让AI大模型更懂业务 —— 阿里云LLM知识库解决方案评测
随着数字化转型的深入,企业对文档管理和知识提取的需求日益增长。阿里云推出的文档智能 & RAG(Retrieval-Augmented Generation)解决方案,通过高效的内容清洗、向量化处理、精准的问答召回和灵活的Prompt设计,帮助企业构建强大的LLM知识库,显著提升企业级文档管理的效率和准确性。
|
1月前
|
数据采集 人工智能 自然语言处理
文档智能 & RAG让AI大模型更懂业务
《文档智能 & RAG让AI大模型更懂业务》解决方案基于文档智能技术和检索增强生成(RAG)方法,通过结构化企业内部文档并结合实时检索,显著提升了大模型对业务内容的理解能力。方案在金融、法律、医疗等行业的应用表现出色,但在大规模文档管理和个性化定制方面仍有改进空间。部署文档详细但需增加更多排错指导。
|
12天前
|
人工智能 JSON 自然语言处理
基于文档智能&RAG搭建更懂业务的AI大模型
本文介绍了一种结合文档智能和检索增强生成(RAG)技术,构建强大LLM知识库的方法。通过清洗文档内容、向量化处理和特定Prompt,提供足够的上下文信息,实现对企业级文档的智能问答。文档智能(Document Mind)能够高效解析多种文档格式,确保语义的连贯性和准确性。整个部署过程简单快捷,适合处理复杂的企业文档,提升信息提取和利用效率。
|
29天前
|
人工智能 自然语言处理 数据挖掘
文档智能 & RAG让AI大模型更懂业务
《文档智能 & RAG让AI大模型更懂业务》解决方案基于阿里云的文档智能解析与检索增强生成技术,实现非结构化文档向结构化信息的转化,提升AI在特定领域问答的能力。方案提供了详尽的部署指南,包括文档处理、知识库构建等步骤,确保新手也能轻松上手。部署体验良好,未遇重大问题,但建议增加故障排除指南。体验中,LLM知识库展现出高准确率和响应速度,尤其适合处理专业查询。该方案适用于客户服务、知识管理和数据分析等场景,满足生产环境需求,但对于小型企业需考虑成本效益。建议阿里云提供多规模解决方案及定制化选项,以适应不同需求。
71 10
|
24天前
|
数据采集 人工智能 自然语言处理
文档智能 & RAG让AI大模型更懂业务
文档智能 & RAG让AI大模型更懂业务
|
28天前
|
数据采集 人工智能 自然语言处理
文档智能 & RAG让AI大模型更懂业务
报告概述了阿里云在企业文档处理与问答系统中的应用。通过高效的文档清洗、向量化及RAG技术,实现了快速、准确的问答召回,提升了知识库利用率。系统表现出高自动化、灵活性和语义保留能力,但仍需优化冷启动、多语言支持及复杂查询处理等方面。
|
30天前
|
机器学习/深度学习 数据采集 人工智能
文档智能 & RAG让AI大模型更懂业务
本次体验活动聚焦于文档智能与检索增强生成(RAG)技术结合构建的LLM知识库,重点测试了文档内容清洗、向量化、问答召回及Prompt上下文提供等环节。系统在自动化处理、处理效率和准确性方面表现出色,但在特定行业术语识别、自定义向量化选项、复杂问题处理及Prompt模板丰富度等方面仍有提升空间。
53 4
|
2月前
|
存储 算法 API
文档解析(大模型版)能力对比测评
文档解析(大模型版)能力对比测评
207 41