大模型时代来临,智能文档处理该走向何方?(上)

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 大模型时代来临,智能文档处理该走向何方?

正文


自去年ChatGPT发布以来,大语言模型(Large Language Model, LLM)的发展仿佛瞬间驶入了快车道,每天都能听到对相关话题的讨论。

按照现行的标准,能被称为大语言模型至少要满足以下四个条件:


模型:基于自回归语言模型,参数量超过百亿。

能力:具有思维链、情景学习等涌现能力,能够执行人类的指令。

对话:可以直接和人类进行对话。

对齐:符合人类价值观和思维方式,满足“有益(helpful)”、“诚实(honest)”和“无害(harmless)”三个原则。

大语言模型的强大能力归因于巨大的参数量带来的涌现现象。当模型规模较小时,模型的性能和参数大致符合比例定律,即模型的性能提升和参数增长基本呈线性关系。然而,当 GPT-3/ChatGPT 这种千亿级别的大规模模型被提出后,模型的能力会产生质的飞跃(如,可以理解人类指令等)。

1.png

ChatGPT 的成功给人们带来了信心,因此很多科技公司和组织都在加快推出类似的产品。


对话式大语言模型


复旦大学计算机学院邱锡鹏教授在 CSIG 企业行活动分享中分析到,ChatGPT之所以成功,是因为它打通了三项关键技术:


关键技术一:情景学习。所谓情景学习,就是将Prompt作为学习数据,一个Prompt包含任务描述、多个问答示例以及一个问题用例。情景学习主要学习答案的形式,而答案的实际内容主要来源于模型本身。

2.png

关键技术二:思维链。思维链通过构建更复杂数字Prompt来提供思维范式。例如,在解决数学问题时,Prompt应提供具体的分析过程。然而,思维链仅能学习问题分析形式,而无法直接分析出正确答案。因此,思维链通常需要与模型的计算能力相结合。

3.png


关键技术三:指令学习。指令学习旨在使机器理解人类指令。由于人类指令通常含糊不清,现有的语言模型仍无法完美响应人类指令。指令学习面临的最大挑战是泛化性,即模型需要通过学习已知指令来理解之前未见过的指令。但进行指令学习需要大量的人类指令数据。

4.png

这里,我们也不得不提国内已经上线几个大语言模型,虽然它们离ChatGPT还有一定的差距,但随着投资的加大和对技术路线的充沛信心,我相信迎头赶上也只是时间问题。


文心一言

文心一言拥有超过1000亿参数,涵盖了海量中文互联网数据,它专注于中文文本,对中文语境的理解较为深入。

腾讯ERNIE

腾讯AI Lab研发的预训练模型ERNIE,是基于Transformer架构的深度学习模型。ERNIE强调知识增强,通过整合多模态数据和知识图谱等外部知识,提高模型性能。

复旦MOSS

MOSS拥有超过200亿参数,可执行对话生成、编程、事实问答等一系列任务,打通了让生成式语言模型理解人类意图并具有对话能力的全部技术路径。

尽管类似ChatGPT的对话式大语言模型展示了通用人工智能的大框架,具有一定的思考能力,但图灵奖得主、人工智能三巨头之一 Yann LeCun 认为 ChatGPT 还是存在几个缺点,例如无法处理多模态信息、无法与自然场景相连接等等。


大模型时代的图文文档处理


在见识到大语言模型对文本的令人惊叹的处理能力之后,有不少工作将LLM模型扩展到多模态上,文档处理是其中重要的应用领域。


对于一线的研究人员来说,很希望出现一种工具,只需要我们甩一个PDF过去,它自己就能阅读,并且能三言两语用大白话解释清楚我们的疑惑。


NewBing和ChatPDF率先推出了分析PDF文档的功能,能够在几秒钟内解读长达几十页的文档内的文本、图像描述、公式和上下文结构,然后任由我们提问,它会根据文档内容进行回复。GPT-4更是有强大的推理能力,能够一步步推断出问题的正确答案。


5.png


复杂中文文档的结构建模


尽管交互式的大语言模型为文档处理带来了新的曙光,但对文档的复杂结构建模现在仍处于发展阶段。对于一个包含多行、多栏文本、表格、公式、图片、页眉和页脚等的文档,即使是GPT-4也不能在解析文本和识别内容结构方面做到完美。

6.png


这些复杂需求带动了复杂图像文档结构建模领域的研究。在早期的复杂文档研究存在很多缺陷,例如无法处理复杂排版、低分辨率和模糊图像,并且通常只适用于英文文档,对中文文档的泛化能力相对较弱。


对此,中国科学技术大学杜俊副教授提到:对于中文文档的文档结构研究,应该从汉字、图表和篇章结构三个方面逐步完成。


杜俊副教授认为,汉字是一篇中文文档中最基本的构成单位。针对文档中的汉字,一方面需要实现汉字的识别,另一方面需要实现汉字的生成,这是一个联合优化的过程。

7.png

他提出,可以借鉴对公式处理的方式,首先对汉字的部首信息进行分割,并以树形结构进行组织。然后利用识别注意力机制识别汉字结构。在生成过程中,顺序正好相反:先给定汉字的结构,然后通过生成注意力机制来安排部首位置,从而实现汉字的生成。

8.png

在解读汉字的基础之上更进一步,是识别和提取图表信息。具体到表格信息,杜俊副教授提出采用分割、嵌入和融合三大步骤实现更好地信息提取。

所谓分割,就是将表格图像拆分成一系列基础网格,利用行列分隔线的交点绘制表格的基本网格,从而呈现表格的整体框架。

9.png

在完成分割任务之后,需要设计一个视觉模块以提取网格结构特征。同时,还需设计一个文本模块来提取网格中的文本特征。最后,通过一个融合模块将两种模态进行整合嵌入,得到最终的网格表征。

10.png

最后,通过应用Attention机制,逐步预测当前网格与其他网格的归并关系,实现跨行跨列单元的识别和提取。


11.png


以上所述处于处理文档区域单元的阶段,实际上更重要的任务在于如何划分文本、图表、公式、段落、小节等区域。

过去的研究工作主要集中在单页文档内各类要素的检测、分类和关系预测。然而,在现实场景中,一篇文档的上下文元素之间的关系很可能跨越多个页面。


12.png

在处理多页文档时,我们需要识别并分类各个页面中的文档要素。这包括对文字、图片、表格等各类要素的检测和分类。此外,我们还需要重建文档的整体结构。这包括识别跨页的标题、段落和列表等要素之间的关系,以恢复文档的原始逻辑结构。

相关文章
|
4月前
|
人工智能 文字识别 自然语言处理
【2023 CSIG垂直领域大模型】大模型时代,如何完成IDP智能文档处理领域的OCR大一统?
2023年12月28-31日,由中国图象图形学学会主办的第十九届CSIG青年科学家会议在中国广州隆重召开,会议吸引了学术界和企业界专家与青年学者,会议面向国际学术前沿与国家战略需求,聚焦最新前沿技术和热点领域,共同探讨图象图形学领域的前沿问题,分享最新的研究成果和创新观点,在垂直领域大模型专场,合合信息智能技术平台事业部副总经理、高级工程师丁凯博士为我们带来了《文档图像大模型的思考与探索》主题报告。
|
12月前
|
人工智能 文字识别 算法
大模型时代来临,智能文档处理该走向何方?(下)
大模型时代来临,智能文档处理该走向何方?
|
3月前
|
数据采集 人工智能 JSON
跨越千年医学对话:用AI技术解锁中医古籍知识,构建能够精准问答的智能语言模型,成就专业级古籍解读助手(LLAMA)
跨越千年医学对话:用AI技术解锁中医古籍知识,构建能够精准问答的智能语言模型,成就专业级古籍解读助手(LLAMA)【2月更文挑战第1天】
 跨越千年医学对话:用AI技术解锁中医古籍知识,构建能够精准问答的智能语言模型,成就专业级古籍解读助手(LLAMA)
|
12月前
|
人工智能 算法 安全
【年终特辑】看见科技创新力量 洞见时代创业精神—智能制造—工源三仟:AI+X-Ray技术方案解决产品内部缺陷检测难题
【年终特辑】看见科技创新力量 洞见时代创业精神—智能制造—工源三仟:AI+X-Ray技术方案解决产品内部缺陷检测难题
117 0
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
清华大学周伯文:ChatGPT火爆揭示新一代协同与交互智能的高度重要性
清华大学周伯文:ChatGPT火爆揭示新一代协同与交互智能的高度重要性
116 0
|
12月前
|
机器学习/深度学习 人工智能 算法
忆海原识发布类脑计算平台,下一代AI突破口到来!(2)
忆海原识发布类脑计算平台,下一代AI突破口到来!
110 0
|
12月前
|
机器学习/深度学习 人工智能 编解码
忆海原识发布类脑计算平台,下一代AI突破口到来!(1)
忆海原识发布类脑计算平台,下一代AI突破口到来!
118 0
|
12月前
|
机器学习/深度学习 人工智能 算法
“柯南领结”变成现实,字节跳动智创语音团队SAMI发布新一代实时AI变声方案
“柯南领结”变成现实,字节跳动智创语音团队SAMI发布新一代实时AI变声方案
262 0
|
机器学习/深度学习 人工智能 自动驾驶
忆海原识发布类脑计算平台,下一代AI突破口到来!
近日,在 2022 WAIC AI 开发者日上,忆海原识创始人兼 CEO 任化龙发表主题演讲《类脑计算的发展与关键技术》。演讲中,他夯实细致地介绍了类脑智能的特点以及与传统技术的对比,以及忆海原识自主研发的 Ocean 类脑计算平台。
390 0
忆海原识发布类脑计算平台,下一代AI突破口到来!
|
人工智能 搜索推荐 数据库管理
小冰人工智能自动剪辑导演能力的首次应用落地,赋能华人运通高合汽车HiPhiGo
小冰人工智能自动剪辑导演能力的首次应用落地,赋能华人运通高合汽车HiPhiGo
小冰人工智能自动剪辑导演能力的首次应用落地,赋能华人运通高合汽车HiPhiGo