大模型时代来临,智能文档处理该走向何方?(上)

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 大模型时代来临,智能文档处理该走向何方?

正文


自去年ChatGPT发布以来,大语言模型(Large Language Model, LLM)的发展仿佛瞬间驶入了快车道,每天都能听到对相关话题的讨论。

按照现行的标准,能被称为大语言模型至少要满足以下四个条件:


模型:基于自回归语言模型,参数量超过百亿。

能力:具有思维链、情景学习等涌现能力,能够执行人类的指令。

对话:可以直接和人类进行对话。

对齐:符合人类价值观和思维方式,满足“有益(helpful)”、“诚实(honest)”和“无害(harmless)”三个原则。

大语言模型的强大能力归因于巨大的参数量带来的涌现现象。当模型规模较小时,模型的性能和参数大致符合比例定律,即模型的性能提升和参数增长基本呈线性关系。然而,当 GPT-3/ChatGPT 这种千亿级别的大规模模型被提出后,模型的能力会产生质的飞跃(如,可以理解人类指令等)。

1.png

ChatGPT 的成功给人们带来了信心,因此很多科技公司和组织都在加快推出类似的产品。


对话式大语言模型


复旦大学计算机学院邱锡鹏教授在 CSIG 企业行活动分享中分析到,ChatGPT之所以成功,是因为它打通了三项关键技术:


关键技术一:情景学习。所谓情景学习,就是将Prompt作为学习数据,一个Prompt包含任务描述、多个问答示例以及一个问题用例。情景学习主要学习答案的形式,而答案的实际内容主要来源于模型本身。

2.png

关键技术二:思维链。思维链通过构建更复杂数字Prompt来提供思维范式。例如,在解决数学问题时,Prompt应提供具体的分析过程。然而,思维链仅能学习问题分析形式,而无法直接分析出正确答案。因此,思维链通常需要与模型的计算能力相结合。

3.png


关键技术三:指令学习。指令学习旨在使机器理解人类指令。由于人类指令通常含糊不清,现有的语言模型仍无法完美响应人类指令。指令学习面临的最大挑战是泛化性,即模型需要通过学习已知指令来理解之前未见过的指令。但进行指令学习需要大量的人类指令数据。

4.png

这里,我们也不得不提国内已经上线几个大语言模型,虽然它们离ChatGPT还有一定的差距,但随着投资的加大和对技术路线的充沛信心,我相信迎头赶上也只是时间问题。


文心一言

文心一言拥有超过1000亿参数,涵盖了海量中文互联网数据,它专注于中文文本,对中文语境的理解较为深入。

腾讯ERNIE

腾讯AI Lab研发的预训练模型ERNIE,是基于Transformer架构的深度学习模型。ERNIE强调知识增强,通过整合多模态数据和知识图谱等外部知识,提高模型性能。

复旦MOSS

MOSS拥有超过200亿参数,可执行对话生成、编程、事实问答等一系列任务,打通了让生成式语言模型理解人类意图并具有对话能力的全部技术路径。

尽管类似ChatGPT的对话式大语言模型展示了通用人工智能的大框架,具有一定的思考能力,但图灵奖得主、人工智能三巨头之一 Yann LeCun 认为 ChatGPT 还是存在几个缺点,例如无法处理多模态信息、无法与自然场景相连接等等。


大模型时代的图文文档处理


在见识到大语言模型对文本的令人惊叹的处理能力之后,有不少工作将LLM模型扩展到多模态上,文档处理是其中重要的应用领域。


对于一线的研究人员来说,很希望出现一种工具,只需要我们甩一个PDF过去,它自己就能阅读,并且能三言两语用大白话解释清楚我们的疑惑。


NewBing和ChatPDF率先推出了分析PDF文档的功能,能够在几秒钟内解读长达几十页的文档内的文本、图像描述、公式和上下文结构,然后任由我们提问,它会根据文档内容进行回复。GPT-4更是有强大的推理能力,能够一步步推断出问题的正确答案。


5.png


复杂中文文档的结构建模


尽管交互式的大语言模型为文档处理带来了新的曙光,但对文档的复杂结构建模现在仍处于发展阶段。对于一个包含多行、多栏文本、表格、公式、图片、页眉和页脚等的文档,即使是GPT-4也不能在解析文本和识别内容结构方面做到完美。

6.png


这些复杂需求带动了复杂图像文档结构建模领域的研究。在早期的复杂文档研究存在很多缺陷,例如无法处理复杂排版、低分辨率和模糊图像,并且通常只适用于英文文档,对中文文档的泛化能力相对较弱。


对此,中国科学技术大学杜俊副教授提到:对于中文文档的文档结构研究,应该从汉字、图表和篇章结构三个方面逐步完成。


杜俊副教授认为,汉字是一篇中文文档中最基本的构成单位。针对文档中的汉字,一方面需要实现汉字的识别,另一方面需要实现汉字的生成,这是一个联合优化的过程。

7.png

他提出,可以借鉴对公式处理的方式,首先对汉字的部首信息进行分割,并以树形结构进行组织。然后利用识别注意力机制识别汉字结构。在生成过程中,顺序正好相反:先给定汉字的结构,然后通过生成注意力机制来安排部首位置,从而实现汉字的生成。

8.png

在解读汉字的基础之上更进一步,是识别和提取图表信息。具体到表格信息,杜俊副教授提出采用分割、嵌入和融合三大步骤实现更好地信息提取。

所谓分割,就是将表格图像拆分成一系列基础网格,利用行列分隔线的交点绘制表格的基本网格,从而呈现表格的整体框架。

9.png

在完成分割任务之后,需要设计一个视觉模块以提取网格结构特征。同时,还需设计一个文本模块来提取网格中的文本特征。最后,通过一个融合模块将两种模态进行整合嵌入,得到最终的网格表征。

10.png

最后,通过应用Attention机制,逐步预测当前网格与其他网格的归并关系,实现跨行跨列单元的识别和提取。


11.png


以上所述处于处理文档区域单元的阶段,实际上更重要的任务在于如何划分文本、图表、公式、段落、小节等区域。

过去的研究工作主要集中在单页文档内各类要素的检测、分类和关系预测。然而,在现实场景中,一篇文档的上下文元素之间的关系很可能跨越多个页面。


12.png

在处理多页文档时,我们需要识别并分类各个页面中的文档要素。这包括对文字、图片、表格等各类要素的检测和分类。此外,我们还需要重建文档的整体结构。这包括识别跨页的标题、段落和列表等要素之间的关系,以恢复文档的原始逻辑结构。

相关文章
|
3月前
|
人工智能 文字识别 自然语言处理
【2023 CSIG垂直领域大模型】大模型时代,如何完成IDP智能文档处理领域的OCR大一统?
2023年12月28-31日,由中国图象图形学学会主办的第十九届CSIG青年科学家会议在中国广州隆重召开,会议吸引了学术界和企业界专家与青年学者,会议面向国际学术前沿与国家战略需求,聚焦最新前沿技术和热点领域,共同探讨图象图形学领域的前沿问题,分享最新的研究成果和创新观点,在垂直领域大模型专场,合合信息智能技术平台事业部副总经理、高级工程师丁凯博士为我们带来了《文档图像大模型的思考与探索》主题报告。
|
人工智能 文字识别 算法
大模型时代来临,智能文档处理该走向何方?(下)
大模型时代来临,智能文档处理该走向何方?
|
16天前
|
存储 缓存 自然语言处理
LangChain在构建智能文档检索系统中的应用
【8月更文第3天】随着大数据时代的到来,企业和组织积累了大量的文档资料。如何有效地管理和检索这些文档成为了一个重要的问题。传统的关键词搜索虽然简单,但在面对复杂查询和模糊匹配时显得力不从心。LangChain 是一个强大的框架,旨在帮助开发者构建文本生成应用程序,它能够利用最新的自然语言处理技术来理解和响应自然语言查询。本文将探讨如何利用 LangChain 构建一个能够理解和响应自然语言查询的文档检索系统。
27 0
|
3月前
|
机器学习/深度学习 人工智能 文字识别
多模态产品在智能文档处理应用的展望------以TextIn模型为例
**第十四届VALSE大会在重庆举行,合合信息智能创新事业部研发总监常扬分享了“文档解析与向量化技术”,重点介绍TextIn技术。TextIn解决现有文档解析挑战,如表格解析难题,建立包含数据基建、算法、应用和接入四层架构的文档解析Pipeline。关键技术包括版面分析和文档树引擎,能准确识别文档结构和阅读顺序。TextIn在C-MTEB榜单排名第一,显示其在文本向量化领域的优势,适用于长文档处理和多行业应用,有望推动AI技术进步和产业升级。**
80 1
|
11月前
|
机器学习/深度学习 文字识别 自然语言处理
开启智能时代:深度解析智能文档分析技术的前沿与应用
开启智能时代:深度解析智能文档分析技术的前沿与应用
开启智能时代:深度解析智能文档分析技术的前沿与应用
|
7天前
|
机器学习/深度学习 算法 搜索推荐
"震撼揭秘!阿里云AIGC智能图像识别:黑科技如何颠覆你的视界,让图像识别秒变超能力,生活工作全面革新!"
【8月更文挑战第12天】在数字化浪潮中,图像数据激增,高效准确处理成为关键。阿里云智能图像识别服务(AIGC)应运而生,依托深度学习与计算机视觉技术,实现图像特征精确提取与理解。通过大规模数据训练及优化算法,AIGC在图像分类、目标检测等方面表现出色。其应用场景广泛,从电商的商品识别到内容安全审核,再到智能交通和医疗影像分析,均展现出巨大潜力。示例代码展示了AIGC图像生成的基本流程,彰显其技术实力与未来前景。
23 1
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
技术分析:AI大模型战场的分化与赛点分析
技术分析:AI大模型战场的分化与赛点分析
|
3月前
|
数据采集 人工智能 JSON
跨越千年医学对话:用AI技术解锁中医古籍知识,构建能够精准问答的智能语言模型,成就专业级古籍解读助手(LLAMA)
跨越千年医学对话:用AI技术解锁中医古籍知识,构建能够精准问答的智能语言模型,成就专业级古籍解读助手(LLAMA)【2月更文挑战第1天】
 跨越千年医学对话:用AI技术解锁中医古籍知识,构建能够精准问答的智能语言模型,成就专业级古籍解读助手(LLAMA)
|
机器学习/深度学习 人工智能 算法
“柯南领结”变成现实,字节跳动智创语音团队SAMI发布新一代实时AI变声方案
“柯南领结”变成现实,字节跳动智创语音团队SAMI发布新一代实时AI变声方案
296 0
|
机器学习/深度学习 人工智能 自然语言处理
百度大脑十年丰绩大成:6.0全新发布,具备认知能力的终端虚拟人亮相
「智能时代的操作系统」飞桨和自研 AI 处理器百度昆仑都已就位,产业智能化时代正在到来。
143 0
百度大脑十年丰绩大成:6.0全新发布,具备认知能力的终端虚拟人亮相