大模型时代来临,智能文档处理该走向何方?(上)

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 大模型时代来临,智能文档处理该走向何方?

正文


自去年ChatGPT发布以来,大语言模型(Large Language Model, LLM)的发展仿佛瞬间驶入了快车道,每天都能听到对相关话题的讨论。

按照现行的标准,能被称为大语言模型至少要满足以下四个条件:


模型:基于自回归语言模型,参数量超过百亿。

能力:具有思维链、情景学习等涌现能力,能够执行人类的指令。

对话:可以直接和人类进行对话。

对齐:符合人类价值观和思维方式,满足“有益(helpful)”、“诚实(honest)”和“无害(harmless)”三个原则。

大语言模型的强大能力归因于巨大的参数量带来的涌现现象。当模型规模较小时,模型的性能和参数大致符合比例定律,即模型的性能提升和参数增长基本呈线性关系。然而,当 GPT-3/ChatGPT 这种千亿级别的大规模模型被提出后,模型的能力会产生质的飞跃(如,可以理解人类指令等)。

1.png

ChatGPT 的成功给人们带来了信心,因此很多科技公司和组织都在加快推出类似的产品。


对话式大语言模型


复旦大学计算机学院邱锡鹏教授在 CSIG 企业行活动分享中分析到,ChatGPT之所以成功,是因为它打通了三项关键技术:


关键技术一:情景学习。所谓情景学习,就是将Prompt作为学习数据,一个Prompt包含任务描述、多个问答示例以及一个问题用例。情景学习主要学习答案的形式,而答案的实际内容主要来源于模型本身。

2.png

关键技术二:思维链。思维链通过构建更复杂数字Prompt来提供思维范式。例如,在解决数学问题时,Prompt应提供具体的分析过程。然而,思维链仅能学习问题分析形式,而无法直接分析出正确答案。因此,思维链通常需要与模型的计算能力相结合。

3.png


关键技术三:指令学习。指令学习旨在使机器理解人类指令。由于人类指令通常含糊不清,现有的语言模型仍无法完美响应人类指令。指令学习面临的最大挑战是泛化性,即模型需要通过学习已知指令来理解之前未见过的指令。但进行指令学习需要大量的人类指令数据。

4.png

这里,我们也不得不提国内已经上线几个大语言模型,虽然它们离ChatGPT还有一定的差距,但随着投资的加大和对技术路线的充沛信心,我相信迎头赶上也只是时间问题。


文心一言

文心一言拥有超过1000亿参数,涵盖了海量中文互联网数据,它专注于中文文本,对中文语境的理解较为深入。

腾讯ERNIE

腾讯AI Lab研发的预训练模型ERNIE,是基于Transformer架构的深度学习模型。ERNIE强调知识增强,通过整合多模态数据和知识图谱等外部知识,提高模型性能。

复旦MOSS

MOSS拥有超过200亿参数,可执行对话生成、编程、事实问答等一系列任务,打通了让生成式语言模型理解人类意图并具有对话能力的全部技术路径。

尽管类似ChatGPT的对话式大语言模型展示了通用人工智能的大框架,具有一定的思考能力,但图灵奖得主、人工智能三巨头之一 Yann LeCun 认为 ChatGPT 还是存在几个缺点,例如无法处理多模态信息、无法与自然场景相连接等等。


大模型时代的图文文档处理


在见识到大语言模型对文本的令人惊叹的处理能力之后,有不少工作将LLM模型扩展到多模态上,文档处理是其中重要的应用领域。


对于一线的研究人员来说,很希望出现一种工具,只需要我们甩一个PDF过去,它自己就能阅读,并且能三言两语用大白话解释清楚我们的疑惑。


NewBing和ChatPDF率先推出了分析PDF文档的功能,能够在几秒钟内解读长达几十页的文档内的文本、图像描述、公式和上下文结构,然后任由我们提问,它会根据文档内容进行回复。GPT-4更是有强大的推理能力,能够一步步推断出问题的正确答案。


5.png


复杂中文文档的结构建模


尽管交互式的大语言模型为文档处理带来了新的曙光,但对文档的复杂结构建模现在仍处于发展阶段。对于一个包含多行、多栏文本、表格、公式、图片、页眉和页脚等的文档,即使是GPT-4也不能在解析文本和识别内容结构方面做到完美。

6.png


这些复杂需求带动了复杂图像文档结构建模领域的研究。在早期的复杂文档研究存在很多缺陷,例如无法处理复杂排版、低分辨率和模糊图像,并且通常只适用于英文文档,对中文文档的泛化能力相对较弱。


对此,中国科学技术大学杜俊副教授提到:对于中文文档的文档结构研究,应该从汉字、图表和篇章结构三个方面逐步完成。


杜俊副教授认为,汉字是一篇中文文档中最基本的构成单位。针对文档中的汉字,一方面需要实现汉字的识别,另一方面需要实现汉字的生成,这是一个联合优化的过程。

7.png

他提出,可以借鉴对公式处理的方式,首先对汉字的部首信息进行分割,并以树形结构进行组织。然后利用识别注意力机制识别汉字结构。在生成过程中,顺序正好相反:先给定汉字的结构,然后通过生成注意力机制来安排部首位置,从而实现汉字的生成。

8.png

在解读汉字的基础之上更进一步,是识别和提取图表信息。具体到表格信息,杜俊副教授提出采用分割、嵌入和融合三大步骤实现更好地信息提取。

所谓分割,就是将表格图像拆分成一系列基础网格,利用行列分隔线的交点绘制表格的基本网格,从而呈现表格的整体框架。

9.png

在完成分割任务之后,需要设计一个视觉模块以提取网格结构特征。同时,还需设计一个文本模块来提取网格中的文本特征。最后,通过一个融合模块将两种模态进行整合嵌入,得到最终的网格表征。

10.png

最后,通过应用Attention机制,逐步预测当前网格与其他网格的归并关系,实现跨行跨列单元的识别和提取。


11.png


以上所述处于处理文档区域单元的阶段,实际上更重要的任务在于如何划分文本、图表、公式、段落、小节等区域。

过去的研究工作主要集中在单页文档内各类要素的检测、分类和关系预测。然而,在现实场景中,一篇文档的上下文元素之间的关系很可能跨越多个页面。


12.png

在处理多页文档时,我们需要识别并分类各个页面中的文档要素。这包括对文字、图片、表格等各类要素的检测和分类。此外,我们还需要重建文档的整体结构。这包括识别跨页的标题、段落和列表等要素之间的关系,以恢复文档的原始逻辑结构。

相关文章
|
4天前
|
人工智能 自然语言处理 机器人
文档智能与RAG技术如何提升AI大模型的业务理解能力
随着人工智能的发展,AI大模型在自然语言处理中的应用日益广泛。文档智能和检索增强生成(RAG)技术的兴起,为模型更好地理解和适应特定业务场景提供了新方案。文档智能通过自动化提取和分析非结构化文档中的信息,提高工作效率和准确性。RAG结合检索机制和生成模型,利用外部知识库提高生成内容的相关性和准确性。两者的结合进一步增强了AI大模型的业务理解能力,助力企业数字化转型。
34 3
|
14天前
|
人工智能 JSON API
阿里云文档智能 & RAG解决方案:提升AI大模型业务理解与应用
阿里云推出的文档智能 & RAG解决方案,旨在通过先进的文档解析技术和检索增强生成(RAG)方法,显著提升人工智能大模型在业务场景中的应用效果。该方案通过文档智能(Document Mind)技术将非结构化文档内容转换为结构化数据,提取文档的层级树、样式和版面信息,并输出为Markdown和Json格式,为RAG提供语义分块策略。这一过程不仅解决了文档内容解析错误和切块丢失语义信息的问题,还优化了输出LLM友好的Markdown信息。方案的优势在于其多格式支持能力,能够处理包括Office文档、PDF、Html、图片在内的主流文件类型,返回文档的样式、版面信息和层级树结构。
71 2
|
28天前
|
机器学习/深度学习 数据采集 人工智能
文档智能 & RAG 让AI大模型更懂业务 —— 阿里云LLM知识库解决方案评测
随着数字化转型的深入,企业对文档管理和知识提取的需求日益增长。阿里云推出的文档智能 & RAG(Retrieval-Augmented Generation)解决方案,通过高效的内容清洗、向量化处理、精准的问答召回和灵活的Prompt设计,帮助企业构建强大的LLM知识库,显著提升企业级文档管理的效率和准确性。
|
1月前
|
数据采集 人工智能 自然语言处理
文档智能 & RAG让AI大模型更懂业务
《文档智能 & RAG让AI大模型更懂业务》解决方案基于文档智能技术和检索增强生成(RAG)方法,通过结构化企业内部文档并结合实时检索,显著提升了大模型对业务内容的理解能力。方案在金融、法律、医疗等行业的应用表现出色,但在大规模文档管理和个性化定制方面仍有改进空间。部署文档详细但需增加更多排错指导。
|
11天前
|
人工智能 JSON 自然语言处理
基于文档智能&RAG搭建更懂业务的AI大模型
本文介绍了一种结合文档智能和检索增强生成(RAG)技术,构建强大LLM知识库的方法。通过清洗文档内容、向量化处理和特定Prompt,提供足够的上下文信息,实现对企业级文档的智能问答。文档智能(Document Mind)能够高效解析多种文档格式,确保语义的连贯性和准确性。整个部署过程简单快捷,适合处理复杂的企业文档,提升信息提取和利用效率。
|
27天前
|
人工智能 自然语言处理 数据挖掘
文档智能 & RAG让AI大模型更懂业务
《文档智能 & RAG让AI大模型更懂业务》解决方案基于阿里云的文档智能解析与检索增强生成技术,实现非结构化文档向结构化信息的转化,提升AI在特定领域问答的能力。方案提供了详尽的部署指南,包括文档处理、知识库构建等步骤,确保新手也能轻松上手。部署体验良好,未遇重大问题,但建议增加故障排除指南。体验中,LLM知识库展现出高准确率和响应速度,尤其适合处理专业查询。该方案适用于客户服务、知识管理和数据分析等场景,满足生产环境需求,但对于小型企业需考虑成本效益。建议阿里云提供多规模解决方案及定制化选项,以适应不同需求。
71 10
|
23天前
|
数据采集 人工智能 自然语言处理
文档智能 & RAG让AI大模型更懂业务
文档智能 & RAG让AI大模型更懂业务
|
27天前
|
数据采集 人工智能 自然语言处理
文档智能 & RAG让AI大模型更懂业务
报告概述了阿里云在企业文档处理与问答系统中的应用。通过高效的文档清洗、向量化及RAG技术,实现了快速、准确的问答召回,提升了知识库利用率。系统表现出高自动化、灵活性和语义保留能力,但仍需优化冷启动、多语言支持及复杂查询处理等方面。
|
28天前
|
机器学习/深度学习 数据采集 人工智能
文档智能 & RAG让AI大模型更懂业务
本次体验活动聚焦于文档智能与检索增强生成(RAG)技术结合构建的LLM知识库,重点测试了文档内容清洗、向量化、问答召回及Prompt上下文提供等环节。系统在自动化处理、处理效率和准确性方面表现出色,但在特定行业术语识别、自定义向量化选项、复杂问题处理及Prompt模板丰富度等方面仍有提升空间。
53 4
|
2月前
|
存储 算法 API
文档解析(大模型版)能力对比测评
文档解析(大模型版)能力对比测评
199 41

热门文章

最新文章