引言
在数字化转型的大背景下,企业面对着前所未有的数据洪流,其中文档资料占据了相当大的比重。然而,传统的文档管理方式往往存在诸多不足之处:手动分类耗时耗力,查找信息效率低下,难以跨文档进行关联分析等问题日益凸显。随着业务的快速发展,企业迫切需要一种高效的手段来管理这些文档,并从中提炼出有价值的信息。正是在这种背景下,文档智能与检索增强生成(RAG)技术应运而生。
文档智能(Document Mind)作为一种先进的文档处理技术,能够自动解析并结构化各种类型的文档内容,而RAG则通过结合文档智能解析的结果,利用检索增强的方式,在回答问题时提供更加精准、上下文相关的答案。这两者的结合,不仅极大地提升了文档管理的效率,还为企业构建了一个智能的知识库,使得信息检索和利用变得更加便捷和智能化。
本文将探讨如何借助阿里云提供的文档智能和RAG解决方案,快速构建起企业专属的“第二大脑”,从而在激烈的市场竞争中抢占优势。
方案地址如下:
阿里云文档智能
文档智能(Document Mind),基于阿里巴巴达摩院多年技术积累打造的多模态文档识别与理解引擎,为用户提供通用文档智能和文档自学习能力,可满足各种场景下的智能文档处理需求,为大模型数据训练、RAG、知识库问答提供高精度的文档解析能力。
该平台深度融合文字识别、自然语言处理、图像处理、电子文档解析、文档预训练模型等多项技术,对非结构化和半结构化文档进行智能自动化处理,输出处理后的结构化数据,从而简化业务操作流程、提升文档处理效率,帮助企业更准确地进行大模型应用的场景建设。主要能力包括:
结构化解析文档,提取文档中的层级树、版面、表格和字段等元素。
进行文档格式转换,如PDF转Word或Excel、图片转Word或Excel等。
借助自学习工具,自行定义所需抽取的文档信息并训练文档处理模型。
在上述产品地址界面中,我们可以进行在线体验:
此处我以某博士论文为例,采用文档解析(大模型版)来进行解析提取测试:
可以看到,几乎不到10秒钟便完成了对一篇12页论文的解构,速度可谓是极快了。
而后大家也可以尝试其他的诸如PDF转Word、图片转Word、PDF转Excel等,当转换完成后,我们可以进入到控制台面板中:
上面四个功能主要偏向于管理和服务,包括总览、监控统计、服务管理和开通以及能力广场,在此不多赘述。
而下面的通用文档智能处,则是文档智能的实际使用位置(刚才界面是在线体验,此处是实际功能):
点击下方的上传文档按钮,上传对应格式且符合要求的文件,即可进行在线解析或者格式转换:
不过有时候,使用者的选择困难症又犯了,这些功能能力有重合,哪一个更加合适呢?
别担心,这里周周先整理一个功能详情说明,介绍一下每个能力的特点:
通过上面我们可以发现,有点模糊不清的实际上是前三个:文档解析大模型版、电子文档解析、文档智能解析,具体见下表:
所以:
如果您需要处理多种文件格式,尤其是图像文件和扫描PDF,并且需要详细的版面信息和高质量的解析结果,推荐使用“文档解析(大模型版)”。
如果您主要处理电子文档,并且需要快速处理大量文件,推荐使用“电子文档解析”。
如果您需要对文档进行深入分析,提取特定的信息,并且对解析结果的准确性有高要求,推荐使用“文档智能解析”。
除这一部分外,文档智能还有一个模块就是OCR文档自学习。
OCR文档自学习,是面向“无算法基础”的企业与个人开发者用户,通过全流程可视化操作,支持用户完成模板配置、数据处理&标注、模型构建&训练、部署发布等操作的一站式工具平台。该平台采用少样本训练、智能预标注,视觉-语义联合学习等前沿AI技术,支持客户低成本实现个性化场景的文档数字化和信息化业务。
该平台目前支持模板和模型两大类任务的自主训练。用户可以通过配置模板或少量标注数据,训练出更满足业务场景需求的AI智能模型。
模板:
自定义KV模板:配置一张模板图片,包括字段信息和规则,无需额外标注其他图片,也无需等待训练,即可完成固定版式票证的自定义字段抽取。
自定义表格模板:配置一张模板表格图片,包括字段信息和规则,无需额外标注其他图片,也无需等待训练,完成固定版式且有框线的单页表格自定义单元格抽取。
模型:
单据票证信息抽取:数据驱动,通过小样本数据标注、训练,实现对版式相对固定的单据、证件、凭证的关键字段进行信息抽取。
表格信息抽取:数据驱动,通过小样本数据标注、训练,实现对版式相对固定的表格、表单的关键字段进行信息抽取。
长文档信息抽取:数据驱动,通过小样本数据标注、训练,实现对多版式、非结构化的长文档关键信息进行抽取。
工具箱:
分类器管理:通过添加关键词、分类数据实现将不同的模板通过一个分类器关联,以实现同一接口接收多类型样本数据实现对应能力的分流与信息抽取。
字段类型管理:支持对字段类型配置,主要针对业务/行业通用属性的字段,用于字段纠错以提升识别准确率或作归一化处理。
下面我们进入到OCR文档自学习中,去详细看看OCR的基本能力
进入到控制台界面,点击应用列表➡开通服务➡创建应用:
此时可以看到免费额度为500,继续点击创建应用:
选择应用类型、应用名称、行业类型,点击确认:
点击开始创建模板:
可以看到如下界面,我们点击上传一张发票照片:
点击下一步,开始框选参照字段:
配置相关的识别字段:
点击模板测试,经测试后发布即可:
此时再点到在线使用,选择刚才创建的模板,上传最新的文件即可:
从上面可以看出,文档智能确实是一款功能强大、高效精准的文档处理工具,特别适合需要处理多种文件格式、进行深度文档分析和自定义模型训练的用户。无论是企业还是个人开发者,都可以通过文档智能提升文档处理的效率和质量,实现业务流程的智能化和自动化。
RAG
RAG(Retrieval-Augmented Generation)是一种结合了检索系统和生成模型的方法,用于增强自然语言处理任务中的信息检索和文本生成能力。在传统的文本生成模型中,如基于Transformer的模型(例如GPT系列或BERT),模型通常是端到端训练的,它从大量的文本数据中学习语言模式,并能够根据给定的上下文生成连贯的文本。然而,这些模型的一个局限性是它们的“知识”截止于训练数据的时间点,并且它们在推理过程中无法访问外部信息源。
RAG模型通过引入一个检索组件来解决这个问题,这个组件能够在生成文本时动态地查询外部的知识库或文档集合。具体来说,当给定一个输入查询或问题时,RAG模型首先使用检索组件从大型文档集合中找出最相关的几个文档片段。然后,这些文档片段与原始输入一起被送入生成模型,以生成最终的回答或输出。这种方法使得模型能够在生成回答时利用最新的、甚至是实时的信息,从而提高了生成内容的相关性和准确性。
RAG的工作流程大致可以分为三个主要步骤:检索、增强和生成。
检索(Retrieval):当模型接收到一个查询(例如,一个问题)时,它首先使用检索组件查询一个预先建立的大型文档数据库,以找到与查询相关的信息。这一过程通常涉及到将查询文本转换为向量表示,然后在向量数据库中进行相似度搜索,以找到最相关的文档片段。
增强(Augmentation):检索到的相关文档片段会被整合到生成模型的输入中,作为额外的上下文信息。这样做的目的是为了让生成模型在生成答案时能够参考这些额外的信息,从而提高生成内容的相关性和准确性。
生成(Generation):最后,生成模型根据整合后的输入生成最终的回答或输出。这一阶段不仅依赖于模型自身的语言生成能力,也依赖于检索到的外部知识的支持。
RAG技术在多种自然语言处理任务中展现了其独特的优势,尤其是在需要广泛背景知识的任务中。常见的应用场景包括:
问答系统(QA Systems):RAG可以用于构建强大的问答系统,能够回答用户提出的各种问题。它能够通过检索大规模文档集合来提供准确的答案,无需针对每个问题进行特定训练。
文档生成和自动摘要(Document Generation and Automatic Summarization):RAG可用于自动生成文章段落、文档或自动摘要,基于检索的知识来填充文本,使得生成的内容更具信息价值。
智能助手和虚拟代理(Intelligent Assistants and Virtual Agents):RAG可以用于构建智能助手或虚拟代理,结合聊天记录回答用户的问题、提供信息和执行任务,无需进行特定任务微调。
这里主要就是利用文档智能和检索增强生成(RAG)结合起来构建强大的LLM知识库,包括清洗文档内容、文档内容向量化、问答内容召回后通过特定的Prompt,提供给LLM足够的上下文信息,以此来满足对于企业级文档类型知识库的问答处理。
基于阿里云文档智能和RAG快速构建企业"第二大脑"
方案原理
通过文档智能(Document Mind)将文档解析为结构化数据,结合语义理解,提取出文档层级树、样式信息以及版面信息,下游将解析的结果数据处理成文档切片,生成切块(Chunk)数据。
架构与部署
用户首先将文档上传至系统,然后文档在云服务器ECS上进行解析,会调用文档智能模块,经过下载、预处理后,进行OCR文字识别、版面分析和表格结构识别等一系列操作,生成DocJson文件会直接进入到百炼平台成为知识库一部分,再经过文档切片和知识索引等,最终实现RAG(检索增强生成)。
一键部署
点击立即部署
选择立即部署
填写名称、选择可用区、ECS实例规格、设置实例密码以及模型应用的密码
进入到百炼平台中,点击个人头像,获取自己的API-Key
复制粘贴到此处,点击下一步
确认配置后,点击创建即可
创建完成后会显示如下:
点击输出,访问该IP:
点击上传文件
回到百炼平台中,可以看到正在解析导入的文件
导入成功后,我们回到刚才界面,点击问答服务,输入知识库名称即可在线问答:
总结
可能因为我个人比较熟悉百炼和阿里其他产品的缘故,完成的过程很顺畅,但是对于小白的话可能有几个位置不那么友好。
第一:哪里去找百炼的API-Key?因为创建时是必须根据key对接到百炼来进行RAG的,假如没使用过百炼或者对百炼不熟悉,就没有办法继续下去了。
第二:解析时的加载界面设计不友好。在解析时,如果点到文档问答后,再返回会发现解析的状态消失了,此时无法确定到底有没有完成,需要进入到百炼中去查看才可。
除去这些外,其他的体验还是不错的,对界面UI稍加设计就会是一个比较好的知识问答系统了
还有一种方式就是,先进入百炼平台中训练自己的企业模型,
之后再结合RAG调用自己训练好的企业模型,食用效果更佳!