基于阿里云文档智能和RAG快速构建企业"第二大脑"

本文涉及的产品
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 在数字化转型的背景下,企业面临海量文档管理的挑战。传统的文档管理方式效率低下,难以满足业务需求。阿里云推出的文档智能(Document Mind)与检索增强生成(RAG)技术,通过自动化解析和智能检索,极大地提升了文档管理的效率和信息利用的价值。本文介绍了如何利用阿里云的解决方案,快速构建企业专属的“第二大脑”,助力企业在竞争中占据优势。

引言

在数字化转型的大背景下,企业面对着前所未有的数据洪流,其中文档资料占据了相当大的比重。然而,传统的文档管理方式往往存在诸多不足之处:手动分类耗时耗力,查找信息效率低下,难以跨文档进行关联分析等问题日益凸显。随着业务的快速发展,企业迫切需要一种高效的手段来管理这些文档,并从中提炼出有价值的信息。正是在这种背景下,文档智能与检索增强生成(RAG)技术应运而生。

文档智能(Document Mind)作为一种先进的文档处理技术,能够自动解析并结构化各种类型的文档内容,而RAG则通过结合文档智能解析的结果,利用检索增强的方式,在回答问题时提供更加精准、上下文相关的答案。这两者的结合,不仅极大地提升了文档管理的效率,还为企业构建了一个智能的知识库,使得信息检索和利用变得更加便捷和智能化。

本文将探讨如何借助阿里云提供的文档智能和RAG解决方案,快速构建起企业专属的“第二大脑”,从而在激烈的市场竞争中抢占优势。

方案地址如下:

文档智能&RAG,让你的AI大模型开启“外挂”之旅

阿里云文档智能

文档智能(Document Mind),基于阿里巴巴达摩院多年技术积累打造的多模态文档识别与理解引擎,为用户提供通用文档智能和文档自学习能力,可满足各种场景下的智能文档处理需求,为大模型数据训练、RAG、知识库问答提供高精度的文档解析能力。

该平台深度融合文字识别、自然语言处理、图像处理、电子文档解析、文档预训练模型等多项技术,对非结构化和半结构化文档进行智能自动化处理,输出处理后的结构化数据,从而简化业务操作流程、提升文档处理效率,帮助企业更准确地进行大模型应用的场景建设。主要能力包括:

  • 结构化解析文档,提取文档中的层级树、版面、表格和字段等元素。

  • 进行文档格式转换,如PDF转Word或Excel、图片转Word或Excel等。

  • 借助自学习工具,自行定义所需抽取的文档信息并训练文档处理模型。

image.png

在上述产品地址界面中,我们可以进行在线体验:

image.png

此处我以某博士论文为例,采用文档解析(大模型版)来进行解析提取测试:

image.png

可以看到,几乎不到10秒钟便完成了对一篇12页论文的解构,速度可谓是极快了。

而后大家也可以尝试其他的诸如PDF转Word、图片转Word、PDF转Excel等,当转换完成后,我们可以进入到控制台面板中:

image.png

上面四个功能主要偏向于管理和服务,包括总览、监控统计、服务管理和开通以及能力广场,在此不多赘述。

image.png

而下面的通用文档智能处,则是文档智能的实际使用位置(刚才界面是在线体验,此处是实际功能):

image.png

点击下方的上传文档按钮,上传对应格式且符合要求的文件,即可进行在线解析或者格式转换:

image.png

不过有时候,使用者的选择困难症又犯了,这些功能能力有重合,哪一个更加合适呢?

image.png

别担心,这里周周先整理一个功能详情说明,介绍一下每个能力的特点:

image.png

通过上面我们可以发现,有点模糊不清的实际上是前三个:文档解析大模型版、电子文档解析、文档智能解析,具体见下表:

image.png

所以:

  • 如果您需要处理多种文件格式,尤其是图像文件和扫描PDF,并且需要详细的版面信息和高质量的解析结果,推荐使用“文档解析(大模型版)”。

  • 如果您主要处理电子文档,并且需要快速处理大量文件,推荐使用“电子文档解析”。

  • 如果您需要对文档进行深入分析,提取特定的信息,并且对解析结果的准确性有高要求,推荐使用“文档智能解析”。

除这一部分外,文档智能还有一个模块就是OCR文档自学习。

OCR文档自学习,是面向“无算法基础”的企业与个人开发者用户,通过全流程可视化操作,支持用户完成模板配置、数据处理&标注、模型构建&训练、部署发布等操作的一站式工具平台。该平台采用少样本训练、智能预标注,视觉-语义联合学习等前沿AI技术,支持客户低成本实现个性化场景的文档数字化和信息化业务。

该平台目前支持模板和模型两大类任务的自主训练。用户可以通过配置模板或少量标注数据,训练出更满足业务场景需求的AI智能模型。

模板:

  • 自定义KV模板:配置一张模板图片,包括字段信息和规则,无需额外标注其他图片,也无需等待训练,即可完成固定版式票证的自定义字段抽取。

  • 自定义表格模板:配置一张模板表格图片,包括字段信息和规则,无需额外标注其他图片,也无需等待训练,完成固定版式且有框线的单页表格自定义单元格抽取。

模型:

  • 单据票证信息抽取:数据驱动,通过小样本数据标注、训练,实现对版式相对固定的单据、证件、凭证的关键字段进行信息抽取。

  • 表格信息抽取:数据驱动,通过小样本数据标注、训练,实现对版式相对固定的表格、表单的关键字段进行信息抽取。

  • 长文档信息抽取:数据驱动,通过小样本数据标注、训练,实现对多版式、非结构化的长文档关键信息进行抽取。

工具箱:

  • 分类器管理:通过添加关键词、分类数据实现将不同的模板通过一个分类器关联,以实现同一接口接收多类型样本数据实现对应能力的分流与信息抽取。

  • 字段类型管理:支持对字段类型配置,主要针对业务/行业通用属性的字段,用于字段纠错以提升识别准确率或作归一化处理。

下面我们进入到OCR文档自学习中,去详细看看OCR的基本能力

进入到控制台界面,点击应用列表➡开通服务➡创建应用:

image.png

此时可以看到免费额度为500,继续点击创建应用:

image.png

选择应用类型、应用名称、行业类型,点击确认:

image.png

点击开始创建模板:

image.png

可以看到如下界面,我们点击上传一张发票照片:

image.png

点击下一步,开始框选参照字段:

image.png

配置相关的识别字段:

image.png

点击模板测试,经测试后发布即可:

image.png
image.png

此时再点到在线使用,选择刚才创建的模板,上传最新的文件即可:

image.png

从上面可以看出,文档智能确实是一款功能强大、高效精准的文档处理工具,特别适合需要处理多种文件格式、进行深度文档分析和自定义模型训练的用户。无论是企业还是个人开发者,都可以通过文档智能提升文档处理的效率和质量,实现业务流程的智能化和自动化。

RAG

RAG(Retrieval-Augmented Generation)是一种结合了检索系统和生成模型的方法,用于增强自然语言处理任务中的信息检索和文本生成能力。在传统的文本生成模型中,如基于Transformer的模型(例如GPT系列或BERT),模型通常是端到端训练的,它从大量的文本数据中学习语言模式,并能够根据给定的上下文生成连贯的文本。然而,这些模型的一个局限性是它们的“知识”截止于训练数据的时间点,并且它们在推理过程中无法访问外部信息源。

RAG模型通过引入一个检索组件来解决这个问题,这个组件能够在生成文本时动态地查询外部的知识库或文档集合。具体来说,当给定一个输入查询或问题时,RAG模型首先使用检索组件从大型文档集合中找出最相关的几个文档片段。然后,这些文档片段与原始输入一起被送入生成模型,以生成最终的回答或输出。这种方法使得模型能够在生成回答时利用最新的、甚至是实时的信息,从而提高了生成内容的相关性和准确性。

RAG的工作流程大致可以分为三个主要步骤:检索、增强和生成。

  • 检索(Retrieval):当模型接收到一个查询(例如,一个问题)时,它首先使用检索组件查询一个预先建立的大型文档数据库,以找到与查询相关的信息。这一过程通常涉及到将查询文本转换为向量表示,然后在向量数据库中进行相似度搜索,以找到最相关的文档片段。

  • 增强(Augmentation):检索到的相关文档片段会被整合到生成模型的输入中,作为额外的上下文信息。这样做的目的是为了让生成模型在生成答案时能够参考这些额外的信息,从而提高生成内容的相关性和准确性。

  • 生成(Generation):最后,生成模型根据整合后的输入生成最终的回答或输出。这一阶段不仅依赖于模型自身的语言生成能力,也依赖于检索到的外部知识的支持。

RAG技术在多种自然语言处理任务中展现了其独特的优势,尤其是在需要广泛背景知识的任务中。常见的应用场景包括:

  • 问答系统(QA Systems):RAG可以用于构建强大的问答系统,能够回答用户提出的各种问题。它能够通过检索大规模文档集合来提供准确的答案,无需针对每个问题进行特定训练。

  • 文档生成和自动摘要(Document Generation and Automatic Summarization):RAG可用于自动生成文章段落、文档或自动摘要,基于检索的知识来填充文本,使得生成的内容更具信息价值。

  • 智能助手和虚拟代理(Intelligent Assistants and Virtual Agents):RAG可以用于构建智能助手或虚拟代理,结合聊天记录回答用户的问题、提供信息和执行任务,无需进行特定任务微调。

这里主要就是利用文档智能和检索增强生成(RAG)结合起来构建强大的LLM知识库,包括清洗文档内容、文档内容向量化、问答内容召回后通过特定的Prompt,提供给LLM足够的上下文信息,以此来满足对于企业级文档类型知识库的问答处理。

基于阿里云文档智能和RAG快速构建企业"第二大脑"

方案原理

通过文档智能(Document Mind)将文档解析为结构化数据,结合语义理解,提取出文档层级树、样式信息以及版面信息,下游将解析的结果数据处理成文档切片,生成切块(Chunk)数据。

image.png

架构与部署

image.png

用户首先将文档上传至系统,然后文档在云服务器ECS上进行解析,会调用文档智能模块,经过下载、预处理后,进行OCR文字识别、版面分析和表格结构识别等一系列操作,生成DocJson文件会直接进入到百炼平台成为知识库一部分,再经过文档切片和知识索引等,最终实现RAG(检索增强生成)。

一键部署

点击立即部署

image.png

选择立即部署

image.png

填写名称、选择可用区、ECS实例规格、设置实例密码以及模型应用的密码

image.png

进入到百炼平台中,点击个人头像,获取自己的API-Key

image.png

复制粘贴到此处,点击下一步

image.png

确认配置后,点击创建即可

image.png

创建完成后会显示如下:

image.png

点击输出,访问该IP:

image.png

点击上传文件

image.png

回到百炼平台中,可以看到正在解析导入的文件

image.png

导入成功后,我们回到刚才界面,点击问答服务,输入知识库名称即可在线问答:

image.png

总结

可能因为我个人比较熟悉百炼和阿里其他产品的缘故,完成的过程很顺畅,但是对于小白的话可能有几个位置不那么友好。

第一:哪里去找百炼的API-Key?因为创建时是必须根据key对接到百炼来进行RAG的,假如没使用过百炼或者对百炼不熟悉,就没有办法继续下去了。

image.png

第二:解析时的加载界面设计不友好。在解析时,如果点到文档问答后,再返回会发现解析的状态消失了,此时无法确定到底有没有完成,需要进入到百炼中去查看才可。

image.png

除去这些外,其他的体验还是不错的,对界面UI稍加设计就会是一个比较好的知识问答系统了

还有一种方式就是,先进入百炼平台中训练自己的企业模型,

image.png

之后再结合RAG调用自己训练好的企业模型,食用效果更佳!

相关文章
|
2月前
|
人工智能 自然语言处理 机器人
文档智能与RAG技术如何提升AI大模型的业务理解能力
随着人工智能的发展,AI大模型在自然语言处理中的应用日益广泛。文档智能和检索增强生成(RAG)技术的兴起,为模型更好地理解和适应特定业务场景提供了新方案。文档智能通过自动化提取和分析非结构化文档中的信息,提高工作效率和准确性。RAG结合检索机制和生成模型,利用外部知识库提高生成内容的相关性和准确性。两者的结合进一步增强了AI大模型的业务理解能力,助力企业数字化转型。
120 3
|
22天前
|
人工智能 安全 数据安全/隐私保护
文档智能 & RAG让AI大模型更懂业务测评
文档智能 & RAG让AI大模型更懂业务
147 74
|
29天前
|
人工智能
解决方案 | 文档智能 & RAG让AI大模型更懂业务获奖名单公布!
解决方案 | 文档智能 & RAG让AI大模型更懂业务获奖名单公布!
|
2月前
|
机器学习/深度学习 存储 自然语言处理
方案测评|巧用文档智能和RAG构建大语言模型知识库
本文介绍了一款基于文档智能和大语言模型(LLM)的文档解析及问答应用,旨在提升企业文档管理和信息检索效率。系统通过文档解析、知识库构建和问答服务三大模块,实现了从文档上传到智能问答的全流程自动化。
|
2月前
|
人工智能 JSON 自然语言处理
基于文档智能&RAG搭建更懂业务的AI大模型
本文介绍了一种结合文档智能和检索增强生成(RAG)技术,构建强大LLM知识库的方法。通过清洗文档内容、向量化处理和特定Prompt,提供足够的上下文信息,实现对企业级文档的智能问答。文档智能(Document Mind)能够高效解析多种文档格式,确保语义的连贯性和准确性。整个部署过程简单快捷,适合处理复杂的企业文档,提升信息提取和利用效率。
|
2月前
|
人工智能 JSON API
阿里云文档智能 & RAG解决方案:提升AI大模型业务理解与应用
阿里云推出的文档智能 & RAG解决方案,旨在通过先进的文档解析技术和检索增强生成(RAG)方法,显著提升人工智能大模型在业务场景中的应用效果。该方案通过文档智能(Document Mind)技术将非结构化文档内容转换为结构化数据,提取文档的层级树、样式和版面信息,并输出为Markdown和Json格式,为RAG提供语义分块策略。这一过程不仅解决了文档内容解析错误和切块丢失语义信息的问题,还优化了输出LLM友好的Markdown信息。方案的优势在于其多格式支持能力,能够处理包括Office文档、PDF、Html、图片在内的主流文件类型,返回文档的样式、版面信息和层级树结构。
140 2
|
3月前
|
机器学习/深度学习 数据采集 人工智能
文档智能 & RAG 让AI大模型更懂业务 —— 阿里云LLM知识库解决方案评测
随着数字化转型的深入,企业对文档管理和知识提取的需求日益增长。阿里云推出的文档智能 & RAG(Retrieval-Augmented Generation)解决方案,通过高效的内容清洗、向量化处理、精准的问答召回和灵活的Prompt设计,帮助企业构建强大的LLM知识库,显著提升企业级文档管理的效率和准确性。
|
3月前
|
数据采集 人工智能 自然语言处理
文档智能 & RAG让AI大模型更懂业务
《文档智能 & RAG让AI大模型更懂业务》解决方案基于文档智能技术和检索增强生成(RAG)方法,通过结构化企业内部文档并结合实时检索,显著提升了大模型对业务内容的理解能力。方案在金融、法律、医疗等行业的应用表现出色,但在大规模文档管理和个性化定制方面仍有改进空间。部署文档详细但需增加更多排错指导。
|
3月前
|
人工智能 自然语言处理 数据挖掘
文档智能 & RAG让AI大模型更懂业务
《文档智能 & RAG让AI大模型更懂业务》解决方案基于阿里云的文档智能解析与检索增强生成技术,实现非结构化文档向结构化信息的转化,提升AI在特定领域问答的能力。方案提供了详尽的部署指南,包括文档处理、知识库构建等步骤,确保新手也能轻松上手。部署体验良好,未遇重大问题,但建议增加故障排除指南。体验中,LLM知识库展现出高准确率和响应速度,尤其适合处理专业查询。该方案适用于客户服务、知识管理和数据分析等场景,满足生产环境需求,但对于小型企业需考虑成本效益。建议阿里云提供多规模解决方案及定制化选项,以适应不同需求。
89 10
|
3月前
|
数据采集 人工智能 自然语言处理
文档智能 & RAG让AI大模型更懂业务
文档智能 & RAG让AI大模型更懂业务

热门文章

最新文章