基于文档智能&RAG搭建更懂业务的AI大模型

本文涉及的产品
资源编排,不限时长
简介: 本文介绍了一种结合文档智能和检索增强生成(RAG)技术,构建强大LLM知识库的方法。通过清洗文档内容、向量化处理和特定Prompt,提供足够的上下文信息,实现对企业级文档的智能问答。文档智能(Document Mind)能够高效解析多种文档格式,确保语义的连贯性和准确性。整个部署过程简单快捷,适合处理复杂的企业文档,提升信息提取和利用效率。

业务背景

本文主要是讲述基于文档智能和检索增强生成(RAG)结合起来构建强大的LLM知识库,包括清洗文档内容、文档内容向量化、问答内容召回后通过特定的Prompt,提供给LLM足够的上下文信息,以此来满足对于企业级文档类型知识库的问答处理。

简单的理解一句话就是让你的AI大模型更懂你的业务。下面我们在搭建操作之前先来了解当前方案的实践原理。

实践原理

整体来说就是当前方案结合文档智能(Document Mind)将文档解析为结构化数据,结合语义理解,提取出文档层级树、样式信息以及版面信息,下游将解析的结果数据处理成文档切片,生成切块(Chunk)数据,从而为RAG输入高精准度、高连贯语义的切块(Chunk),保障RAG的方案效果。那么为什么要选择文档智能,而不是其他的呢?比如文字识别OCR等。

是因为文档智能相比于传统文档解析,Document Mind提供含层级的段落信息、表格及表格单元信息、图片信息,并包含丰富的标题、段落、页码、注解等版面类型信息。并且文档智能基于最新自研的技术GeoLayoutLM 来研发层级树模型,可以面向各种长度和类型的文档,高效地提取其内部版面的层级关系,经过文档解析切分的文档内容保证了语义的不丢失,可直接输入至RAG的下游链路。整个方案的原理图如下

部署操作

下面再来讲一下整个基于基于文档智能&RAG搭建更懂业务的AI大模型的部署操作,我们直接来参考部署文档进行操作。整个部署方案操作大约需要30分钟,主要是通过文档智能解析(大模型版)将文件处理为包含多个版面块单元的Json对象,过滤非正文内容后切分成多个切块存入知识库中。当接收到提问时,服务将问题转换为内容向量,在知识库中召回相关信息,并结合问题和召回内容,通过语言模型进行智能问答,提供准确回答。点击【立即部署】进入部署方案操作页

image.png

在正式进行部署方案操作之前,文档先对方案进行了一个详细的介绍,包括方案会经过3个阶段,每个阶段有不同的作用,以及详细方案架构图,介绍说明文字配合架构图,可以让开发者可以快速理解方案,熟悉方案部署的各个阶段,为后续快速部署提供基础储备


了解完基础部署方案机构之后,可以直接进入一键部署部署操作,这里是基于阿里云资源编排服务ROS(Resource Orchestration Service)实现,ROS模板已定义好脚本,可自动化地完成云资源的创建和配置,提高资源的创建和部署效率。对于开发者来说基本不需要什么操作,只需要点击【一键部署】等待资源准备完成以及部署结束就可以完成部署操作,没有任何难度

image.png


部署完成之后在ROS控制台【输出】tab下点击访问域名,输入用户名密码后登录系统上传文档,创建知识库后就可以通过设置知识库并输入针对该知识库的提问,即可获得精准的回答



总的来说,通过该方案,企业用户可以高效地处理各类复杂文档,构建强大的知识库,并通过增强检索生成(RAG)技术实现智能问答服务,显著提升文档处理和信息获取的效率。对于企业存积文档有效信息的提取以及检索回答,都会有很大的帮助。

清理资源

测评建议

关于实践原理的理解

对于实践原理的理解,部署文档中详细介绍了文档智能结合RAG的优势,以及为什么会选择文档智能来保障RAG的方案效果,关于这一块的介绍和说明也比较详细,方便读者的理解。这里个人觉得如果可以加入选择其他文档识别方案结合RAG后的方案效果与当前方案效果对比后,对于实际操作者可能更容易理解为什么会选择文档智能。最好的情况就是可以加入一段效果视频,在视频中充分展示文档智能结合RAG搭建AI大模型的效果以及对比展示其他文档识别结合RAG的效果。

部署过程的文档引导

其实对于整个基于文档智能&RAG搭建更懂业务的AI大模型,部署文档以及部署引导和过去一样,都比较清晰,这次最大的特点就是在部署操作页面通过一键ROS资源配置,大大降低了开发者对于逐个创建资源的步骤耗时,从而降低了部署出错的可能性。文档步骤清晰,引导简单有效,希望后续关于部署操作的场景搭建都可以是尽可能的让开发者或者说让用户少操作,而要将大部分的操作都隐藏在已经创建好的模版或者资源文件中,从而提高开发者搭建资源的效率,降低出错的概率。

本方案的优势

本方案从上到下来说,最大的优势就是操作简单了,功能强大了。反向分析就更能理解当前方案的优势,从目的入手,如果想要搭建强大的LLM知识库,那么你就需要通过特定的Prompt,提供给LLM足够的上下文信息,而如何获取特定的Prompt,关键就是是如何清洗文档内容、文档内容向量化、问答内容等。而文档智能(Document Mind)可以精准识别并解析包括企业日常办公中常见的Office文档(Word/Excel/PPT )、PDF、Html、图片等在内的主流文件类型,返回文档的样式、版面信息和层级树结构,经过文档智能处理后的信息,可以为RAG输入高精准度、高连贯语义的切块(Chunk),保障了整个RAG方案的基础效果。这就是通过文档智能和检索增强生成结合起来构建的LLM知识库的优势。

本方案适用场景

对于企业在发展过程中,会遇到各种各样的文档格式内容,比如PDF格式下,多种合同、试卷、论文、财报、简历、报告场景等,而如何从这些文档内容中快速提炼出有效信息来为企业创造更多价值,那就需要对这种包括表格内容、公式文本、图片内容处理,无关内容的过滤,这就正好符合了本方案的适用场景。对于不同格式的文档输入,将文档智能和检索增强生成(RAG)结合起来构建强大的LLM知识库,通过特定的Prompt,提供给LLM足够的上下文信息,来满足对于企业级文档类型知识库的问答处理,从而提高企业级文档的利用率以及创造出更多价值。

相关实践学习
使用ROS创建VPC和VSwitch
本场景主要介绍如何利用阿里云资源编排服务,定义资源编排模板,实现自动化创建阿里云专有网络和交换机。
阿里云资源编排ROS使用教程
资源编排(Resource Orchestration)是一种简单易用的云计算资源管理和自动化运维服务。用户通过模板描述多个云计算资源的依赖关系、配置等,并自动完成所有资源的创建和配置,以达到自动化部署、运维等目的。编排模板同时也是一种标准化的资源和应用交付方式,并且可以随时编辑修改,使基础设施即代码(Infrastructure as Code)成为可能。 产品详情:https://www.aliyun.com/product/ros/
相关文章
|
5天前
|
人工智能 JSON API
阿里云文档智能 & RAG解决方案:提升AI大模型业务理解与应用
阿里云推出的文档智能 & RAG解决方案,旨在通过先进的文档解析技术和检索增强生成(RAG)方法,显著提升人工智能大模型在业务场景中的应用效果。该方案通过文档智能(Document Mind)技术将非结构化文档内容转换为结构化数据,提取文档的层级树、样式和版面信息,并输出为Markdown和Json格式,为RAG提供语义分块策略。这一过程不仅解决了文档内容解析错误和切块丢失语义信息的问题,还优化了输出LLM友好的Markdown信息。方案的优势在于其多格式支持能力,能够处理包括Office文档、PDF、Html、图片在内的主流文件类型,返回文档的样式、版面信息和层级树结构。
35 2
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
【10月更文挑战第31天】2024年,AI大模型在软件开发领域的应用取得了显著进展,从自动化代码生成、智能代码审查到智能化测试,极大地提升了开发效率和代码质量。然而,技术挑战、伦理与安全问题以及模型可解释性仍是亟待解决的关键问题。开发者需不断学习和适应,以充分利用AI的优势。
|
4天前
|
人工智能
热门 新 1024 云上见 AI大模型助力客户对话分析 2000个智能台灯等你来领
热门 新 1024 云上见 AI大模型助力客户对话分析 2000个智能台灯等你来领
21 3
|
6天前
|
人工智能
热门 新 1024 云上见 AI大模型助力客户对话分析 2000个智能台灯等你来领
热门 新 1024 云上见 AI大模型助力客户对话分析 2000个智能台灯等你来领
23 2
|
4天前
|
机器学习/深度学习 人工智能 算法
AI赋能大学计划·大模型技术与应用实战学生训练营——吉林大学站圆满结营
10月30日,由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·吉林大学站圆满结营。
|
19天前
|
机器学习/深度学习 数据采集 人工智能
文档智能 & RAG 让AI大模型更懂业务 —— 阿里云LLM知识库解决方案评测
随着数字化转型的深入,企业对文档管理和知识提取的需求日益增长。阿里云推出的文档智能 & RAG(Retrieval-Augmented Generation)解决方案,通过高效的内容清洗、向量化处理、精准的问答召回和灵活的Prompt设计,帮助企业构建强大的LLM知识库,显著提升企业级文档管理的效率和准确性。
|
22天前
|
数据采集 人工智能 自然语言处理
文档智能 & RAG让AI大模型更懂业务
《文档智能 & RAG让AI大模型更懂业务》解决方案基于文档智能技术和检索增强生成(RAG)方法,通过结构化企业内部文档并结合实时检索,显著提升了大模型对业务内容的理解能力。方案在金融、法律、医疗等行业的应用表现出色,但在大规模文档管理和个性化定制方面仍有改进空间。部署文档详细但需增加更多排错指导。
|
19天前
|
人工智能 自然语言处理 数据挖掘
文档智能 & RAG让AI大模型更懂业务
《文档智能 & RAG让AI大模型更懂业务》解决方案基于阿里云的文档智能解析与检索增强生成技术,实现非结构化文档向结构化信息的转化,提升AI在特定领域问答的能力。方案提供了详尽的部署指南,包括文档处理、知识库构建等步骤,确保新手也能轻松上手。部署体验良好,未遇重大问题,但建议增加故障排除指南。体验中,LLM知识库展现出高准确率和响应速度,尤其适合处理专业查询。该方案适用于客户服务、知识管理和数据分析等场景,满足生产环境需求,但对于小型企业需考虑成本效益。建议阿里云提供多规模解决方案及定制化选项,以适应不同需求。
67 10
|
14天前
|
数据采集 人工智能 自然语言处理
文档智能 & RAG让AI大模型更懂业务
文档智能 & RAG让AI大模型更懂业务
|
18天前
|
数据采集 人工智能 自然语言处理
文档智能 & RAG让AI大模型更懂业务
报告概述了阿里云在企业文档处理与问答系统中的应用。通过高效的文档清洗、向量化及RAG技术,实现了快速、准确的问答召回,提升了知识库利用率。系统表现出高自动化、灵活性和语义保留能力,但仍需优化冷启动、多语言支持及复杂查询处理等方面。

热门文章

最新文章