基于文档智能&RAG搭建更懂业务的AI大模型

本文涉及的产品
资源编排,不限时长
简介: 本文介绍了一种结合文档智能和检索增强生成(RAG)技术,构建强大LLM知识库的方法。通过清洗文档内容、向量化处理和特定Prompt,提供足够的上下文信息,实现对企业级文档的智能问答。文档智能(Document Mind)能够高效解析多种文档格式,确保语义的连贯性和准确性。整个部署过程简单快捷,适合处理复杂的企业文档,提升信息提取和利用效率。

业务背景

本文主要是讲述基于文档智能和检索增强生成(RAG)结合起来构建强大的LLM知识库,包括清洗文档内容、文档内容向量化、问答内容召回后通过特定的Prompt,提供给LLM足够的上下文信息,以此来满足对于企业级文档类型知识库的问答处理。

简单的理解一句话就是让你的AI大模型更懂你的业务。下面我们在搭建操作之前先来了解当前方案的实践原理。

实践原理

整体来说就是当前方案结合文档智能(Document Mind)将文档解析为结构化数据,结合语义理解,提取出文档层级树、样式信息以及版面信息,下游将解析的结果数据处理成文档切片,生成切块(Chunk)数据,从而为RAG输入高精准度、高连贯语义的切块(Chunk),保障RAG的方案效果。那么为什么要选择文档智能,而不是其他的呢?比如文字识别OCR等。

是因为文档智能相比于传统文档解析,Document Mind提供含层级的段落信息、表格及表格单元信息、图片信息,并包含丰富的标题、段落、页码、注解等版面类型信息。并且文档智能基于最新自研的技术GeoLayoutLM 来研发层级树模型,可以面向各种长度和类型的文档,高效地提取其内部版面的层级关系,经过文档解析切分的文档内容保证了语义的不丢失,可直接输入至RAG的下游链路。整个方案的原理图如下

部署操作

下面再来讲一下整个基于基于文档智能&RAG搭建更懂业务的AI大模型的部署操作,我们直接来参考部署文档进行操作。整个部署方案操作大约需要30分钟,主要是通过文档智能解析(大模型版)将文件处理为包含多个版面块单元的Json对象,过滤非正文内容后切分成多个切块存入知识库中。当接收到提问时,服务将问题转换为内容向量,在知识库中召回相关信息,并结合问题和召回内容,通过语言模型进行智能问答,提供准确回答。点击【立即部署】进入部署方案操作页

image.png

在正式进行部署方案操作之前,文档先对方案进行了一个详细的介绍,包括方案会经过3个阶段,每个阶段有不同的作用,以及详细方案架构图,介绍说明文字配合架构图,可以让开发者可以快速理解方案,熟悉方案部署的各个阶段,为后续快速部署提供基础储备


了解完基础部署方案机构之后,可以直接进入一键部署部署操作,这里是基于阿里云资源编排服务ROS(Resource Orchestration Service)实现,ROS模板已定义好脚本,可自动化地完成云资源的创建和配置,提高资源的创建和部署效率。对于开发者来说基本不需要什么操作,只需要点击【一键部署】等待资源准备完成以及部署结束就可以完成部署操作,没有任何难度

image.png


部署完成之后在ROS控制台【输出】tab下点击访问域名,输入用户名密码后登录系统上传文档,创建知识库后就可以通过设置知识库并输入针对该知识库的提问,即可获得精准的回答



总的来说,通过该方案,企业用户可以高效地处理各类复杂文档,构建强大的知识库,并通过增强检索生成(RAG)技术实现智能问答服务,显著提升文档处理和信息获取的效率。对于企业存积文档有效信息的提取以及检索回答,都会有很大的帮助。

清理资源

测评建议

关于实践原理的理解

对于实践原理的理解,部署文档中详细介绍了文档智能结合RAG的优势,以及为什么会选择文档智能来保障RAG的方案效果,关于这一块的介绍和说明也比较详细,方便读者的理解。这里个人觉得如果可以加入选择其他文档识别方案结合RAG后的方案效果与当前方案效果对比后,对于实际操作者可能更容易理解为什么会选择文档智能。最好的情况就是可以加入一段效果视频,在视频中充分展示文档智能结合RAG搭建AI大模型的效果以及对比展示其他文档识别结合RAG的效果。

部署过程的文档引导

其实对于整个基于文档智能&RAG搭建更懂业务的AI大模型,部署文档以及部署引导和过去一样,都比较清晰,这次最大的特点就是在部署操作页面通过一键ROS资源配置,大大降低了开发者对于逐个创建资源的步骤耗时,从而降低了部署出错的可能性。文档步骤清晰,引导简单有效,希望后续关于部署操作的场景搭建都可以是尽可能的让开发者或者说让用户少操作,而要将大部分的操作都隐藏在已经创建好的模版或者资源文件中,从而提高开发者搭建资源的效率,降低出错的概率。

本方案的优势

本方案从上到下来说,最大的优势就是操作简单了,功能强大了。反向分析就更能理解当前方案的优势,从目的入手,如果想要搭建强大的LLM知识库,那么你就需要通过特定的Prompt,提供给LLM足够的上下文信息,而如何获取特定的Prompt,关键就是是如何清洗文档内容、文档内容向量化、问答内容等。而文档智能(Document Mind)可以精准识别并解析包括企业日常办公中常见的Office文档(Word/Excel/PPT )、PDF、Html、图片等在内的主流文件类型,返回文档的样式、版面信息和层级树结构,经过文档智能处理后的信息,可以为RAG输入高精准度、高连贯语义的切块(Chunk),保障了整个RAG方案的基础效果。这就是通过文档智能和检索增强生成结合起来构建的LLM知识库的优势。

本方案适用场景

对于企业在发展过程中,会遇到各种各样的文档格式内容,比如PDF格式下,多种合同、试卷、论文、财报、简历、报告场景等,而如何从这些文档内容中快速提炼出有效信息来为企业创造更多价值,那就需要对这种包括表格内容、公式文本、图片内容处理,无关内容的过滤,这就正好符合了本方案的适用场景。对于不同格式的文档输入,将文档智能和检索增强生成(RAG)结合起来构建强大的LLM知识库,通过特定的Prompt,提供给LLM足够的上下文信息,来满足对于企业级文档类型知识库的问答处理,从而提高企业级文档的利用率以及创造出更多价值。

相关实践学习
使用ROS创建VPC和VSwitch
本场景主要介绍如何利用阿里云资源编排服务,定义资源编排模板,实现自动化创建阿里云专有网络和交换机。
阿里云资源编排ROS使用教程
资源编排(Resource Orchestration)是一种简单易用的云计算资源管理和自动化运维服务。用户通过模板描述多个云计算资源的依赖关系、配置等,并自动完成所有资源的创建和配置,以达到自动化部署、运维等目的。编排模板同时也是一种标准化的资源和应用交付方式,并且可以随时编辑修改,使基础设施即代码(Infrastructure as Code)成为可能。 产品详情:https://www.aliyun.com/product/ros/
相关文章
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
2024年,AI大模型在软件开发领域的应用正重塑传统流程,从自动化编码、智能协作到代码审查和测试,显著提升了开发效率和代码质量。然而,技术挑战、伦理安全及模型可解释性等问题仍需解决。未来,AI将继续推动软件开发向更高效、智能化方向发展。
|
18天前
|
人工智能 自然语言处理 机器人
文档智能与RAG技术如何提升AI大模型的业务理解能力
随着人工智能的发展,AI大模型在自然语言处理中的应用日益广泛。文档智能和检索增强生成(RAG)技术的兴起,为模型更好地理解和适应特定业务场景提供了新方案。文档智能通过自动化提取和分析非结构化文档中的信息,提高工作效率和准确性。RAG结合检索机制和生成模型,利用外部知识库提高生成内容的相关性和准确性。两者的结合进一步增强了AI大模型的业务理解能力,助力企业数字化转型。
77 3
|
6天前
|
人工智能 自然语言处理 算法
具身智能高校实训解决方案 ----从AI大模型+机器人到通用具身智能
在具身智能的发展历程中,AI 大模型的出现成为了关键的推动力量。高校作为培养未来科技人才的摇篮,需要紧跟这一前沿趋势,开展具身智能实训课程。通过将 AI 大模型与具备 3D 视觉的机器人相结合,为学生搭建一个实践平台。
129 64
|
20天前
|
人工智能 弹性计算 Serverless
触手可及,函数计算玩转 AI 大模型 | 简单几步,轻松实现AI绘图
本文介绍了零售业中“人—货—场”三要素的变化,指出传统营销方式已难以吸引消费者。现代消费者更注重个性化体验,因此需要提供超出预期的内容。文章还介绍了阿里云基于函数计算的AI大模型,特别是Stable Diffusion WebUI,帮助非专业人士轻松制作高质量的促销海报。通过详细的部署步骤和实践经验,展示了该方案在实际生产环境中的应用价值。
66 6
触手可及,函数计算玩转 AI 大模型 | 简单几步,轻松实现AI绘图
|
17天前
|
人工智能 新制造 芯片
2024年中国AI大模型产业发展报告解读
2024年,中国AI大模型产业迎来蓬勃发展,成为科技和经济增长的新引擎。本文解读《2024年中国AI大模型产业发展报告》,探讨产业发展背景、现状、挑战与未来趋势。技术进步显著,应用广泛,但算力瓶颈、资源消耗和训练数据不足仍是主要挑战。未来,云侧与端侧模型分化、通用与专用模型并存、大模型开源和芯片技术升级将是主要发展方向。
|
23天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
【10月更文挑战第31天】2024年,AI大模型在软件开发领域的应用取得了显著进展,从自动化代码生成、智能代码审查到智能化测试,极大地提升了开发效率和代码质量。然而,技术挑战、伦理与安全问题以及模型可解释性仍是亟待解决的关键问题。开发者需不断学习和适应,以充分利用AI的优势。
|
21天前
|
人工智能 自然语言处理 算法
企业内训|AI/大模型/智能体的测评/评估技术-某电信运营商互联网研发中心
本课程是TsingtaoAI专为某电信运营商的互联网研发中心的AI算法工程师设计,已于近日在广州对客户团队完成交付。课程聚焦AI算法工程师在AI、大模型和智能体的测评/评估技术中的关键能力建设,深入探讨如何基于当前先进的AI、大模型与智能体技术,构建符合实际场景需求的科学测评体系。课程内容涵盖大模型及智能体的基础理论、测评集构建、评分标准、自动化与人工测评方法,以及特定垂直场景下的测评实战等方面。
76 4
|
12天前
|
人工智能 弹性计算 数据可视化
解决方案|触手可及,函数计算玩转 AI 大模型 评测
解决方案|触手可及,函数计算玩转 AI 大模型 评测
25 0
|
9天前
|
机器学习/深度学习 人工智能 算法
AI技术在医疗诊断中的应用及前景展望
本文旨在探讨人工智能(AI)技术在医疗诊断领域的应用现状、挑战与未来发展趋势。通过分析AI技术如何助力提高诊断准确率、缩短诊断时间以及降低医疗成本,揭示了其在现代医疗体系中的重要价值。同时,文章也指出了当前AI医疗面临的数据隐私、算法透明度等挑战,并对未来的发展方向进行了展望。
|
13天前
|
机器学习/深度学习 人工智能 算法
AI在医疗诊断中的应用
【10月更文挑战第42天】本文将探讨人工智能(AI)在医疗诊断中的应用,包括其优势、挑战和未来发展方向。我们将通过实例来说明AI如何改变医疗行业,提高诊断的准确性和效率。