当面对多种不同格式的文档时,如何让AI系统更好地处理复杂文档?
方案概览大语言模型(LLM)作为自然语言处理的核心技术能力,能在文档中为知识问答、内容生成、大数据清洗、办公流程自动化等场景挖掘出更多的价值,极大降低了普通人对于专业词汇多、结构复杂、图文混合的文档内容阅读门槛。但文档的处理十分具有挑战性,特别是在PDF格式下,多种合同、试卷、论文、财报、简历、报告场景中,对于输入给大模型所需要的就不仅仅是文本内容,同时包括表格内容、公式文本、图片内容处理,以及无关内容的过滤。
对于不同格式的文档输入,如何实现将文档智能和检索增强生成(RAG)结合起来构建强大的LLM知识库,关键是如何清洗文档内容、文档内容向量化、问答内容召回后通过特定的Prompt,提供给LLM足够的上下文信息,以此来满足对企业级文档类型知识库的问答处理。
接下来我们将基于文档智能的文档解析处理,结合百炼平台构建单文档问答应用。
方案架构本方案主要分为3个阶段:
文档解析:通过调用文档智能提供的文档解析(大模型版),将文件处理为Json对象,包含多个版面块单元。
构建知识库:文档内容切片向量化存储,将多个版面块过滤非正文内容,切分成多个切块,进行向量化服务,存入知识库中。
创建问答服务:当接收到一个提问时,服务首先将问题转换为内容向量,然后在知识库中进行召回,找到相关信息。接着,结合召回的内容和问题,通过语言模型进行智能问答,提供准确的回答。
方案架构如下图所示:
本方案的技术架构包括以下云服务:
百炼:一站式的企业专属大模型生产平台。在本方案中,提供通义千问LLM模型的调用以及知识索引功能。
文档智能:多模态文档识别与理解引擎,为用户提供通用文档智能、行业文档智能和文档自学习能力,可满足各种场景下的智能文档处理需求。
1个专有网络 VPC:将云服务器 ECS部署在专有网络中。
1台交换机:将云服务器 ECS实例部署在交换机中。
1台云服务器 ECS:用于部署应用程序。一键部署一键部署基于阿里云资源编排服务ROS(Resource Orchestration Service)实现,ROS模板已定义好脚本,可自动化地完成云资源的创建和配置,提高资源的创建和部署效率。
操作步骤您可以通过下方提供的ROS一键部署链接,来自动化地完成这些资源的创建和配置:
创建1台云服务器ECS实例,并在服务器上部署Python环境和应用程序的示例代码。
创建1个专有网络VPC。
创建1台交换机。
创建1个安全组。
一键部署资源。
单击一键部署。
在配置页面修改资源栈名称,按需选择ECS的实例配置,设置实例密码、模型应用系统的用户密码,输入百炼API-KEY和空间ID。
说明打开百炼API KEY管理页面,点击操作栏中的查看。如果是首次使用百炼平台,则点击右上角创建我的API-KEY。
复制API KEY和对应的业务空间ID。(复制完毕后,请仔细核对内容准确,确保没有多余的符号,例如多余的空格)
ECS 实例配置推荐搜索规格:ecs.e-c1m2.large、ecs.e-c1m1.large和ecs.u1-c1m2.large,如果所选可用区没有满足条件的实例规格,可以切换其他可用区查看。
完成配置模板参数后,点击下一步:检查并确认,预览确认,点击创建,创建资源需要5分钟左右的时间,请您耐心等待。
当资源栈信息页面的状态显示为创建成功时表示一键配置完成。应用体验使用文档智能(Document Mind)提供的文档解析(大模型版)解析本地文档。并将解析结果接入百炼平台创建知识库。基于该知识库的内容,实现增强检索生成(RAG)的问答应用。这一应用开发是基于LlamaIndex社区框架,并使用百炼平台提供的相关组件能力实现的。
单击资源栈的输出页签,再单击体验地址对应的URL进行访问。
文档上传:用户可以选择本地文档并设置知识库名称。点击上传后,系统将解析文档并构建相应的知识库,最终返回文档信息、文档摘要和文档结构。例如,您可以使用我们提供的“百炼”手机详细参数.docx文档进行尝试。
问答服务:点击页面上方问答服务,切换到问答服务界面,然后输入知识库名称并输入针对该知识库的提问,即可获得精准的回答。
总结:通过该方案,企业用户可以高效地处理各类复杂文档,构建强大的知识库,并通过增强检索生成(RAG)技术实现智能问答服务,显著提升文档处理和信息获取的效率。
1、如已使用百炼搭建RAG,体验感受分享
高效性:RAG技术通过检索增强生成的方式,能够快速地从海量文档中检索出与查询相关的关键信息,并将其整合到生成模型中,从而提供高质量的输出。这种高效性对于处理大量文档的企业来说,无疑是一个巨大的优势。准确性:RAG技术结合了检索和生成两种技术的优点,能够在保证召回率的同时,提高输出的准确性。这对于需要精确回答用户问题的企业级文档类型知识库来说,至关重要。灵活性:RAG技术支持多种文档格式的解析和向量化,能够处理来自不同源头的多样化文档类型。这种灵活性使得RAG技术能够广泛应用于各种实际场景中,满足不同企业和个人的需求。
2、对多模态RAG的场景和技术产品的需求和期待
随着技术的不断发展,多模态RAG的应用场景和技术产品将会越来越丰富和多样化。以下是我对多模态RAG的场景和技术产品的需求和期待:
场景需求
企业内部文档问答:企业内部存在大量的文档,包括技术文档、操作手册、常见问题解答等。员工在工作中经常需要查询这些文档以获取相关信息。多模态RAG能够针对这些文档提供高效的问答服务,帮助员工快速找到所需信息,提高工作效率。跨媒体内容检索:在新闻、娱乐等领域,经常需要处理包含文本、图像、视频等多种模态的内容。多模态RAG能够支持跨媒体内容的检索和问答,帮助用户从多种模态的内容中获取所需信息。个性化推荐:通过分析用户的查询历史和行为习惯,多模态RAG可以为用户提供个性化的推荐服务。例如,在电商平台中,可以根据用户的购买历史和浏览行为,推荐相关的商品和优惠信息。
技术产品期待
高效的多模态数据处理技术:多模态RAG需要处理包含文本、图像、视频等多种模态的数据。因此,我期待未来能够出现更加高效的多模态数据处理技术,如更加准确的图像识别技术、更加高效的文本解析技术等。强大的生成式模型:生成式模型是多模态RAG的核心组件之一。我期待未来能够出现更加强大的生成式模型,如基于Transformer的Encoder-Decoder架构的模型等,以提高多模态RAG的输出质量和准确性。智能化的用户交互体验:多模态RAG的应用场景广泛,用户群体也多样化。我期待未来能够出现更加智能化的用户交互体验设计,如自然语言交互、语音交互等,以满足不同用户的需求和习惯。
多模态RAG作为一种新兴的技术趋势,具有广泛的应用前景和巨大的市场潜力。随着技术的不断发展和应用场景的不断拓展,我相信多模态RAG将会在未来发挥更加重要的作用。
赞10
踩0