交互式 PDF 问答:检索增强生成方法

简介: 交互式 PDF 问答:检索增强生成方法

通过提出问题和获取相关信息来与 PDF 进行交互。这个本地托管的应用程序使用 LangChain 和 Streamlit。

在信息时代,处理庞大的 PDF 每天都在发生。大多数时候,我发现自己淹没在文字的海洋中,努力寻找我想要或需要一页阅读的信息。但是,如果我可以询问有关 PDF 的问题,并且不仅可以恢复相关信息,还可以恢复页面内容,该怎么办?

这就是 检索增强生成 (RAG) 技术发挥作用的地方。通过结合这些尖端技术,我创建了一个本地托管的应用程序,允许您与 PDF 聊天、提出问题并接收所有必要的上下文。

让我带您完成构建此类应用程序的完整过程!

什么是检索增强生成 (RAG)?

检索增强生成 (RAG) 是一种旨在通过合并有关给定主题的额外信息来提高  LLM 性能的方法。这些信息减少了不确定性,并提供了更多的上下文,帮助模型以更好的方式回答问题。

在构建基本的检索增强生成 (RAG) 系统时,需要关注两个主要组件:数据索引和数据检索和生成领域。数据索引使系统能够在需要时存储和/或搜索文档。数据检索和生成是查询这些索引文档的地方,然后提取所需的数据,并使用这些数据生成答案。

数据索引 image.png


数据索引包括四个关键阶段:

数据加载:此初始阶段涉及将 PDF、音频文件、视频等摄取为统一格式,以供下一阶段使用。

数据拆分:下一步是将内容划分为可管理的片段:将文本分割成连贯的部分或块,以保留上下文和含义。

数据嵌入:在此阶段,文本块将转换为数值向量。此转换是使用捕获内容语义本质的嵌入技术完成的。

数据存储:最后一步是存储生成的嵌入,通常位于向量存储中。

数据检索和生成

image.png

检索

嵌入查询:将用户的查询转换为嵌入表单,以便将其与文档嵌入的相似性进行比较

搜索向量:向量存储包含不同文档块的向量。因此,通过将此查询嵌入与存储的查询嵌入进行比较,系统可以确定哪些块与查询最相关。这种比较通常是在计算余弦相似度或任何其他相似度指标的帮助下完成的。

选择 top-k 块:系统根据获得的相似性分数获取最接近查询嵌入的 k 块。

结合上下文和查询:top-k 块提供与查询相关的必要上下文。当与用户的原始问题相结合时,LLM 会收到一个全面的输入,该输入将用于生成输出。

现在我们有了更多的背景信息,让我们开始行动吧!

RAG for PDF 文档

先决条件

文件用于测试完整的应用程序。我使用过以下库:

LangChain:它是一个使用大型语言模型 (LLM) 开发应用程序的框架。它提供了正确的工具和方法来控制和协调 LLM,如果它们被应用。

PyPDF格式:这用于加载和处理 PDF 文档。虽然 PyMuPDF 以其速度而闻名,但我在设置 Docker 环境时遇到了几个兼容性问题。

FAISS 代表 Facebook AI 相似性搜索,是一个用于快速相似性搜索和密集向量聚类的库。FAISS 也适用于快速最近邻搜索,因此在处理 向量嵌入时,它的使用是完美的,例如文档块的情况。为了简单起见,我决定使用它而不是 矢量数据库。

Streamlit 用于构建应用程序的用户界面。Streamlit 允许快速开发交互式 Web 应用程序,使其成为创建无缝用户体验的绝佳选择。

数据索引

加载 PDF 文档。

from langchain_community.document_loaders import PyPDFLoader
loader = PyPDFLoader(pdf_docs)
pdf_data = loader.load()

将其拆分为块。我使用了 1000 个字符的块大小。

from langchain.text_splitter import CharacterTextSplitter
text_splitter = CharacterTextSplitter(
        separator="\n",
        chunk_size=1000,
        chunk_overlap=150,
        length_function=len
 )
docs = text_splitter.split_documents(pdf_data)

我使用了 OpenAI 嵌入模型并将它们加载到 FAISS 向量存储中。

from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import FAISS
embeddings = OpenAIEmbeddings(key = open_ai_key)
db = FAISS.from_documents(docs, embeddings)

我已将检索配置为仅前 3 个相关块。

retriever = db.as_retriever(search_kwargs={'k': 3})

数据检索和生成

使用LangChain的链,我创建了完整的检索和生成系统,该系统链接到之前配置的FAISS检索器。RetrievalQA

from langchain.chains import RetrievalQA
from langchain import PromptTemplate
from langchain_openai import ChatOpenAI
model = ChatOpenAI(key = open_ai_key)
custom_prompt_template = """Use the following pieces of information to answer the user's question.
If you don't know the answer, just say that you don't know, don't try to make up an answer.
Context: {context}
Question: {question}
Only return the helpful answer below and nothing else.
Helpful answer:
"""
prompt = PromptTemplate(template=custom_prompt_template,
                            input_variables=['context', 'question'])
qa = RetrievalQA.from_chain_type(llm=model,
                            chain_type="stuff",
                            retriever=retriever,
                            return_source_documents=True,
                            chain_type_kwargs={"prompt": prompt})

流线型

使用 Streamlit 创建了一个应用程序,您可以在其中上传自己的文档并使用它们开始 RAG 流程。

结论

在信息以大量形式提供并可供用户使用的时代,有机会与文档进行有意义的讨论可以大大节省从大型 PDF 文档中挖掘有价值信息的过程的时间。在检索增强一代的帮助下,我们可以过滤掉不需要的信息并关注实际信息。

此实现提供了一个朴素的 RAG 解决方案;然而,优化它的可能性是巨大的。通过使用不同的 RAG 技术,可以进一步完善嵌入模型、文档分块方法和检索算法等方面。  


目录
相关文章
|
22天前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
18天前
|
机器学习/深度学习 算法 大数据
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
2024“华为杯”数学建模竞赛,对ABCDEF每个题进行详细的分析,涵盖风电场功率优化、WLAN网络吞吐量、磁性元件损耗建模、地理环境问题、高速公路应急车道启用和X射线脉冲星建模等多领域问题,解析了问题类型、专业和技能的需要。
2566 22
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
|
14天前
|
存储 关系型数据库 分布式数据库
GraphRAG:基于PolarDB+通义千问+LangChain的知识图谱+大模型最佳实践
本文介绍了如何使用PolarDB、通义千问和LangChain搭建GraphRAG系统,结合知识图谱和向量检索提升问答质量。通过实例展示了单独使用向量检索和图检索的局限性,并通过图+向量联合搜索增强了问答准确性。PolarDB支持AGE图引擎和pgvector插件,实现图数据和向量数据的统一存储与检索,提升了RAG系统的性能和效果。
|
16天前
|
人工智能 IDE 程序员
期盼已久!通义灵码 AI 程序员开启邀测,全流程开发仅用几分钟
在云栖大会上,阿里云云原生应用平台负责人丁宇宣布,「通义灵码」完成全面升级,并正式发布 AI 程序员。
|
18天前
|
机器学习/深度学习 算法 数据可视化
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
2024年中国研究生数学建模竞赛C题聚焦磁性元件磁芯损耗建模。题目背景介绍了电能变换技术的发展与应用,强调磁性元件在功率变换器中的重要性。磁芯损耗受多种因素影响,现有模型难以精确预测。题目要求通过数据分析建立高精度磁芯损耗模型。具体任务包括励磁波形分类、修正斯坦麦茨方程、分析影响因素、构建预测模型及优化设计条件。涉及数据预处理、特征提取、机器学习及优化算法等技术。适合电气、材料、计算机等多个专业学生参与。
1561 16
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
|
1天前
|
JSON 自然语言处理 数据管理
阿里云百炼产品月刊【2024年9月】
阿里云百炼产品月刊【2024年9月】,涵盖本月产品和功能发布、活动,应用实践等内容,帮助您快速了解阿里云百炼产品的最新动态。
阿里云百炼产品月刊【2024年9月】
|
20天前
|
编解码 JSON 自然语言处理
通义千问重磅开源Qwen2.5,性能超越Llama
击败Meta,阿里Qwen2.5再登全球开源大模型王座
885 14
|
15天前
|
人工智能 开发框架 Java
重磅发布!AI 驱动的 Java 开发框架:Spring AI Alibaba
随着生成式 AI 的快速发展,基于 AI 开发框架构建 AI 应用的诉求迅速增长,涌现出了包括 LangChain、LlamaIndex 等开发框架,但大部分框架只提供了 Python 语言的实现。但这些开发框架对于国内习惯了 Spring 开发范式的 Java 开发者而言,并非十分友好和丝滑。因此,我们基于 Spring AI 发布并快速演进 Spring AI Alibaba,通过提供一种方便的 API 抽象,帮助 Java 开发者简化 AI 应用的开发。同时,提供了完整的开源配套,包括可观测、网关、消息队列、配置中心等。
655 7
|
9天前
|
Docker 容器
|
1天前
|
存储 人工智能 弹性计算
产品技术能力飞跃,阿里云E-HPC荣获“CCF 产品创新奖”!
9月24日,在中国计算机学会举办的“2024 CCF 全国高性能计算学术年会”中,阿里云弹性高性能计算(E-HPC)荣获「 CCF HPC China 2024 产品创新奖」。这也是继 2022 年之后,阿里云E-HPC 再次荣获此奖项,代表着阿里云在云超算领域的持续创新结果,其产品能力和技术成果得到了业界的一致认可。