基于大模型构建本地知识库

简介: 基于大模型构建本地知识库

图文概述

1.png

一、知识库构建


1.文本加载和读取


支持的格式:


  • pdf

  • txt

  • md

  • docx

2.文本分割


通常,将大型文本文档拆分为较小的块,以便更好地使用语言模型。文本拆分器负责将文档拆分为较小的文档。理想情况下,您希望将语义相关的文本片段放在一起。“语义相关”的含义可能取决于文本的类型。


  • 根据规则
根据中文文章的常见终止符号,利用规则进行文本分割。
如:单字符断句符、中英文省略号、双引号等
  • 根据语义
将文本拆分为语义有意义的小块(通常是句子)。
开始将这些小块组合成一个较大的块,直到达到一定的大小(由某个函数测量)。
达到该大小后,将该块设置为自己的文本段,然后开始创建一个具有一些重叠的新文本块。

目前来说,由于语义的不确定性,用规则会取得更好的效果,文本分句长度为800。


3.文本向量化


语义检索的重要前提Sentence Embeddings。可惜目前看到的绝大部分材料都是使用OpenAIEmbeddings。OpenAIEmbeddings 调用的mode_name=“text-embedding-ada-002” 排在第6位


英文排行版


MTEB 排行榜 - MTEB 的拥抱面孔空间 (huggingface.co)

2.png

中文SOTA


这是一个CoSENT(余弦句子)模型:shibing624/text2vec-base-Chinese。


它将句子映射到 768 维密集向量空间,可用于任务 如句子嵌入、文本匹配或语义搜索


分别拿 text2vec-base-chinese 、instructor-large 和 OpenAIEmbedding Run这10个中文case,instructor-large 表现最差,text2vec-base-chinese 表现最好:

3.png

中文模型在政府语料问题的匹配top5 ernie-base text2vec-large-chinese
关于转发国家发展改革委物流业降本增效专项行动方案 2/5 4/5
农业综合开发扶持农业优势特色产业促进农业产业化发展的指导意见 2/5 3/5
北京市暂时调整有关行政审批和准入特别管理措施的决定 3/5 5/5
推进交通运输行业数据资源开放共享的实施意见 1/5 5/5
关于改进和规范公安派出所出具证明工作的意见 1/5 4/5
谁开展的原油期货保税交割业务暂免征收增值税 4/5 3/5
香港联交所上市股票的所得税问题 3/5 5/5
图书资料费、数据采集费、会议费/差旅费/国际合作与交流费、设备费、专家咨询费、劳务费、印刷费/宣传费是哪些 3/5 3/5
国家知识产权示范园区的申报条件 5/5 5/5

二、向量搜索


1.向量存储


Faiss是Facebook开源的一个向量检索库,用于大规模向量集合的索引和搜索。主要功能包括:


1.支持多种索引结构: IVF, IVFFlat, HNSW, etc。这些索引结构可以实现高精度和高召回的向量搜索。


2.支持多种度量方式:内积,欧氏距离,cosine 相似度等。可选择合适的度量方式对向量集合建立3索引。


3.快速的索引构建与搜索:Faiss使用GPU加速,可以实现亿量级向量的索引构建和搜索。


4.降维与聚类:Faiss提供PCA,IVFFlat等算法进行向量降维,并支持Kmeans算法进行向量聚类。


5.高级特性:Faiss支持在线学习,异构向量检索,索引压缩等高级特性。


Faiss的典型应用有:


1.图像检索:在大规模图片数据库中找到与输入图片最相似的图片。


2.文本匹配:快速找到与输入文本最相近的文本内容。


3.推荐系统:根据用户兴趣对大量商品进行快速检索和推荐。


4.声纹识别:在海量语音数据中实现语音识别和检索。


2.用户问题向量化


Embedding 模型进行向量化(text2vec-large-chinese)


3.知识库中搜索和问题最相似的topK个向量

# chunk_conent   是否启用上下文关联
# score_threshold    搜索匹配score阈值
# vector_search_top_k   搜索知识库内容条数,默认搜索5条结果
# chunk_sizes    匹配单段内容的连接上下文长度

向量搜索索引中查找与embedding最相似的k个结果,得分scores和索引indices。


如果得分scores高于阈值score_threshold,跳过该结果。


指定了chunk_conent,则在结果索引的附近扩展查找,将相近的文档片段拼接到doc,但拼接后长度不超过chunk_size。只有相同的文档才会被拼接。

4.png

5.png

三、大模型理解


将问题和topK个向量作为上下文输入给大模型,让大模型根据已有的提示信息进行总结归纳回答。

基于上下文的prompt模版:根据上述已知信息,简洁和专业的来回答用户的问题。如果无法从中得到答案,请说 “根据已知信息无法回答该问题” 或 “没有提供足够的相关信息”,不允许在答案中添加编造成分,答案请使用中文。 问题是:{question}

示例:

6.png

7.png

四、问题


1.目前该项目不够稳定,会出现奔溃的问题。


2.多轮对话后,显存溢出造成奔溃。


3.是否在prompt模版中加入判断,若所问问题非政务类型,转由大模型回答。


4.大模型可能无法准确地理解政务领域的专业知识和术语,在小部分回答上会存在偏差。


5.向量搜索时,可能会匹配到低质量文本,导致回答错误。(低质量:匹配到的文本具有一定相关性,但是和用户的问题意图有所偏差)

目录
相关文章
|
1月前
|
机器学习/深度学习 数据采集 人工智能
文档智能 & RAG 让AI大模型更懂业务 —— 阿里云LLM知识库解决方案评测
随着数字化转型的深入,企业对文档管理和知识提取的需求日益增长。阿里云推出的文档智能 & RAG(Retrieval-Augmented Generation)解决方案,通过高效的内容清洗、向量化处理、精准的问答召回和灵活的Prompt设计,帮助企业构建强大的LLM知识库,显著提升企业级文档管理的效率和准确性。
|
14天前
|
存储 人工智能 自然语言处理
基于LLamaIndex构建企业级私有知识库:RAG Workflow工作流详解
【11月更文挑战第12天】随着生成式AI的快速发展,企业对智能化信息检索和生成的需求日益增加。传统的知识库系统往往局限于静态的数据存储和查询,难以满足复杂多变的业务需求。而检索增强生成(RAG, Retrieval-Augmented Generation)技术的出现,为企业级私有知识库的建设提供了新的解决方案。LLamaIndex作为专为LLMs(大型语言模型)设计的私有知识索引工具,结合RAG Workflow工作流,能够构建高效、智能的企业级私有知识库,满足企业对于知识管理和智能问答的多样化需求。
43 4
|
1月前
|
存储 人工智能 算法
精通RAG架构:从0到1,基于LLM+RAG构建生产级企业知识库
为了帮助更多人掌握大模型技术,尼恩和他的团队编写了《LLM大模型学习圣经》系列文档,包括《从0到1吃透Transformer技术底座》、《从0到1精通RAG架构,基于LLM+RAG构建生产级企业知识库》和《从0到1吃透大模型的顶级架构》。这些文档不仅系统地讲解了大模型的核心技术,还提供了实战案例和配套视频,帮助读者快速上手。
精通RAG架构:从0到1,基于LLM+RAG构建生产级企业知识库
Nyx
|
1月前
|
算法
文档智能和检索增强生成构建知识库
本文介绍了文档智能(Document Mind)与检索增强生成(RAG)结合使用的原理及其优势。文档智能负责解析和结构化文档内容,RAG则利用这些数据提供准确的问答服务。部署过程中,清晰的步骤指导和详细的文档帮助快速解决问题。方案适用于企业知识库、客户支持系统等场景,但在处理大文档和复杂格式时需进一步优化。
Nyx
50 0
|
1月前
|
机器学习/深度学习 自然语言处理 自动驾驶
深度学习之常识知识库构建
基于深度学习的常识知识库构建是一项旨在自动化获取和组织广泛的常识性信息的技术,它通过深度学习模型从文本、图像、语音等多种数据源中提取出隐含的常识知识,并构建一个可以被机器理解和应用的知识库。
46 4
|
30天前
|
机器学习/深度学习 数据采集 人工智能
文档智能和检索增强生成(RAG)——构建LLM知识库
本次体验活动聚焦于文档智能与检索增强生成(RAG)结合构建的LLM知识库,重点测试了文档内容清洗、向量化、问答召回及Prompt提供上下文信息的能力。结果显示,系统在自动化处理、处理效率和准确性方面表现出色,但在特定行业术语识别、自定义向量化选项、复杂问题处理和Prompt模板丰富度等方面仍有提升空间。
67 0
|
1月前
|
机器学习/深度学习 数据采集 人工智能
大模型体验报告:阿里云文档智能 & RAG结合构建LLM知识库
大模型体验报告:阿里云文档智能 & RAG结合构建LLM知识库
|
4月前
|
Ubuntu API 数据安全/隐私保护
告别信息搜寻烦恼:用fastgpt快速部署国内大模型知识库助手
告别信息搜寻烦恼:用fastgpt快速部署国内大模型知识库助手
427 0
|
2月前
|
人工智能 JSON 数据格式
RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
【9月更文挑战第6天】RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
|
3月前
|
开发框架 自然语言处理 API
基于RAG搭建企业级知识库在线问答
本文介绍如何使用搜索开发工作台快速搭建基于RAG开发链路的知识库问答应用。
8322 17
下一篇
无影云桌面