RAG（检索增强生成）技术简介-阿里云开发者社区

RAG（检索增强生成）技术简介

2026-01-12 1008

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： RAG（检索增强生成）通过结合信息检索与文本生成，提升大模型回答的准确性与时效性。它利用向量数据库实现语义检索，支持智能客服、医疗诊断、法律咨询等场景，解决知识更新难、专业性不足等问题，并以“按需取用”机制突破上下文限制，兼顾效率与隐私。

RAG（检索增强生成）是一项将信息检索与文本生成相结合的技术，它让大型语言模型（LLM）能够生成更准确、更具时效性且上下文更相关的内容。下表清晰地展示了RAG解决的核心问题及其典型应用场景：

核心关切点	RAG 提供的解决方案	典型应用场景
信息准确性	从外部知识库检索事实依据，减少模型“幻觉”，答案可溯源。	智能客服、医疗诊断、法律咨询。
知识时效性	无需重新训练模型，通过更新检索库即可让模型获取最新信息。	回答关于新闻事件、股价、最新产品信息等问题。
专业领域知识	为模型注入特定领域（如公司内部文档、行业资料）的知识，弥补通用模型的专业短板。	企业知识库问答、学术研究辅助。
成本与隐私	检索过程可实施权限控制，访问特定数据，比为了新知识重新训练大模型更经济高效。	处理企业内部敏感文档、个人隐私信息。

Q：那为什么不直接把手册或资料发给大模型呢？

这是一个关键问题。主要原因有二：

因此，RAG技术登场，它通过一种更智能的“按需取用”机制来解决这些问题。

RAG的工作流程可以清晰地划分为“准备（提问前）”和“回答（提问后）”两个主要阶段。

此阶段在线下完成，是为系统“备课”的过程。

索引索引就是通过 Embedding 将每一个片段文本转化为一个向量，然后再将片段文本和对应向量都存储在向量数据库的一个过程。生成的所有向量及其对应的原始文本块，会被一同存入向量数据库。数据库会为这些向量建立专门的索引结构（例如HNSW、IVF-PQ等），这种结构的设计目标，就是在亿级向量中实现毫秒级的相似性搜索。

此阶段在用户提问后实时发生。

召回（检索）
召回的核心任务是从庞大的知识库中快速筛选出与用户问题可能相关的文本片段。这主要依赖于向量相似度计算。常用的相似度度量方法对比如下：

方法名称	核心原理	特点
余弦相似度	衡量两个向量方向的差异，计算夹角的余弦值。	对向量长度不敏感，专注于语义方向；计算高效。
欧氏距离	计算两点间的直线距离。	直观，符合物理距离概念；受向量尺度和长度影响大。
点积	两向量对应分量乘积之和。在向量归一化后与余弦相似度等价。	计算简单高效；结果受向量长度影响显著。

重排初步召回可能会返回大量相关片段，但质量参差不齐。重排步骤的目标是对这些结果进行更精细的排序，把最相关、最优质的片段排到最前面。常用技术是 Cross-Encoder：

Bi-Encoder（用于召回）：问题和文档分开独立编码为向量，然后计算相似度。优势是速度快，适合大规模初筛。
Cross-Encoder（用于重排）：将问题和某个文档拼接在一起，同时输入模型进行交互计算，直接输出相关度分数。判断更准确，但计算成本高。
可以理解为：召回（如余弦相似度）负责“海选”，追求速度；重排（如Cross-Encoder）则负责“精品面试”，追求精度。

生成
这是最后一步。系统将用户原始问题和经过重排筛选出的最相关的文本片段（如Top 3-5）组合成一个详细的提示（Prompt），然后交给LLM。LLM的任务是基于这个“增强后”的提示，综合所有信息，生成一个准确、连贯、自然的最终答案，而并非简单地复制粘贴。

RAG技术本身也在不断演进，从最初的简单模式发展出更复杂的架构以提升效果。

常见优化工具与框架：
在实际构建RAG系统时，可以利用现有的框架和工具来简化开发，例如 LangChain 和 LlamaIndex，它们提供了文档加载、文本分割、向量化、检索和链式调用等组件的强大支持。

RAG（检索增强生成）技术简介