AI - RAG架构

简介: AI-RAG架构

RAG(Retrieval-Augmented Generation)架构是一种结合了检索(Retrieval)和生成(Generation)两大关键任务的自然语言处理(NLP)模型架构。它的设计目标是在处理问答、文本摘要、对话等任务时,能够从大规模知识库中检索相关知识,并利用这些知识来增强语言模型的生成能力,从而提供更为准确、详实且具备可解释性的答案或文本输出。以下是RAG架构的主要特点、组成及工作流程:

主要特点:

  1. 知识检索:RAG能够实时从预定义的知识源(如文本数据库、网页索引、知识图谱等)中检索与输入问题或对话上下文相关的知识片段。这允许模型在回答问题时不仅仅依赖于其自身的参数,而是能结合外部世界的真实信息。
  2. 融合检索结果:检索到的知识片段被融入到模型的输入提示(Prompt)中,作为语言模型生成回答时的参考依据。这样,模型在生成回答时不仅基于其内在知识,还能利用检索到的精确信息,增强了生成答案的准确性。
  3. 可解释性:由于RAG模型能够明确指出其生成答案所依据的知识来源,用户可以追溯答案的出处,这极大地提升了模型的可解释性,增强了用户对生成结果的信任度和满意度。
  4. 实时更新:由于RAG依赖的外部知识库可以独立于模型本身进行更新,这意味着即使不重新训练模型,也能及时纳入新的知识,使模型保持与最新信息同步。

组成部分:

  1. 知识库:包含大量结构化或非结构化的文本数据,如文章、网页、文档片段等,它们被组织成便于检索的形式,如向量索引或关键词索引。
  2. 检索模块:负责从知识库中找出与输入问题最相关的知识片段。通常采用向量检索技术,即将问题和知识库中的文档片段转化为嵌入向量,然后通过计算向量间的相似度来确定最相关的文档。
  3. 语言模型:通常是一个大型语言模型(LLM),如Transformer-based模型,用于生成回答。在生成过程中,模型不仅接收到原始问题作为输入,还接收到来自检索模块的Top-K相关知识片段,这些片段被合并到模型的提示(Prompt)中,引导模型生成答案。
  4. 编排层(或称协调层):负责整个系统的集成与交互。它接收用户的输入,与知识库交互以执行检索,构造包含检索结果的提示传递给语言模型,并最终返回生成的回答。

工作流程:

  1. 用户输入:用户提出一个问题或提供一段对话上下文。
  2. 知识检索:编排层将用户输入传递给检索模块,检索模块利用向量检索技术从知识库中找出与输入最相关的知识片段。
  3. 构建提示:检索到的知识片段被整理成一个或多个条目,这些条目连同原始输入问题一起构成一个复合提示,供语言模型使用。
  4. 答案生成:大型语言模型接收这个带有知识信息的复合提示,基于其中提供的知识上下文生成回答。
  5. 结果返回:编排层接收语言模型生成的答案,并可能附带上所引用知识的来源信息,一同返回给用户。

应用与拓展:

  • 问答系统:RAG架构非常适合构建基于海量文本知识库的智能问答系统,能够快速准确地回答各种事实型问题。
  • 对话系统:在对话场景中,RAG能够检索并利用相关知识来丰富对话内容,提升对话的深度和广度。
  • 文本摘要:通过检索相关文档并结合生成模型,RAG可用于生成信息丰富的文本摘要。
  • 标准与优化:如FIT-RAG讨论了RAG架构是否正在趋向于成为一种标准化的方法,表明业界在探讨如何规范化使用和改进RAG架构。
  • 技术改进:如RankLLM探讨了在RAG架构下通过重排序实现精准信息检索,表明研究者正致力于提升检索阶段的精度和效率。
相关文章
|
9天前
|
存储 缓存 自然语言处理
浏览量超 10w 的热图,描述 RAG 的主流架构
大模型性能的持续提升,进一步挖掘了 RAG 的潜力,RAG 将检索系统与生成模型相结合,带来诸多优势,如实时更新知识、降低成本等。点击本文,为您梳理 RAG 的基本信息,并介绍提升大模型生成结果的方法,快一起看看吧~
|
2月前
|
人工智能 安全 数据安全/隐私保护
文档智能 & RAG让AI大模型更懂业务测评
文档智能 & RAG让AI大模型更懂业务
178 74
|
24天前
|
存储 人工智能 API
七种RAG架构cheat sheet!
RAG 即检索增强生成,是一种结合检索技术和生成模型的人工智能方法。Weaviate厂商给出了七种RAG架构cheat sheet。
89 18
|
2月前
|
数据采集 人工智能 运维
从企业级 RAG 到 AI Assistant,阿里云Elasticsearch AI 搜索技术实践
本文介绍了阿里云 Elasticsearch 推出的创新型 AI 搜索方案
205 3
从企业级 RAG 到 AI Assistant,阿里云Elasticsearch AI 搜索技术实践
|
2月前
|
人工智能 安全 测试技术
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
EXAONE 3.5 是 LG AI 研究院推出的开源 AI 模型,擅长长文本处理,能够有效降低模型幻觉问题。该模型提供 24 亿、78 亿和 320 亿参数的三个版本,支持多步推理和检索增强生成技术,适用于多种应用场景。
114 9
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
|
1月前
|
人工智能 运维 监控
云卓越架构:企业稳定性架构体系和AI业务场景探秘
本次分享由阿里云智能集团公共云技术服务部上海零售技术服务高级经理路志华主讲,主题为“云卓越架构:企业稳定性架构体系和AI业务场景探秘”。内容涵盖四个部分:1) 稳定性架构设计,强调高可用、可扩展性、安全性和可维护性;2) 稳定性保障体系和应急体系的建立,确保快速响应和恢复;3) 重大活动时的稳定重宝策略,如大促或新业务上线;4) AI在企业中的应用场景,包括智能编码、知识库问答、创意广告生成等。通过这些内容,帮助企业在云计算环境中构建更加稳定和高效的架构,并探索AI技术带来的创新机会。
|
1月前
|
数据采集 人工智能 运维
从企业级 RAG 到 AI Assistant,阿里云Elasticsearch AI 搜索技术实践
本文介绍了阿里云 Elasticsearch 推出的创新型 AI 搜索方案。
214 5
|
1月前
|
存储 人工智能 运维
面向AI的服务器计算软硬件架构实践和创新
阿里云在新一代通用计算服务器设计中,针对处理器核心数迅速增长(2024年超100核)、超多核心带来的业务和硬件挑战、网络IO与CPU性能增速不匹配、服务器物理机型复杂等问题,推出了磐久F系列通用计算服务器。该系列服务器采用单路设计减少爆炸半径,优化散热支持600瓦TDP,并实现CIPU节点比例灵活配比及部件模块化可插拔设计,提升运维效率和客户响应速度。此外,还介绍了面向AI的服务器架构挑战与软硬件结合创新,包括内存墙问题、板级工程能力挑战以及AI Infra 2.0服务器的开放架构特点。最后,探讨了大模型高效推理中的显存优化和量化压缩技术,旨在降低部署成本并提高系统效率。
|
2月前
|
机器学习/深度学习 人工智能 并行计算
【AI系统】Kernel 层架构
推理引擎的Kernel层负责执行底层数学运算,如矩阵乘法、卷积等,直接影响推理速度与效率。它与Runtime层紧密配合,通过算法优化、内存布局调整、汇编优化及调度优化等手段,实现高性能计算。Kernel层针对不同硬件(如CPU、GPU)进行特定优化,支持NEON、AVX、CUDA等技术,确保在多种平台上高效运行。
121 32
|
2月前
|
存储 机器学习/深度学习 人工智能
【AI系统】计算图优化架构
本文介绍了推理引擎转换中的图优化模块,涵盖算子融合、布局转换、算子替换及内存优化等技术,旨在提升模型推理效率。计算图优化技术通过减少计算冗余、提高计算效率和减少内存占用,显著改善模型在资源受限设备上的运行表现。文中详细探讨了离线优化模块面临的挑战及解决方案,包括结构冗余、精度冗余、算法冗余和读写冗余的处理方法。此外,文章还介绍了ONNX Runtime的图优化机制及其在实际应用中的实现,展示了如何通过图优化提高模型推理性能的具体示例。
76 4
【AI系统】计算图优化架构

热门文章

最新文章