行业首创 !Graph RAG:基于知识图谱的检索增强技术与优势对比(附 Demo)

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云数据库 Tair(兼容Redis),内存型 2GB
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
简介: 悦数图数据库率先实现了与 Llama Index、LangChain 等大语言模型框架的深度适配并在行业内首次提出了 Graph RAG(基于图技术的检索增强)的概念,利用知识图谱结合大语言模型(LLM)为搜索引擎提供更全面的上下文信息,可以帮助用户以更低成本获得更智能、更精准的搜索结果。目前,悦数图数据库推出的这项技术在与向量数据库结合的领域也获得了相当不错的效果。

身处信息爆炸时代,如何从海量信息中获取准确全面的搜索结果,并以更直观、可读的方式呈现出来是大家期待达成的目标。传统的搜索增强技术受限于训练文本数量、质量等问题,对于复杂或多义词查询效果不佳,更无法满足  ChatGPT 等大语言模型应用带来的大规模、高并发的复杂关联查询需求。

在此背景下,悦数图数据库率先实现了与 Llama Index、LangChain 等大语言模型框架的深度适配并在行业内首次提出了 Graph RAG(基于图技术的检索增强)的概念,利用知识图谱结合大语言模型(LLM)为搜索引擎提供更全面的上下文信息,可以帮助用户以更低成本获得更智能、更精准的搜索结果。目前,悦数图数据库推出的这项技术在与向量数据库结合的领域也获得了相当不错的效果。

今天我们就一起来了解下什么是 Graph RAG 以及它与其他 RAG 技术的对比,也欢迎进入 悦数图数据库 官网,通过 Demo 直观感受这一功能。

传统检索增强技术的瓶颈:缺少训练数据,文本理解不足

在传统的搜索引擎中,检索结果通常是基于关键词的匹配。而随着用户对搜索精确度和词汇联想能力要求的提高,传统的搜索结果往往难以满足用户的实际需求,尤其是在处理复杂的问题和长尾查询时,效果会明显降低。

为了解决这类问题,RAG 搜索增强技术应运而生。RAG (Retrieval-Augmented Generation),指的是通过 RAG 模型来对搜索结果进行增强的过程。具体来说,它是将检索技术和语言生成技术相结合来增强生成过程的一种技术,可以帮助传统搜索引擎生成更加准确、相关和多样化的信息来满足用户的需求。

而为了使搜索结果更精准,RAG 技术仍然面临训练数据和文本理解的挑战:

  • 训练数据:RAG 技术需要大量的数据和计算资源来训练和生成模型,尤其是在处理多语言和复杂任务时,但是互联网上文本的质量和准确性是有限的,训练数据的不足会直接影响生成内容的质量
  • 文本理解:RAG 需要理解查询的意图,但是对于复杂的查询或者多义词查询,RAG 可能会出现歧义或不确定性,从而影响生成的质量

因此,如何找到更强大的检索增强技术,以更高效率获得更符合搜索者的预期的搜索结果的问题就显得更迫在眉睫

什么是 Graph RAG:基于知识图谱的检索增强技术

「Graph RAG」是由悦数图数据率先提出的概念,它是一种基于知识图谱的检索增强技术,通过构建图模型的知识表达,将实体和关系之间的联系用图的形式进行展示,然后利用大语言模型 LLM(Large Language Model)进行检索增强。

在之前 和 Llama Index 的直播研讨会 中我们提到,图数据库凭借图形格式组织和连接信息的方式,天然适合存储及表达复杂的上下文信息。通过图技术构建知识图谱提升 In-Context  Learning 的全面性为用户提供更多的上下文信息,能够帮助大语言模型(LLM)更好地理解实体间的关系,提升自己的表达和推理能力。

Graph RAG 将知识图谱等价于一个超大规模的词汇表,而实体和关系则对应于单词。通过这种方式,Graph RAG 在检索时能够将实体和关系作为单元进行联合建模,从而更准确地理解查询意图,并提供更精准的检索结果。

Demo 演示:检索强化效果对比:「悦数」官网可直接在线体验

下面我们就通过 Demo 演示来直观比较下 Graph RAG 与 Vector RAG、Text2Cypher 这三种检索增强技术的区别和对比——

Graph RAG 与 Vector RAG 的对比

首先是 Vector RAG(向量检索) 与 Graph + Vector RAG(图技术增强的向量检索)的对比。

  • 左:Vector RAG 右:Graph RAG

以《银河护卫队  3》的数据集为例,当我们询问“彼得·奎尔的相关信息”时,单独使用向量检索引擎只给出了简单的身份、剧情、演员信息,而当我们使用 Graph RAG  增强后的搜索结果,则提供了更多关于主角技能、角色目标和身份变化的信息——在这个例子中我们不难看出, Graph RAG 的方法有效补充了 Embedding、向量搜索等传统手段的不足

Graph RAG 与 Text2Cypher 的对比

基于图谱的 LLM 的另一种有趣方法是 Text2Cypher,即自然语言生成图查询。这种方法不依赖于实体的子图检索,而是将任务/问题翻译成一个面向答案的特定图查询,和我们常说的 Text2SQL 本质是一样的。

Text2Cypher 和 Graph RAG 这两种方法主要在其检索机制上有所不同。Text2Cypher 根据知识图谱的 Schema  和给定的任务生成图形模式查询,而 (Sub)Graph RAG 获取相关的子图以提供上下文。两者都有其优点,大家可以通过这个 demo  ,更直观理解他们的特点:

  • 左:Text2Cypher 右:Graph RAG

我们可以看到两者的图查询模式在可视化下是有非常清晰的差异的,基于 Graph RAG  实现的检索明显呈现出更丰富的结果。用户不仅获得了最基础的介绍信息,更能得到“彼得·奎尔是银河护卫队的领导者”、“这个角色暗示自己将在续集中回归”以及角色性格等一系列基于关联搜索和上下文进行推理得出的结果。

悦数图数据库:率先实现 LLM 适配,一键构建企业专属知识图谱应用

悦数图数据库不仅是国内首家提出 Graph RAG 概念的厂商,也率先实现了与大语言模型框架 Llama Index 、LangChain 等的深度适配,因此开发者可以专注于 LLM 的编排逻辑和 pipeline 设计,而不用亲自处理很多细节的抽象与实现,一站式生成高质量、低成本的企业级大语言模型应用。

Graph RAG 技术的出现可以说是为海量信息处理和检索带来了全新的思路。通过将知识图谱、图存储集成到大语言模型(LLM)  技术栈中,Graph RAG 把上下文学习推向了一个新的高度。目前,用户基于悦数图数据库 仅需要 3 行代码就可以轻松搭建 Graph  RAG,甚至整合更复杂的 RAG 逻辑,比如 Graph+Vector RAG。

选择相信随着图技术和深度学习算法的进一步发展,Graph RAG 技术在信息处理和检索领域的应用也会越来越广泛。欢迎大家点击【联系我们】获取悦数图数据的免费试用机会,轻松构建您的专属知识图谱应用!

相关实践学习
阿里云图数据库GDB入门与应用
图数据库(Graph Database,简称GDB)是一种支持Property Graph图模型、用于处理高度连接数据查询与存储的实时、可靠的在线数据库服务。它支持Apache TinkerPop Gremlin查询语言,可以帮您快速构建基于高度连接的数据集的应用程序。GDB非常适合社交网络、欺诈检测、推荐引擎、实时图谱、网络/IT运营这类高度互连数据集的场景。 GDB由阿里云自主研发,具备如下优势: 标准图查询语言:支持属性图,高度兼容Gremlin图查询语言。 高度优化的自研引擎:高度优化的自研图计算层和存储层,云盘多副本保障数据超高可靠,支持ACID事务。 服务高可用:支持高可用实例,节点故障迅速转移,保障业务连续性。 易运维:提供备份恢复、自动升级、监控告警、故障切换等丰富的运维功能,大幅降低运维成本。 产品主页:https://www.aliyun.com/product/gdb
相关文章
|
6月前
|
人工智能 数据安全/隐私保护
AI Agent是大模型落地业务场景的主流形式
【1月更文挑战第5天】AI Agent是大模型落地业务场景的主流形式
329 2
AI Agent是大模型落地业务场景的主流形式
|
机器学习/深度学习 存储 人工智能
阿里云机器学习PAI全新推出特征平台 (Feature Store),助力AI建模场景特征数据高效利用
机器学习平台 PAI 推出特征平台(PAI-FeatureStore),在所有需要特征的AI建模场景,用户可通过 Feature Store 轻松地共享和重用特征数据,减少资源和时间成本、提升工作效率。
|
3天前
|
人工智能 自然语言处理 机器人
文档智能与RAG技术如何提升AI大模型的业务理解能力
随着人工智能的发展,AI大模型在自然语言处理中的应用日益广泛。文档智能和检索增强生成(RAG)技术的兴起,为模型更好地理解和适应特定业务场景提供了新方案。文档智能通过自动化提取和分析非结构化文档中的信息,提高工作效率和准确性。RAG结合检索机制和生成模型,利用外部知识库提高生成内容的相关性和准确性。两者的结合进一步增强了AI大模型的业务理解能力,助力企业数字化转型。
27 3
|
12天前
|
人工智能 JSON API
阿里云文档智能 & RAG解决方案:提升AI大模型业务理解与应用
阿里云推出的文档智能 & RAG解决方案,旨在通过先进的文档解析技术和检索增强生成(RAG)方法,显著提升人工智能大模型在业务场景中的应用效果。该方案通过文档智能(Document Mind)技术将非结构化文档内容转换为结构化数据,提取文档的层级树、样式和版面信息,并输出为Markdown和Json格式,为RAG提供语义分块策略。这一过程不仅解决了文档内容解析错误和切块丢失语义信息的问题,还优化了输出LLM友好的Markdown信息。方案的优势在于其多格式支持能力,能够处理包括Office文档、PDF、Html、图片在内的主流文件类型,返回文档的样式、版面信息和层级树结构。
62 2
|
10天前
|
人工智能 JSON 自然语言处理
基于文档智能&RAG搭建更懂业务的AI大模型
本文介绍了一种结合文档智能和检索增强生成(RAG)技术,构建强大LLM知识库的方法。通过清洗文档内容、向量化处理和特定Prompt,提供足够的上下文信息,实现对企业级文档的智能问答。文档智能(Document Mind)能够高效解析多种文档格式,确保语义的连贯性和准确性。整个部署过程简单快捷,适合处理复杂的企业文档,提升信息提取和利用效率。
|
17天前
|
人工智能 弹性计算 文字识别
基于阿里云文档智能和RAG快速构建企业"第二大脑"
在数字化转型的背景下,企业面临海量文档管理的挑战。传统的文档管理方式效率低下,难以满足业务需求。阿里云推出的文档智能(Document Mind)与检索增强生成(RAG)技术,通过自动化解析和智能检索,极大地提升了文档管理的效率和信息利用的价值。本文介绍了如何利用阿里云的解决方案,快速构建企业专属的“第二大脑”,助力企业在竞争中占据优势。
|
18天前
|
存储 人工智能 弹性计算
基于《文档智能 & RAG让AI大模型更懂业务》解决方案实践体验后的想法
通过实践《文档智能 & RAG让AI大模型更懂业务》实验,掌握了构建强大LLM知识库的方法,处理企业级文档问答需求。部署文档和引导充分,但需增加资源选型指导。文档智能与RAG结合提升了文档利用效率,但在答案质量和内容精确度上有提升空间。解决方案适用于法律文档查阅、技术支持等场景,但需加强数据安全和隐私保护。建议增加基于容量需求的资源配置指导。
75 4
|
21天前
|
数据采集 人工智能 自然语言处理
文档智能 & RAG让AI大模型更懂业务
文档智能 & RAG让AI大模型更懂业务
|
28天前
|
人工智能
阅读了《文档智能 & RAG让AI大模型更懂业务》的解决方案后对解决方案的实践原理的理解
阅读《文档智能 & RAG让AI大模型更懂业务》后,我对文档智能处理与RAG技术结合的实践原理有了清晰理解。部署过程中,文档帮助详尽,但建议增加常见错误处理指南。体验LLM知识库后,模型在处理业务文档时效率和准确性显著提升,但在知识库自动化管理和文档适应能力方面仍有改进空间。解决方案适用于多种业务场景,但在特定场景下的集成和定制化方面仍需提升。
|
29天前
|
数据采集 人工智能 运维
《文档智能 & RAG让AI大模型更懂业务》解决方案体验评测
【10月更文挑战第11天】随着人工智能技术的不断进步,AI在各个领域的应用也愈发广泛。近期,我有幸接触并部署了《文档智能 & RAG让AI大模型更懂业务》这一创新性解决方案。该方案旨在通过结合文档智能处理和检索增强生成(Retrieval-Augmented Generation, RAG)技术来提升AI大模型对特定业务知识的理解能力。接下来,我将从多个角度分享我的体验与思考。
47 2