行业首创 !Graph RAG:基于知识图谱的检索增强技术与优势对比(附 Demo)

本文涉及的产品
RDS AI 助手,专业版
RDS Agent(兼容OpenClaw),2核4GB
云数据库 PolarDB MySQL 版,列存表分析加速 4核8GB
简介: 悦数图数据库率先实现了与 Llama Index、LangChain 等大语言模型框架的深度适配并在行业内首次提出了 Graph RAG(基于图技术的检索增强)的概念,利用知识图谱结合大语言模型(LLM)为搜索引擎提供更全面的上下文信息,可以帮助用户以更低成本获得更智能、更精准的搜索结果。目前,悦数图数据库推出的这项技术在与向量数据库结合的领域也获得了相当不错的效果。

身处信息爆炸时代,如何从海量信息中获取准确全面的搜索结果,并以更直观、可读的方式呈现出来是大家期待达成的目标。传统的搜索增强技术受限于训练文本数量、质量等问题,对于复杂或多义词查询效果不佳,更无法满足  ChatGPT 等大语言模型应用带来的大规模、高并发的复杂关联查询需求。

在此背景下,悦数图数据库率先实现了与 Llama Index、LangChain 等大语言模型框架的深度适配并在行业内首次提出了 Graph RAG(基于图技术的检索增强)的概念,利用知识图谱结合大语言模型(LLM)为搜索引擎提供更全面的上下文信息,可以帮助用户以更低成本获得更智能、更精准的搜索结果。目前,悦数图数据库推出的这项技术在与向量数据库结合的领域也获得了相当不错的效果。

今天我们就一起来了解下什么是 Graph RAG 以及它与其他 RAG 技术的对比,也欢迎进入 悦数图数据库 官网,通过 Demo 直观感受这一功能。

传统检索增强技术的瓶颈:缺少训练数据,文本理解不足

在传统的搜索引擎中,检索结果通常是基于关键词的匹配。而随着用户对搜索精确度和词汇联想能力要求的提高,传统的搜索结果往往难以满足用户的实际需求,尤其是在处理复杂的问题和长尾查询时,效果会明显降低。

为了解决这类问题,RAG 搜索增强技术应运而生。RAG (Retrieval-Augmented Generation),指的是通过 RAG 模型来对搜索结果进行增强的过程。具体来说,它是将检索技术和语言生成技术相结合来增强生成过程的一种技术,可以帮助传统搜索引擎生成更加准确、相关和多样化的信息来满足用户的需求。

而为了使搜索结果更精准,RAG 技术仍然面临训练数据和文本理解的挑战:

  • 训练数据:RAG 技术需要大量的数据和计算资源来训练和生成模型,尤其是在处理多语言和复杂任务时,但是互联网上文本的质量和准确性是有限的,训练数据的不足会直接影响生成内容的质量
  • 文本理解:RAG 需要理解查询的意图,但是对于复杂的查询或者多义词查询,RAG 可能会出现歧义或不确定性,从而影响生成的质量

因此,如何找到更强大的检索增强技术,以更高效率获得更符合搜索者的预期的搜索结果的问题就显得更迫在眉睫

什么是 Graph RAG:基于知识图谱的检索增强技术

「Graph RAG」是由悦数图数据率先提出的概念,它是一种基于知识图谱的检索增强技术,通过构建图模型的知识表达,将实体和关系之间的联系用图的形式进行展示,然后利用大语言模型 LLM(Large Language Model)进行检索增强。

在之前 和 Llama Index 的直播研讨会 中我们提到,图数据库凭借图形格式组织和连接信息的方式,天然适合存储及表达复杂的上下文信息。通过图技术构建知识图谱提升 In-Context  Learning 的全面性为用户提供更多的上下文信息,能够帮助大语言模型(LLM)更好地理解实体间的关系,提升自己的表达和推理能力。

Graph RAG 将知识图谱等价于一个超大规模的词汇表,而实体和关系则对应于单词。通过这种方式,Graph RAG 在检索时能够将实体和关系作为单元进行联合建模,从而更准确地理解查询意图,并提供更精准的检索结果。

Demo 演示:检索强化效果对比:「悦数」官网可直接在线体验

下面我们就通过 Demo 演示来直观比较下 Graph RAG 与 Vector RAG、Text2Cypher 这三种检索增强技术的区别和对比——

Graph RAG 与 Vector RAG 的对比

首先是 Vector RAG(向量检索) 与 Graph + Vector RAG(图技术增强的向量检索)的对比。

  • 左:Vector RAG 右:Graph RAG

以《银河护卫队  3》的数据集为例,当我们询问“彼得·奎尔的相关信息”时,单独使用向量检索引擎只给出了简单的身份、剧情、演员信息,而当我们使用 Graph RAG  增强后的搜索结果,则提供了更多关于主角技能、角色目标和身份变化的信息——在这个例子中我们不难看出, Graph RAG 的方法有效补充了 Embedding、向量搜索等传统手段的不足

Graph RAG 与 Text2Cypher 的对比

基于图谱的 LLM 的另一种有趣方法是 Text2Cypher,即自然语言生成图查询。这种方法不依赖于实体的子图检索,而是将任务/问题翻译成一个面向答案的特定图查询,和我们常说的 Text2SQL 本质是一样的。

Text2Cypher 和 Graph RAG 这两种方法主要在其检索机制上有所不同。Text2Cypher 根据知识图谱的 Schema  和给定的任务生成图形模式查询,而 (Sub)Graph RAG 获取相关的子图以提供上下文。两者都有其优点,大家可以通过这个 demo  ,更直观理解他们的特点:

  • 左:Text2Cypher 右:Graph RAG

我们可以看到两者的图查询模式在可视化下是有非常清晰的差异的,基于 Graph RAG  实现的检索明显呈现出更丰富的结果。用户不仅获得了最基础的介绍信息,更能得到“彼得·奎尔是银河护卫队的领导者”、“这个角色暗示自己将在续集中回归”以及角色性格等一系列基于关联搜索和上下文进行推理得出的结果。

悦数图数据库:率先实现 LLM 适配,一键构建企业专属知识图谱应用

悦数图数据库不仅是国内首家提出 Graph RAG 概念的厂商,也率先实现了与大语言模型框架 Llama Index 、LangChain 等的深度适配,因此开发者可以专注于 LLM 的编排逻辑和 pipeline 设计,而不用亲自处理很多细节的抽象与实现,一站式生成高质量、低成本的企业级大语言模型应用。

Graph RAG 技术的出现可以说是为海量信息处理和检索带来了全新的思路。通过将知识图谱、图存储集成到大语言模型(LLM)  技术栈中,Graph RAG 把上下文学习推向了一个新的高度。目前,用户基于悦数图数据库 仅需要 3 行代码就可以轻松搭建 Graph  RAG,甚至整合更复杂的 RAG 逻辑,比如 Graph+Vector RAG。

选择相信随着图技术和深度学习算法的进一步发展,Graph RAG 技术在信息处理和检索领域的应用也会越来越广泛。欢迎大家点击【联系我们】获取悦数图数据的免费试用机会,轻松构建您的专属知识图谱应用!

相关实践学习
阿里云图数据库GDB入门与应用
图数据库(Graph Database,简称GDB)是一种支持Property Graph图模型、用于处理高度连接数据查询与存储的实时、可靠的在线数据库服务。它支持Apache TinkerPop Gremlin查询语言,可以帮您快速构建基于高度连接的数据集的应用程序。GDB非常适合社交网络、欺诈检测、推荐引擎、实时图谱、网络/IT运营这类高度互连数据集的场景。 GDB由阿里云自主研发,具备如下优势: 标准图查询语言:支持属性图,高度兼容Gremlin图查询语言。 高度优化的自研引擎:高度优化的自研图计算层和存储层,云盘多副本保障数据超高可靠,支持ACID事务。 服务高可用:支持高可用实例,节点故障迅速转移,保障业务连续性。 易运维:提供备份恢复、自动升级、监控告警、故障切换等丰富的运维功能,大幅降低运维成本。 产品主页:https://www.aliyun.com/product/gdb
相关文章
|
机器学习/深度学习 存储 NoSQL
Graph RAG: 知识图谱结合 LLM 的检索增强
RAG(Retrieval Argumented Generation)这种基于特定任务/问题的文档检索范式中,我们通常先收集必要的上下文,然后利用具有认知能力的机器学习模型进行上下文学习(in-context learning),来合成任务的答案。这次,我们借助 LLM 的力量,强化下 RAG。
3407 0
Graph RAG: 知识图谱结合 LLM 的检索增强
|
数据采集 供应链 搜索推荐
数据集成:融合不同来源的数据
【6月更文挑战第4天】数据集成在企业中发挥关键作用,连接数据孤岛,促进信息流动,提升决策能力。通过抽取、清洗、转换和加载(ETL)不同来源、格式的数据,整合到统一框架,进行深度分析。以零售商为例,集成销售、客户和供应链数据可优化库存管理。数据清洗确保质量,转换满足分析需求,最终加载到数据仓库。Python和pandas库是实现这一过程的工具之一。随着技术进步,数据集成将推动企业向智能化和个性化发展。
538 2
|
人工智能 自然语言处理 知识图谱
Yuxi-Know:开源智能问答系统,基于大模型RAG与知识图谱技术快速构建知识库
Yuxi-Know是一个结合大模型RAG知识库与知识图谱技术的智能问答平台,支持多格式文档处理和复杂知识关系查询,具备多模型适配和智能体拓展能力。
3774 55
Yuxi-Know:开源智能问答系统,基于大模型RAG与知识图谱技术快速构建知识库
|
存储 自然语言处理 搜索推荐
GraphRAG:构建下一代知识图谱驱动的对话系统
【10月更文挑战第10天】随着自然语言处理(NLP)技术的发展,对话系统已经从简单的基于规则的问答系统演变为能够理解复杂语境并提供个性化服务的智能助手。然而,传统的对话系统往往依赖于预先定义好的模板或有限的知识库,这限制了它们在理解和生成多样化响应方面的能力。为了解决这一问题,GraphRAG(Graph-based Retrieval-Augmented Generation)技术应运而生。GraphRAG结合了大规模的知识图谱和先进的NLP模型,旨在提升对话系统的理解和响应能力。
1247 1
|
人工智能 缓存 安全
钉钉 + AI 网关给 DeepSeek 办入职
通过 Open-WebUI 在企业内部部署一套 DeepSeek 只是第一步,给 DeepSeek 办理入职,在钉钉等企业通讯工具上和 DeepSeek 对话才是真时尚。
637 104
钉钉 + AI 网关给 DeepSeek 办入职
|
Java 数据库 Docker
基于neo4j数据库和dify大模型框架的rag模型搭建
基于neo4j数据库和dify大模型框架的rag模型搭建
3684 35
|
存储 关系型数据库 分布式数据库
GraphRAG:基于PolarDB+通义千问+LangChain的知识图谱+大模型最佳实践
本文介绍了如何使用PolarDB、通义千问和LangChain搭建GraphRAG系统,结合知识图谱和向量检索提升问答质量。通过实例展示了单独使用向量检索和图检索的局限性,并通过图+向量联合搜索增强了问答准确性。PolarDB支持AGE图引擎和pgvector插件,实现图数据和向量数据的统一存储与检索,提升了RAG系统的性能和效果。
|
存储 NoSQL 知识图谱
7 种查询策略教你用好 Graph RAG 探索知识图谱
我们在这篇文章中探讨了知识图谱,特别是图数据库 NebulaGraph,是如何结合 LlamaIndex 和 GPT-3.5 为 Philadelphia Phillies 队构建了一个 RAG。 此外,我们还探讨了 7 种查询引擎,研究了它们的内部工作,并观察了它们对三个问题的回答。我们比较了每个查询引擎的优点和缺点,以便更好地理解了每个查询引擎设计的用例。
1708 0
7 种查询策略教你用好 Graph RAG 探索知识图谱