为什么知识图谱是人工智能系统的未来?

简介: 检索增强生成(RAG)系统为大型语言模型(LLM)适应新数据集提供了巨大的前景,因为它提供了可据以构建响应的参考资料。

免费体验阿里云高性能向量检索服务https://www.aliyun.com/product/ai/dashvector


利用结构化知识进行复杂的跨数据推理

检索增强生成(RAG)系统为大型语言模型(LLM)适应新数据集提供了巨大的前景,因为它提供了可据以构建响应的参考资料。然而,基础知识源的选择会对整体能力产生重大影响。

本文将详细阐述微软在最近的 GraphRAG 研究中提出的 "全数据集推理 "概念,并通过实证展示为什么他们的结构化知识图谱方法与分层语义聚类相结合,在对全语料进行推理时要比基本的向量数据库有效得多。

GraphRAG 方法处理整个私人数据集,构建丰富的知识图谱,捕捉实体、关系和自下而上的语义分组。该图提供了一种结构化的表示方法,将单个通道向量中缺乏的概念连接到整个文档中。

利用拓扑结构和内容分组,GraphRAG 可以实现对整个数据集的清晰理解,从概括关键主题到在不同来源的互不关联的事实之间进行推论。 C147C569-5B73-49e2-9FD2-89393969604A.png

矢量数据库的局限性

大部分检索增强生成(RAG)系统都依赖于对从源文档中提取的文本段落进行基本的向量相似性搜索,每个段落都使用句子转换器(SentenceTransformers)等模型编码为密集向量嵌入。

在查询时,用户的问题也被嵌入到共同的向量空间中,通过最近邻搜索算法检索相关段落,该算法通过余弦相似度等距离指标评估相似性。

然而,这种方法存在几个缺点:

  • 孤立的段落缺乏完整文档的上下文,妨碍了理解。
  • 没有保留文档结构信号,如章节标题、列表或表格。
  • 未对不同来源的时间事件序列和时间线进行建模。
  • 不同段落中对同一实体的引用是互不关联的。

由于这些因素,段落向量 RAG 系统在处理需要多文档推理的查询时非常吃力,它们无法在不同来源的互不相关的信息之间建立联系。因此,无法可靠地回答涉及关键概念的汇总和总结的全数据集问题。交叉叙述和主题没有统一的视图。

如果没有一个统一的结构将跨文档的实体和事件相互连接起来,基本的通道向量就无法支持对语料进行复杂的分析,而这正是需要真正的多跳推理的场景。


引入知识图谱

与段落向量表示法不同,知识图谱由从文本中提取的相互关联的实体、关系和分组组成,可以克服孤立推理的局限性。

知识图谱通过节点和边的结构拓扑,明确地将各文档中的概念连接起来。人、组织、地点等实体成为节点。它们之间的关系形成了标有 "受雇于"、"总部在"、"收购 "等语义类型的边。 此外,应用于拓扑结构的图聚类算法可以检测群落,并将密切相关的实体群归纳为语义群。 这种基于图的表示法大大提高了推理能力:

389E00AC-BEAD-4538-8C52-BEE0949FBE14.png

知识图谱通过跨文档映射的键入关系将相关信息明确地联系在一起,从而实现了真正的跨不同来源的多跳推理,这正是通道向量检索在全数据集理解方面所缺乏的能力。


实现真正的跨文档推理

在分析包含成千上万相互关联的文档(如财务报告、新闻报道、法律案件卷宗和研究出版物)的丰富语料库时,知识图谱的优势就会凸显出来。

通过编码跨文档明确映射的实体之间的标记关系,知识图谱可以有效地将不同的信息拼接在一起,这种连通性实现了跨越文档的复杂多跳推理链,这正是跨语料库理解的精髓所在,同时还能保持源数据的出处。

丰富的拓扑结构与集成的类型本体相结合,既能灵活地提出跨主题的复杂分析查询,又能提供推理工具来制定以数据为基础的系统响应,这些能力是基本的通道向量查询所严重缺乏的。


全数据集推理--多模式视角

  • 图查询提取与复杂条件匹配的精确子图——对n元语义模式、拓扑形状和算法发现的社区进行建模,这为通过链式关系相互连接的实体提供了结构化的解释。
  • 矢量相似性可快速显示没有明确联系的其他相关实体,通过近似语义扩大相关性,结合拓扑和内容信号。
  • 图算法可从全局图模式中检测出影响集群、动态事件序列、中心实体等高阶趋势,得出宏观见解。
  • 聚类根据连接性将紧密相关的实体群归纳为主题和叙事,并对数据集主题进行编码,确定流行程度。

这些技术的融合结合了有针对性的正式查询、广泛的概念相关性、抽象的宏观现象和浓缩的表示方法使人们能够从多个维度进行深入了解。这就增强了知识图谱的多功能性,使其能够对整个数据集进行多模式理解,包括专业查询、高级战略分析以及介于两者之间的所有内容,这对数据密集型企业至关重要。


跨越业务需求范围

无论是优化送货路线、分析客户流失因素、评估投资组合风险、跟踪供应链瓶颈、识别药物反应模式,还是从收益报告中揭露内幕交易,结构化知识图谱都能进行多方面的推理,这对于应对背景密集型业务挑战至关重要。

  • 灵活的查询机制与分析问题的复杂性相匹配
  • 整合的语义有助于洞察分散的文档
  • 自定义本体约束使推理与业务逻辑保持一致
  • 能够在一个知识基底中进行宏观和微观操作

丰富的可组合性使我们能够根据细微的组织需求量身定制情境感知、智能与稀疏的矢量通道表示法相比,这是一种变革性的优势。开启更深入的洞察力!


向量检索服务 DashVector 免费试用进行中,玩转大模型搜索,快来试试吧~

了解更多信息,请点击:https://www.aliyun.com/product/ai/dashvector

相关文章
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
springboot基于人工智能和自然语言理解技术的医院智能导医系统源码
智能导诊系统可为患者提供线上挂号智能辅助服务,患者根据提示手动输入自己的基本症状,通过智能对话方式,该系统会依据大数据一步步帮助患者“诊断”,并最终推荐就医的科室和相关专家。患者可自主选择,实现“一键挂号”。这一模式将精确的导诊服务前置,从源头上让医疗服务更高效。
370 2
|
3月前
|
机器学习/深度学习 存储 人工智能
人工智能自然语言对话系统
人工智能自然语言对话系统
43 1
|
3月前
|
传感器 机器学习/深度学习 人工智能
人工智能算法和系统的进化
人工智能算法和系统的进化
35 0
|
12天前
|
人工智能 自然语言处理 搜索推荐
|
23天前
|
机器学习/深度学习 人工智能 搜索推荐
探索安卓应用中的新趋势:人工智能驱动的智能推荐系统
传统的应用推荐系统已经无法满足用户日益增长的个性化需求。本文将探讨如何通过引入人工智能技术,构建智能推荐系统,为用户提供更加精准、个性化的应用推荐体验,进而提升应用的用户满意度和留存率。
17 0
|
1月前
|
机器学习/深度学习 传感器 人工智能
基于人工智能的自适应交通流量控制系统
【2月更文挑战第30天】 在现代城市管理中,交通拥堵一直是影响居民生活质量和城市可持续发展的关键问题。本文提出了一个基于人工智能技术的自适应交通流量控制系统,旨在通过实时数据分析、模式识别和预测算法来优化交通信号灯调度,减少交通延误,提高道路使用效率。系统采用多层神经网络与深度学习技术进行交通流状态的特征提取和趋势预测,同时结合边缘计算提升响应速度,确保了控制的实时性和准确性。本研究的创新点在于将传统的交通工程方法与最新的AI技术相结合,实现了一个具有自我学习和适应能力的智能交通管理系统。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
构建未来:人工智能在持续学习系统中的创新应用
【2月更文挑战第28天】 随着技术的不断进步,人工智能(AI)已成为推动现代技术创新的关键力量。特别是在机器学习领域,AI系统的能力不断增强,能够处理更复杂的任务并做出更加精准的决策。本文将探讨AI在持续学习系统中的应用,重点分析其在数据处理、模式识别和自适应学习机制方面的最新进展,并提出如何利用这些技术来设计更为高效和智能的教育工具,以促进个体和组织的知识积累与技能提升。
17 1
|
5月前
|
存储 机器学习/深度学习 人工智能
唯有超大规模存储系统才能满足人工智能的需求
现代存储技术将带来新水平的自动化、性能、安全性和灵活性,这将从人工智能和机器学习数据集中释放出更大的价值,而不会受到过时硬件的限制,以及成本的不断增长。
66 0
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
小说中修仙系统的方向统计_IT修仙_人工智能的底层逻辑
小说中修仙系统的方向统计_IT修仙_人工智能的底层逻辑
110 0
|
3月前
|
存储 人工智能 自然语言处理
知识图谱系统在人工智能领域的应用与前景
知识图谱(Knowledge Graph)是一种新型的知识表示、存储和查询的方法,也是人工智能领域中重要的基础技术之一。本文主要介绍了知识图谱的概念、产生背景,以及发展历程,并详细分析了知识图谱人工智能领域中的应用,最后对其未来的发展趋势进行了展望。

热门文章

最新文章