大模型+知识图谱双驱架构:新一代《知识语义框架SPG》白皮书

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,1000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 白皮书展望了SPG与LLM双向驱动的技术架构。通过基于SPG构建统一的图谱技术框架,可以屏蔽复杂的技术细节以支持新业务的快速部署,真正实现知识图谱技术的框架化、平民化、普惠化。

本文内容整理自《知识语义框架SPG》白皮书

🌟 OpenSPG GitHub:https://github.com/OpenSPG/openspg,欢迎大家 Star 关注~

2023年8月27日,在全国知识图谱与语义计算大会(China Conference on Knowledge Graph and Semantic Computing,CCKS)上,由SPG联合发起人同济大学特聘研究员王昊奋、蚂蚁集团知识引擎负责人梁磊及核心参编单位同济大学、天津大学、恒生电子股份有限公司、浙江创邻科技有限公司、达观数据有限公司、海乂知信息科技(南京)有限公司、浙江大学、之江实验室、中国科学院计算技术研究所联合发布了《语义增强可编程知识图谱(Semantic-enhanced Programmable Graph)白皮书》(下称SPG白皮书)。

1.png
表1 图谱面临的技术挑战

白皮书首先介绍了企业数字化基础设施面临的挑战,在企业的数字化过程中,积累了海量的数据,需要持续为用户创造价值以及实现高效的经营管理和风险控制。这为知识图谱(Knowledge Graph, KG)、大语言模型(Large Language Model, LLM)等AI技术提供了多样化的应用场景,同时也带来了新的机遇和挑战。企业需要建立应用友好的数据管理范式,以明确语义、消除歧义、发现错误;以连接数据孤岛以增强跨部门复用,实现高效的协同;以支持AI技术的高效利用以发现更多隐含关联,同时也可以为LLM提供更充足有效的领域知识库。知识图谱作为一种图结构化、语义化、逻辑依赖的知识建模方式,收到了较多的行业期待。无论是作为新一代企业级知识管理范式,还是解决大模型幻觉及复杂推理不足等问题,都有比较广阔的应用场景。

知识图谱面临的挑战:为什么我们提出SPG

白皮书指出,知识图谱作为一种建模和管理数据的方法,已经在企业数字化过程中发挥了重要作用。然而,随着企业对知识图谱的需求不断增加,传统的知识图谱技术面临着一些挑战。知识图谱自身技术框架的发展和对其在新知识数据管理范式、大模型的双轮驱动的期待并不完全匹配,图谱技术的发展也需要与时俱进。首先,缺乏工业级统一的知识建模框架。尽管资源描述框架(Resource Description Framework, RDF)/Web本体语言 (Web Ontology Language, OWL)这种强语义、弱结构的技术框架已经发展多年,但并未出现成功的企业级/商业化应用。相反,强结构、弱语义的属性图 (Labeled Property Graph, LPG)成为了企业级应用的首选。其次,缺乏统一的技术框架,导致跨领域迁移性较差,由于工具繁多、链路复杂,每个领域的图谱构建都需要从零开始。如表1所示,在应对复杂的业务场景和大规模数据时,传统的知识图谱技术存在一些局限性。

然而,任何复杂技术的大规模产业化应用都需要统一的技术框架,以屏蔽复杂的技术细节以实现跨场景迁移性支持新业务的快速部署。蚂蚁知识图谱团队通过多年业务实践的总结,提出了新一代知识语义框架SPG,充分借力LPG的结构性与RDF的语义性实现可编程范式的知识引擎架构,支持各领域图谱的高效构建和跨领域的知识语义对齐。

属性图知识管理的不足:结合黑产图谱/事理图谱的案例说明

白皮书中通过蚂蚁集团、恒生电子联合梳理的黑产图谱、事理图谱两个案例,详细介绍了业务应用中知识管理所面临的问题。并介绍随着业务的快速发展和知识体量的大幅增加,基于属性图知识管理的弊端逐渐显露。

首先,结合主体类型颗粒度差异、跨图谱冗余定义、属性/关系自适应等介绍结构定义与语义表示耦合带来的异构性和复杂性问题。

其次,结合事件超图、事理传导与结构依赖等,说明了传统知识图谱在知识多元异构及事理顺承、组合、结构、逻辑依赖等表达上的不足,并结合恒生事理图谱提出了如图1所示四象限模型要求。

第三,结合数据要素间的逻辑依赖、逻辑依赖风险传导等问题,介绍了知识间逻辑依赖带来的一致性和传导推理问题。

此外,朴素的属性和关系模型难以刻画事物的内在语义和事物之间的语义依赖,这导致图谱Schema不断膨胀,最终变得难以维护。在业务应用阶段,不得不添加大量硬编码来实现业务语义的解析和对齐。

2.png

图 1. 事理图谱四象限

为了解决这些问题,白皮书在第3、4、5、6、7章提出了SPG的解决思路和整体框架抽象,并在第9章中提供了基于SPG的两个案例的完整方案。

什么是SPG语义框架:语义增强并衔接大数据系统与AI系统

SPG充分融合了RDF/OWL的语义性和LPG的结构性,具有语义简洁和大数据兼容的优势。该框架能够实现知识动态到静态自动分层、领域内知识的唯一性和知识之间的依赖关系定义。同时,SPG框架还提供了可编程的范式,支持快速构建新的领域图谱和跨场景迁移。在解决典型问题和场景方面具有广泛的应用价值。举例来说,在黑产图谱和产业链事理图谱中,SPG框架可以帮助企业更好地识别和应对黑灰产,提高风险防控能力。在知识推理和智能问答方面,SPG框架可以提供更加准确和可解释的推理结果,提升用户体验和决策效果。针对企业级业务场景的应用特点,SPG框架抽象出了基于属性图的语义表示框架。

如图2所示,该框架明确定义了"知识"的形式化表示和可编程框架,使其可定义、可编程,机器可理解和处理。同时,SPG实现了知识层级间的兼容递进,支持工业级场景下非完备数据状态的图谱构建和持续迭代演化。最后,SPG框架有效衔接大数据与AI技术体系,支持对海量数据进行高效的知识化转换,帮助提高数据价值和应用价值。

3.png

图 2. SPG知识语义框架

SPG-Schema章节由天津大学和蚂蚁集团联合完成,结合SPG DC主体分类模型扩展与SPG Reasoning逻辑谓词语义扩展两个方面详细介绍。首先,在大数据表Schema定义或大数据表字段定义基础上扩展主体模型是最直接、最灵活的,将大数据表模型的列字段定义或字段定义映射到SPG主体模型的类型、属性、关系表达,通过映射将多源异构的数据表映射到非完备状态的主体结构。然后,再基于非完备状态的主体结构持续迭代演化并实现逻辑谓词语义的扩展。如图3所示,在这个过程中,SPG充分借鉴了ρdf最小可用集及OWL逻辑谓词能力,定义SPG主体模型最小语义单元并扩展SPG在谓词语义、逻辑规则等方面的表达。

4.png

图 3. SPG-Schema语法语义分层图

SPG 的核心目标是构建基于SPG 的标准化知识引擎架构,给领域图谱构建提供明确的语义表示、逻辑规则定义、算子框架(构建、推理)等,支持各厂商可插拔的适配基础引擎、算法服务,构建解决方案等。如图4所示,通过SPG可以实现离散实体要素深度语义网络化,支持稀疏关系自动补全显性稠密化;能够加速企业海量数据知识化集成,无缝衔接AI技术框架应用落地;能够实现跨图谱的零拷贝融合,连接数据孤岛加强复用。

5.png

图 4. SPG的主要能力模型

为实现对属性图的高效适配,创邻科技结合SPG语法实际执行过程的实现,详细梳理并定义了SPG的推理和计算转换到实际的LPG系统中执行的模块SPG-Engine。SPG底层依赖通常包括图存储、图查询、图计算等基础能力,这样的底层能力通常是由LPG的图服务厂商提供的。按照SPG语义下的图模型定义、图数据导入、图查询和计算等功能模块进行划分,结合SPG2LPG Translator Schema转换、SPG2LPG Builder知识构建、LPG2SPG Executor知识计算等分别给出了如何对接到底层LPG处理系统的方式。

由PlantData联合梳理定义了SPG-Controller,本模块作为SPG框架的控制层主要负责统一分析、调用和管理服务和任务的执行。作为SPG框架的核心枢纽,它与其他模块之间紧密关联,共同完成从用户输入到结果返回的全任务流程。SPG-Controller通过从SPG-LLM或SPG-Programming接收请求,进行解析编译并生成任务规划,对任务进行分发和调用,选择对应的能力来完成具体执行过程,包括从注册部署的SPG-Engine、SPG-Index或外部能力中选择对应的Runtime。

大模型背景下的知识图谱:SPG与LLM的结合及双向驱动

自2022年底以来,ChatGPT、GPT4等大模型掀起了人工智能的新浪潮,但当前大模型仍然存在知识幻觉性、复杂推理谬误和计算成本高等问题。符号化知识图谱的技术体系作为大模型的补充,可以实现可控的内容理解和内容生成,为大模型产业落地提供正确的领域知识和复杂推理能力的支持。有效结合知识图谱和大语言模型各自的优势,充分发挥各自的特长,可以提供更优质的人工智能服务和产品。

白皮书也以达观数据的案例为基础介绍了大模型与知识图谱联动的知识抽取、基于大模型的领域知识补全及自然语言知识查询与问答等,并指出将自然语言交互和知识图谱结合,形成可控、可信、可靠的问答,解决大模型自身所无法解决的“幻觉”问题,为产业应用解决“最后一公里”实现落地。

如图 5所示,白皮书最后展望了SPG与LLM双向驱动的技术架构。通过基于SPG构建统一的图谱技术框架,可以屏蔽复杂的技术细节以支持新业务的快速部署,真正实现知识图谱技术的框架化、平民化、普惠化。同时,知识图谱强事实、弱泛化、可解释性强、计算成本低、构建成本高的特点,可以与大模型弱事实、强泛化、可解释性差、计算成本高、语义理解强形成完美互补。通过统一的知识符号表示和引擎架构和大模型形成高效的联动和互补,通过大模型技术进一步降低图谱构建成本加速数据知识化,也为大模型的可控生成提供更多领域知识的补充。

6.png

图 5. 未来SPG与LLM双驱技术范式与框架

SPG的持续发展:工业应用下的海量知识管理及大模型的双向结合

白皮书指出,本次为SPG白皮书的1.0发布,未来会持续升级,包括能力开源。预计SPG编程框架会在2.0重点发布,详细发布计划见表2。

7.png

表 2. SPG未来发布计划

白皮书内容介绍和下载

如下为《SPG白皮书》目录结构摘要,如需获取全文,请点击文章底部【阅读原文】(PC端可访问SPG官方网址spg.openkg.cn进行下载)。

8.jpeg
9.jpeg
10.jpeg

我们希望通过这份白皮书,能够为读者提供一个全面了解 SPG 框架的机会,并激发更多的讨论和合作。期待产研各界同仁的讨论交流和批评指正,共建新一代工业级知识语义框架与引擎!

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
4月前
|
机器学习/深度学习 人工智能 监控
大型动作模型LAM:让企业重复任务实现80%效率提升的AI技术架构与实现方案
大型动作模型(LAMs)作为人工智能新架构,融合神经网络与符号逻辑,实现企业重复任务的自动化处理。通过神经符号集成、动作执行管道、模式学习、任务分解等核心技术,系统可高效解析用户意图并执行复杂操作,显著提升企业运营效率并降低人工成本。其自适应学习能力与上下文感知机制,使自动化流程更智能、灵活,为企业数字化转型提供坚实支撑。
341 0
大型动作模型LAM:让企业重复任务实现80%效率提升的AI技术架构与实现方案
|
3月前
|
数据采集 人工智能 文字识别
从CLIP到GPT-4V:多模态RAG背后的技术架构全揭秘
本文深入解析多模态RAG技术,涵盖其基本原理、核心组件与实践路径。通过整合文本、图像、音频等多源信息,实现跨模态检索与生成,拓展AI应用边界。内容详实,建议收藏学习。
503 50
从CLIP到GPT-4V:多模态RAG背后的技术架构全揭秘
|
5月前
|
存储 设计模式 人工智能
AI Agent安全架构实战:基于LangGraph的Human-in-the-Loop系统设计​
本文深入解析Human-in-the-Loop(HIL)架构在AI Agent中的核心应用,探讨其在高风险场景下的断点控制、状态恢复与安全管控机制,并结合LangGraph的创新设计与金融交易实战案例,展示如何实现效率与安全的平衡。
804 0
|
2月前
|
人工智能 自然语言处理 安全
AI助教系统:基于大模型与智能体架构的新一代教育技术引擎
AI助教系统融合大语言模型、教育知识图谱、多模态交互与智能体架构,实现精准学情诊断、个性化辅导与主动教学。支持图文语音输入,本地化部署保障隐私,重构“教、学、评、辅”全链路,推动因材施教落地,助力教育数字化转型。(238字)
|
3月前
|
数据采集 机器学习/深度学习 搜索推荐
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
MIT与丰田研究院研究发现,扩散模型的“局部性”并非源于网络架构的精巧设计,而是自然图像统计规律的产物。通过线性模型仅学习像素相关性,即可复现U-Net般的局部敏感模式,揭示数据本身蕴含生成“魔法”。
172 3
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
|
2月前
|
人工智能 JavaScript 前端开发
GenSX (不一样的AI应用框架)架构学习指南
GenSX 是一个基于 TypeScript 的函数式 AI 工作流框架,以“函数组合替代图编排”为核心理念。它通过纯函数组件、自动追踪与断点恢复等特性,让开发者用自然代码构建可追溯、易测试的 LLM 应用。支持多模型集成与插件化扩展,兼具灵活性与工程化优势。
233 6
|
2月前
|
存储 人工智能 搜索推荐
拔俗AI助教系统:基于大模型与智能体架构的新一代教育技术引擎
AI助教融合大语言模型、教育知识图谱、多模态感知与智能体技术,重构“教、学、评、辅”全链路。通过微调LLM、精准诊断错因、多模态交互与自主任务规划,实现个性化教学。轻量化部署与隐私保护设计保障落地安全,未来将向情感感知与教育深度协同演进。(238字)
|
2月前
|
机器学习/深度学习 人工智能 搜索推荐
拔俗AI学伴智能体系统:基于大模型与智能体架构的下一代个性化学习引擎
AI学伴智能体系统融合大模型、多模态理解与自主决策,打造具备思考能力的个性化学习伙伴。通过动态推理、长期记忆、任务规划与教学逻辑优化,实现千人千面的自适应教育,助力因材施教落地,推动教育公平与效率双提升。(238字)
|
2月前
|
机器学习/深度学习 存储 缓存
115_LLM基础模型架构设计:从Transformer到稀疏注意力
大型语言模型(LLM)的架构设计是其性能的核心决定因素。从2017年Transformer架构的提出,到如今的稀疏注意力和混合专家模型,LLM架构经历了快速的演进。本文将全面探讨LLM基础架构的设计原理,深入分析Transformer的核心机制,详细介绍稀疏注意力、MoE等创新架构,并展望未来架构发展方向。通过数学推导和实践案例,为构建高效、强大的LLM提供全面指导。
|
2月前
|
机器学习/深度学习 自然语言处理 算法
48_动态架构模型:NAS在LLM中的应用
大型语言模型(LLM)在自然语言处理领域的突破性进展,很大程度上归功于其庞大的参数量和复杂的网络架构。然而,随着模型规模的不断增长,计算资源消耗、推理延迟和部署成本等问题日益凸显。如何在保持模型性能的同时,优化模型架构以提高效率,成为2025年大模型研究的核心方向之一。神经架构搜索(Neural Architecture Search, NAS)作为一种自动化的网络设计方法,正在为这一挑战提供创新性解决方案。本文将深入探讨NAS技术如何应用于LLM的架构优化,特别是在层数与维度调整方面的最新进展,并通过代码实现展示简单的NAS实验。