大模型+知识图谱双驱架构:新一代《知识语义框架SPG》白皮书

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
大数据开发治理平台 DataWorks,不限时长
简介: 白皮书展望了SPG与LLM双向驱动的技术架构。通过基于SPG构建统一的图谱技术框架,可以屏蔽复杂的技术细节以支持新业务的快速部署,真正实现知识图谱技术的框架化、平民化、普惠化。

本文内容整理自《知识语义框架SPG》白皮书

🌟 OpenSPG GitHub:https://github.com/OpenSPG/openspg,欢迎大家 Star 关注~

2023年8月27日,在全国知识图谱与语义计算大会(China Conference on Knowledge Graph and Semantic Computing,CCKS)上,由SPG联合发起人同济大学特聘研究员王昊奋、蚂蚁集团知识引擎负责人梁磊及核心参编单位同济大学、天津大学、恒生电子股份有限公司、浙江创邻科技有限公司、达观数据有限公司、海乂知信息科技(南京)有限公司、浙江大学、之江实验室、中国科学院计算技术研究所联合发布了《语义增强可编程知识图谱(Semantic-enhanced Programmable Graph)白皮书》(下称SPG白皮书)。

1.png
表1 图谱面临的技术挑战

白皮书首先介绍了企业数字化基础设施面临的挑战,在企业的数字化过程中,积累了海量的数据,需要持续为用户创造价值以及实现高效的经营管理和风险控制。这为知识图谱(Knowledge Graph, KG)、大语言模型(Large Language Model, LLM)等AI技术提供了多样化的应用场景,同时也带来了新的机遇和挑战。企业需要建立应用友好的数据管理范式,以明确语义、消除歧义、发现错误;以连接数据孤岛以增强跨部门复用,实现高效的协同;以支持AI技术的高效利用以发现更多隐含关联,同时也可以为LLM提供更充足有效的领域知识库。知识图谱作为一种图结构化、语义化、逻辑依赖的知识建模方式,收到了较多的行业期待。无论是作为新一代企业级知识管理范式,还是解决大模型幻觉及复杂推理不足等问题,都有比较广阔的应用场景。

知识图谱面临的挑战:为什么我们提出SPG

白皮书指出,知识图谱作为一种建模和管理数据的方法,已经在企业数字化过程中发挥了重要作用。然而,随着企业对知识图谱的需求不断增加,传统的知识图谱技术面临着一些挑战。知识图谱自身技术框架的发展和对其在新知识数据管理范式、大模型的双轮驱动的期待并不完全匹配,图谱技术的发展也需要与时俱进。首先,缺乏工业级统一的知识建模框架。尽管资源描述框架(Resource Description Framework, RDF)/Web本体语言 (Web Ontology Language, OWL)这种强语义、弱结构的技术框架已经发展多年,但并未出现成功的企业级/商业化应用。相反,强结构、弱语义的属性图 (Labeled Property Graph, LPG)成为了企业级应用的首选。其次,缺乏统一的技术框架,导致跨领域迁移性较差,由于工具繁多、链路复杂,每个领域的图谱构建都需要从零开始。如表1所示,在应对复杂的业务场景和大规模数据时,传统的知识图谱技术存在一些局限性。

然而,任何复杂技术的大规模产业化应用都需要统一的技术框架,以屏蔽复杂的技术细节以实现跨场景迁移性支持新业务的快速部署。蚂蚁知识图谱团队通过多年业务实践的总结,提出了新一代知识语义框架SPG,充分借力LPG的结构性与RDF的语义性实现可编程范式的知识引擎架构,支持各领域图谱的高效构建和跨领域的知识语义对齐。

属性图知识管理的不足:结合黑产图谱/事理图谱的案例说明

白皮书中通过蚂蚁集团、恒生电子联合梳理的黑产图谱、事理图谱两个案例,详细介绍了业务应用中知识管理所面临的问题。并介绍随着业务的快速发展和知识体量的大幅增加,基于属性图知识管理的弊端逐渐显露。

首先,结合主体类型颗粒度差异、跨图谱冗余定义、属性/关系自适应等介绍结构定义与语义表示耦合带来的异构性和复杂性问题。

其次,结合事件超图、事理传导与结构依赖等,说明了传统知识图谱在知识多元异构及事理顺承、组合、结构、逻辑依赖等表达上的不足,并结合恒生事理图谱提出了如图1所示四象限模型要求。

第三,结合数据要素间的逻辑依赖、逻辑依赖风险传导等问题,介绍了知识间逻辑依赖带来的一致性和传导推理问题。

此外,朴素的属性和关系模型难以刻画事物的内在语义和事物之间的语义依赖,这导致图谱Schema不断膨胀,最终变得难以维护。在业务应用阶段,不得不添加大量硬编码来实现业务语义的解析和对齐。

2.png

图 1. 事理图谱四象限

为了解决这些问题,白皮书在第3、4、5、6、7章提出了SPG的解决思路和整体框架抽象,并在第9章中提供了基于SPG的两个案例的完整方案。

什么是SPG语义框架:语义增强并衔接大数据系统与AI系统

SPG充分融合了RDF/OWL的语义性和LPG的结构性,具有语义简洁和大数据兼容的优势。该框架能够实现知识动态到静态自动分层、领域内知识的唯一性和知识之间的依赖关系定义。同时,SPG框架还提供了可编程的范式,支持快速构建新的领域图谱和跨场景迁移。在解决典型问题和场景方面具有广泛的应用价值。举例来说,在黑产图谱和产业链事理图谱中,SPG框架可以帮助企业更好地识别和应对黑灰产,提高风险防控能力。在知识推理和智能问答方面,SPG框架可以提供更加准确和可解释的推理结果,提升用户体验和决策效果。针对企业级业务场景的应用特点,SPG框架抽象出了基于属性图的语义表示框架。

如图2所示,该框架明确定义了"知识"的形式化表示和可编程框架,使其可定义、可编程,机器可理解和处理。同时,SPG实现了知识层级间的兼容递进,支持工业级场景下非完备数据状态的图谱构建和持续迭代演化。最后,SPG框架有效衔接大数据与AI技术体系,支持对海量数据进行高效的知识化转换,帮助提高数据价值和应用价值。

3.png

图 2. SPG知识语义框架

SPG-Schema章节由天津大学和蚂蚁集团联合完成,结合SPG DC主体分类模型扩展与SPG Reasoning逻辑谓词语义扩展两个方面详细介绍。首先,在大数据表Schema定义或大数据表字段定义基础上扩展主体模型是最直接、最灵活的,将大数据表模型的列字段定义或字段定义映射到SPG主体模型的类型、属性、关系表达,通过映射将多源异构的数据表映射到非完备状态的主体结构。然后,再基于非完备状态的主体结构持续迭代演化并实现逻辑谓词语义的扩展。如图3所示,在这个过程中,SPG充分借鉴了ρdf最小可用集及OWL逻辑谓词能力,定义SPG主体模型最小语义单元并扩展SPG在谓词语义、逻辑规则等方面的表达。

4.png

图 3. SPG-Schema语法语义分层图

SPG 的核心目标是构建基于SPG 的标准化知识引擎架构,给领域图谱构建提供明确的语义表示、逻辑规则定义、算子框架(构建、推理)等,支持各厂商可插拔的适配基础引擎、算法服务,构建解决方案等。如图4所示,通过SPG可以实现离散实体要素深度语义网络化,支持稀疏关系自动补全显性稠密化;能够加速企业海量数据知识化集成,无缝衔接AI技术框架应用落地;能够实现跨图谱的零拷贝融合,连接数据孤岛加强复用。

5.png

图 4. SPG的主要能力模型

为实现对属性图的高效适配,创邻科技结合SPG语法实际执行过程的实现,详细梳理并定义了SPG的推理和计算转换到实际的LPG系统中执行的模块SPG-Engine。SPG底层依赖通常包括图存储、图查询、图计算等基础能力,这样的底层能力通常是由LPG的图服务厂商提供的。按照SPG语义下的图模型定义、图数据导入、图查询和计算等功能模块进行划分,结合SPG2LPG Translator Schema转换、SPG2LPG Builder知识构建、LPG2SPG Executor知识计算等分别给出了如何对接到底层LPG处理系统的方式。

由PlantData联合梳理定义了SPG-Controller,本模块作为SPG框架的控制层主要负责统一分析、调用和管理服务和任务的执行。作为SPG框架的核心枢纽,它与其他模块之间紧密关联,共同完成从用户输入到结果返回的全任务流程。SPG-Controller通过从SPG-LLM或SPG-Programming接收请求,进行解析编译并生成任务规划,对任务进行分发和调用,选择对应的能力来完成具体执行过程,包括从注册部署的SPG-Engine、SPG-Index或外部能力中选择对应的Runtime。

大模型背景下的知识图谱:SPG与LLM的结合及双向驱动

自2022年底以来,ChatGPT、GPT4等大模型掀起了人工智能的新浪潮,但当前大模型仍然存在知识幻觉性、复杂推理谬误和计算成本高等问题。符号化知识图谱的技术体系作为大模型的补充,可以实现可控的内容理解和内容生成,为大模型产业落地提供正确的领域知识和复杂推理能力的支持。有效结合知识图谱和大语言模型各自的优势,充分发挥各自的特长,可以提供更优质的人工智能服务和产品。

白皮书也以达观数据的案例为基础介绍了大模型与知识图谱联动的知识抽取、基于大模型的领域知识补全及自然语言知识查询与问答等,并指出将自然语言交互和知识图谱结合,形成可控、可信、可靠的问答,解决大模型自身所无法解决的“幻觉”问题,为产业应用解决“最后一公里”实现落地。

如图 5所示,白皮书最后展望了SPG与LLM双向驱动的技术架构。通过基于SPG构建统一的图谱技术框架,可以屏蔽复杂的技术细节以支持新业务的快速部署,真正实现知识图谱技术的框架化、平民化、普惠化。同时,知识图谱强事实、弱泛化、可解释性强、计算成本低、构建成本高的特点,可以与大模型弱事实、强泛化、可解释性差、计算成本高、语义理解强形成完美互补。通过统一的知识符号表示和引擎架构和大模型形成高效的联动和互补,通过大模型技术进一步降低图谱构建成本加速数据知识化,也为大模型的可控生成提供更多领域知识的补充。

6.png

图 5. 未来SPG与LLM双驱技术范式与框架

SPG的持续发展:工业应用下的海量知识管理及大模型的双向结合

白皮书指出,本次为SPG白皮书的1.0发布,未来会持续升级,包括能力开源。预计SPG编程框架会在2.0重点发布,详细发布计划见表2。

7.png

表 2. SPG未来发布计划

白皮书内容介绍和下载

如下为《SPG白皮书》目录结构摘要,如需获取全文,请点击文章底部【阅读原文】(PC端可访问SPG官方网址spg.openkg.cn进行下载)。

8.jpeg
9.jpeg
10.jpeg

我们希望通过这份白皮书,能够为读者提供一个全面了解 SPG 框架的机会,并激发更多的讨论和合作。期待产研各界同仁的讨论交流和批评指正,共建新一代工业级知识语义框架与引擎!

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
8天前
|
缓存 监控 数据格式
信息系统架构模型(2) SOA
信息系统架构模型(2) SOA
18 0
|
2月前
|
机器学习/深度学习 自然语言处理 并行计算
大模型开发:什么是Transformer架构及其重要性?
Transformer模型革新了NLP,以其高效的并行计算和自注意力机制解决了长距离依赖问题。从机器翻译到各种NLP任务,Transformer展现出卓越性能,其编码器-解码器结构结合自注意力层和前馈网络,实现高效训练。此架构已成为领域内重要里程碑。
35 2
|
2月前
|
算法 数据挖掘 调度
隐语实训营-第3讲:详解隐私计算框架的架构和技术要点
主要介绍隐语的隐私计算架构,并对每个模块进行拆解、分析,以期望不同使用者找到适合自己的模块,快速入手。
50 4
|
3月前
|
监控 负载均衡 Dubbo
Dubbo 框架揭秘:分布式架构的精髓与魔法【一】
Dubbo 框架揭秘:分布式架构的精髓与魔法【一】
164 0
|
2月前
|
分布式计算 算法 调度
课3-详解隐私计算框架的架构和技术要点
隐语架构涵盖产品、算法、计算、资源和硬件五层,旨在实现互联互通和跨域管控。产品层包括SecretPad等,简化用户和集成商体验。算法层涉及PSI/PIR、SCQL和联邦学习,提供隐私保护的数据分析和学习。计算层如RayFed、SPU、HEU等,支持分布式计算和密态处理。资源层的KUSCIA用于跨机构任务编排,硬件层涉及FPGA等加速器。互联互通支持黑盒和白盒模式,确保不同平台协作。跨域管控则强调数据流转控制,保护数据权益。
|
8天前
|
前端开发 Java PHP
信息系统架构模型(1) MVC
信息系统架构模型(1) MVC
13 0
|
14天前
|
敏捷开发 监控 前端开发
深入理解自动化测试框架Selenium的架构与实践
【4月更文挑战第16天】 在现代软件开发过程中,自动化测试已成为确保产品质量和加快迭代速度的关键手段。Selenium作为一种广泛使用的自动化测试工具,其开源、跨平台的特性使得它成为业界的首选之一。本文旨在剖析Selenium的核心架构,并结合实际案例探讨其在复杂Web应用测试中的高效实践方法。通过详细解读Selenium组件间的交互机制以及如何优化测试脚本,我们希望为读者提供深入理解Selenium并有效运用于日常测试工作的参考。
|
2月前
|
算法
隐私计算实训营 第1期-详解隐私计算框架的架构和技术要点
本文简要介绍了隐语技术架构的五层结构:产品层、算法层、计算层、资源层和硬件层。每层分别涉及模块功能、定位和人群画像,旨在使不同角色的用户能轻松理解和使用,降低隐私计算的入门难度。此外,隐语产品设计具有开放性和前瞻性,易于集成。
|
2月前
|
设计模式 前端开发 数据处理
MVC架构中,控制器和模型之间是如何交互的
MVC架构中,控制器和模型之间是如何交互的
12 0
|
2月前
|
存储 设计模式 前端开发
请解释 Web 应用程序的 MVC(模型-视图-控制器)架构。
【2月更文挑战第26天】【2月更文挑战第89篇】请解释 Web 应用程序的 MVC(模型-视图-控制器)架构。

热门文章

最新文章