大模型+知识图谱双驱架构:新一代《知识语义框架SPG》白皮书

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 白皮书展望了SPG与LLM双向驱动的技术架构。通过基于SPG构建统一的图谱技术框架,可以屏蔽复杂的技术细节以支持新业务的快速部署,真正实现知识图谱技术的框架化、平民化、普惠化。

本文内容整理自《知识语义框架SPG》白皮书

🌟 OpenSPG GitHub:https://github.com/OpenSPG/openspg,欢迎大家 Star 关注~

2023年8月27日,在全国知识图谱与语义计算大会(China Conference on Knowledge Graph and Semantic Computing,CCKS)上,由SPG联合发起人同济大学特聘研究员王昊奋、蚂蚁集团知识引擎负责人梁磊及核心参编单位同济大学、天津大学、恒生电子股份有限公司、浙江创邻科技有限公司、达观数据有限公司、海乂知信息科技(南京)有限公司、浙江大学、之江实验室、中国科学院计算技术研究所联合发布了《语义增强可编程知识图谱(Semantic-enhanced Programmable Graph)白皮书》(下称SPG白皮书)。

1.png
表1 图谱面临的技术挑战

白皮书首先介绍了企业数字化基础设施面临的挑战,在企业的数字化过程中,积累了海量的数据,需要持续为用户创造价值以及实现高效的经营管理和风险控制。这为知识图谱(Knowledge Graph, KG)、大语言模型(Large Language Model, LLM)等AI技术提供了多样化的应用场景,同时也带来了新的机遇和挑战。企业需要建立应用友好的数据管理范式,以明确语义、消除歧义、发现错误;以连接数据孤岛以增强跨部门复用,实现高效的协同;以支持AI技术的高效利用以发现更多隐含关联,同时也可以为LLM提供更充足有效的领域知识库。知识图谱作为一种图结构化、语义化、逻辑依赖的知识建模方式,收到了较多的行业期待。无论是作为新一代企业级知识管理范式,还是解决大模型幻觉及复杂推理不足等问题,都有比较广阔的应用场景。

知识图谱面临的挑战:为什么我们提出SPG

白皮书指出,知识图谱作为一种建模和管理数据的方法,已经在企业数字化过程中发挥了重要作用。然而,随着企业对知识图谱的需求不断增加,传统的知识图谱技术面临着一些挑战。知识图谱自身技术框架的发展和对其在新知识数据管理范式、大模型的双轮驱动的期待并不完全匹配,图谱技术的发展也需要与时俱进。首先,缺乏工业级统一的知识建模框架。尽管资源描述框架(Resource Description Framework, RDF)/Web本体语言 (Web Ontology Language, OWL)这种强语义、弱结构的技术框架已经发展多年,但并未出现成功的企业级/商业化应用。相反,强结构、弱语义的属性图 (Labeled Property Graph, LPG)成为了企业级应用的首选。其次,缺乏统一的技术框架,导致跨领域迁移性较差,由于工具繁多、链路复杂,每个领域的图谱构建都需要从零开始。如表1所示,在应对复杂的业务场景和大规模数据时,传统的知识图谱技术存在一些局限性。

然而,任何复杂技术的大规模产业化应用都需要统一的技术框架,以屏蔽复杂的技术细节以实现跨场景迁移性支持新业务的快速部署。蚂蚁知识图谱团队通过多年业务实践的总结,提出了新一代知识语义框架SPG,充分借力LPG的结构性与RDF的语义性实现可编程范式的知识引擎架构,支持各领域图谱的高效构建和跨领域的知识语义对齐。

属性图知识管理的不足:结合黑产图谱/事理图谱的案例说明

白皮书中通过蚂蚁集团、恒生电子联合梳理的黑产图谱、事理图谱两个案例,详细介绍了业务应用中知识管理所面临的问题。并介绍随着业务的快速发展和知识体量的大幅增加,基于属性图知识管理的弊端逐渐显露。

首先,结合主体类型颗粒度差异、跨图谱冗余定义、属性/关系自适应等介绍结构定义与语义表示耦合带来的异构性和复杂性问题。

其次,结合事件超图、事理传导与结构依赖等,说明了传统知识图谱在知识多元异构及事理顺承、组合、结构、逻辑依赖等表达上的不足,并结合恒生事理图谱提出了如图1所示四象限模型要求。

第三,结合数据要素间的逻辑依赖、逻辑依赖风险传导等问题,介绍了知识间逻辑依赖带来的一致性和传导推理问题。

此外,朴素的属性和关系模型难以刻画事物的内在语义和事物之间的语义依赖,这导致图谱Schema不断膨胀,最终变得难以维护。在业务应用阶段,不得不添加大量硬编码来实现业务语义的解析和对齐。

2.png

图 1. 事理图谱四象限

为了解决这些问题,白皮书在第3、4、5、6、7章提出了SPG的解决思路和整体框架抽象,并在第9章中提供了基于SPG的两个案例的完整方案。

什么是SPG语义框架:语义增强并衔接大数据系统与AI系统

SPG充分融合了RDF/OWL的语义性和LPG的结构性,具有语义简洁和大数据兼容的优势。该框架能够实现知识动态到静态自动分层、领域内知识的唯一性和知识之间的依赖关系定义。同时,SPG框架还提供了可编程的范式,支持快速构建新的领域图谱和跨场景迁移。在解决典型问题和场景方面具有广泛的应用价值。举例来说,在黑产图谱和产业链事理图谱中,SPG框架可以帮助企业更好地识别和应对黑灰产,提高风险防控能力。在知识推理和智能问答方面,SPG框架可以提供更加准确和可解释的推理结果,提升用户体验和决策效果。针对企业级业务场景的应用特点,SPG框架抽象出了基于属性图的语义表示框架。

如图2所示,该框架明确定义了"知识"的形式化表示和可编程框架,使其可定义、可编程,机器可理解和处理。同时,SPG实现了知识层级间的兼容递进,支持工业级场景下非完备数据状态的图谱构建和持续迭代演化。最后,SPG框架有效衔接大数据与AI技术体系,支持对海量数据进行高效的知识化转换,帮助提高数据价值和应用价值。

3.png

图 2. SPG知识语义框架

SPG-Schema章节由天津大学和蚂蚁集团联合完成,结合SPG DC主体分类模型扩展与SPG Reasoning逻辑谓词语义扩展两个方面详细介绍。首先,在大数据表Schema定义或大数据表字段定义基础上扩展主体模型是最直接、最灵活的,将大数据表模型的列字段定义或字段定义映射到SPG主体模型的类型、属性、关系表达,通过映射将多源异构的数据表映射到非完备状态的主体结构。然后,再基于非完备状态的主体结构持续迭代演化并实现逻辑谓词语义的扩展。如图3所示,在这个过程中,SPG充分借鉴了ρdf最小可用集及OWL逻辑谓词能力,定义SPG主体模型最小语义单元并扩展SPG在谓词语义、逻辑规则等方面的表达。

4.png

图 3. SPG-Schema语法语义分层图

SPG 的核心目标是构建基于SPG 的标准化知识引擎架构,给领域图谱构建提供明确的语义表示、逻辑规则定义、算子框架(构建、推理)等,支持各厂商可插拔的适配基础引擎、算法服务,构建解决方案等。如图4所示,通过SPG可以实现离散实体要素深度语义网络化,支持稀疏关系自动补全显性稠密化;能够加速企业海量数据知识化集成,无缝衔接AI技术框架应用落地;能够实现跨图谱的零拷贝融合,连接数据孤岛加强复用。

5.png

图 4. SPG的主要能力模型

为实现对属性图的高效适配,创邻科技结合SPG语法实际执行过程的实现,详细梳理并定义了SPG的推理和计算转换到实际的LPG系统中执行的模块SPG-Engine。SPG底层依赖通常包括图存储、图查询、图计算等基础能力,这样的底层能力通常是由LPG的图服务厂商提供的。按照SPG语义下的图模型定义、图数据导入、图查询和计算等功能模块进行划分,结合SPG2LPG Translator Schema转换、SPG2LPG Builder知识构建、LPG2SPG Executor知识计算等分别给出了如何对接到底层LPG处理系统的方式。

由PlantData联合梳理定义了SPG-Controller,本模块作为SPG框架的控制层主要负责统一分析、调用和管理服务和任务的执行。作为SPG框架的核心枢纽,它与其他模块之间紧密关联,共同完成从用户输入到结果返回的全任务流程。SPG-Controller通过从SPG-LLM或SPG-Programming接收请求,进行解析编译并生成任务规划,对任务进行分发和调用,选择对应的能力来完成具体执行过程,包括从注册部署的SPG-Engine、SPG-Index或外部能力中选择对应的Runtime。

大模型背景下的知识图谱:SPG与LLM的结合及双向驱动

自2022年底以来,ChatGPT、GPT4等大模型掀起了人工智能的新浪潮,但当前大模型仍然存在知识幻觉性、复杂推理谬误和计算成本高等问题。符号化知识图谱的技术体系作为大模型的补充,可以实现可控的内容理解和内容生成,为大模型产业落地提供正确的领域知识和复杂推理能力的支持。有效结合知识图谱和大语言模型各自的优势,充分发挥各自的特长,可以提供更优质的人工智能服务和产品。

白皮书也以达观数据的案例为基础介绍了大模型与知识图谱联动的知识抽取、基于大模型的领域知识补全及自然语言知识查询与问答等,并指出将自然语言交互和知识图谱结合,形成可控、可信、可靠的问答,解决大模型自身所无法解决的“幻觉”问题,为产业应用解决“最后一公里”实现落地。

如图 5所示,白皮书最后展望了SPG与LLM双向驱动的技术架构。通过基于SPG构建统一的图谱技术框架,可以屏蔽复杂的技术细节以支持新业务的快速部署,真正实现知识图谱技术的框架化、平民化、普惠化。同时,知识图谱强事实、弱泛化、可解释性强、计算成本低、构建成本高的特点,可以与大模型弱事实、强泛化、可解释性差、计算成本高、语义理解强形成完美互补。通过统一的知识符号表示和引擎架构和大模型形成高效的联动和互补,通过大模型技术进一步降低图谱构建成本加速数据知识化,也为大模型的可控生成提供更多领域知识的补充。

6.png

图 5. 未来SPG与LLM双驱技术范式与框架

SPG的持续发展:工业应用下的海量知识管理及大模型的双向结合

白皮书指出,本次为SPG白皮书的1.0发布,未来会持续升级,包括能力开源。预计SPG编程框架会在2.0重点发布,详细发布计划见表2。

7.png

表 2. SPG未来发布计划

白皮书内容介绍和下载

如下为《SPG白皮书》目录结构摘要,如需获取全文,请点击文章底部【阅读原文】(PC端可访问SPG官方网址spg.openkg.cn进行下载)。

8.jpeg
9.jpeg
10.jpeg

我们希望通过这份白皮书,能够为读者提供一个全面了解 SPG 框架的机会,并激发更多的讨论和合作。期待产研各界同仁的讨论交流和批评指正,共建新一代工业级知识语义框架与引擎!

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
人工智能 测试技术 数据处理
首个Mamba+Transformer混合架构多模态大模型来了,实现单卡千图推理
【10月更文挑战第18天】《LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture》提出了一种新型多模态大模型LongLLaVA,结合了Mamba和Transformer架构,通过系统优化实现在单张A100 80GB GPU上处理近千张图像的突破。该模型在视频理解、高分辨率图像分析和多模态智能体任务中表现出色,显著提升了计算效率。
182 65
|
2月前
|
机器学习/深度学习 自然语言处理 分布式计算
大规模语言模型与生成模型:技术原理、架构与应用
本文深入探讨了大规模语言模型(LLMs)和生成模型的技术原理、经典架构及应用。介绍了LLMs的关键特点,如海量数据训练、深层架构和自监督学习,以及常见模型如GPT、BERT和T5。同时,文章详细解析了生成模型的工作原理,包括自回归模型、自编码器和GANs,并讨论了这些模型在自然语言生成、机器翻译、对话系统和数据增强等领域的应用。最后,文章展望了未来的发展趋势,如模型压缩、跨模态生成和多语言多任务学习。
317 3
|
2月前
|
数据采集 监控 前端开发
二级公立医院绩效考核系统源码,B/S架构,前后端分别基于Spring Boot和Avue框架
医院绩效管理系统通过与HIS系统的无缝对接,实现数据网络化采集、评价结果透明化管理及奖金分配自动化生成。系统涵盖科室和个人绩效考核、医疗质量考核、数据采集、绩效工资核算、收支核算、工作量统计、单项奖惩等功能,提升绩效评估的全面性、准确性和公正性。技术栈采用B/S架构,前后端分别基于Spring Boot和Avue框架。
117 5
|
2月前
|
存储 分布式计算 关系型数据库
架构/技术框架调研
本文介绍了微服务间事务处理、调用、大数据处理、分库分表、大文本存储及数据缓存的最优解决方案。重点讨论了Seata、Dubbo、Hadoop生态系统、MyCat、ShardingSphere、对象存储服务和Redis等技术,提供了详细的原理、应用场景和优缺点分析。
|
14天前
|
机器学习/深度学习 编解码 vr&ar
NeurIPS 2024最佳论文,扩散模型的创新替代:基于多尺度预测的视觉自回归架构
本文详细解读NeurIPS 2024最佳论文《视觉自回归建模:基于下一尺度预测的可扩展图像生成》。该研究提出VAR模型,通过多尺度token图和VAR Transformer结构,实现高效、高质量的图像生成,解决了传统自回归模型在二维结构信息、泛化能力和计算效率上的局限。实验表明,VAR在图像质量和速度上超越现有扩散模型,并展示出良好的扩展性和零样本泛化能力。未来研究将聚焦于文本引导生成和视频生成等方向。
79 8
NeurIPS 2024最佳论文,扩散模型的创新替代:基于多尺度预测的视觉自回归架构
|
3月前
|
人工智能 前端开发 JavaScript
前端架构思考 :专注于多框架的并存可能并不是唯一的方向 — 探讨大模型时代前端的分层式微前端架构
随着前端技术的发展,微前端架构成为应对复杂大型应用的流行方案,允许多个团队使用不同技术栈并将其模块化集成。然而,这种设计在高交互性需求的应用中存在局限,如音视频处理、AI集成等。本文探讨了传统微前端架构的不足,并提出了一种新的分层式微前端架构,通过展示层与业务层的分离及基于功能的横向拆分,以更好地适应现代前端需求。
|
4天前
|
搜索推荐 架构师 数据挖掘
架构实操:画好一张业务模型图
本文以SDK设计的角度分析了如何构建一张属于SDK的各个业务的模型图。
|
3月前
|
存储 分布式计算 API
大数据-107 Flink 基本概述 适用场景 框架特点 核心组成 生态发展 处理模型 组件架构
大数据-107 Flink 基本概述 适用场景 框架特点 核心组成 生态发展 处理模型 组件架构
152 0
|
1月前
|
人工智能 自然语言处理
RWKV-7:RWKV系列开源最新的大模型架构,具有强大的上下文学习能力,超越传统的Attention范式
RWKV-7是RWKV系列的最新大模型架构版本,具有强大的上下文学习能力,超越了传统的attention和linear attention范式。本文详细介绍了RWKV-7的主要功能、技术原理及其在多语言处理、文本生成等领域的应用场景。
146 7
RWKV-7:RWKV系列开源最新的大模型架构,具有强大的上下文学习能力,超越传统的Attention范式
|
1月前
|
机器学习/深度学习 存储 自然语言处理
RWKV-7:极先进的大模型架构,长文本能力极强
RWKV-7 是极先进的最新大模型架构,超越 attention / linear attention 范式,拥有强大的 in-context-learning(上下文学习)能力,可真正持续学习,在保持 100% RNN 的同时,拥有极强的长文本能力。
RWKV-7:极先进的大模型架构,长文本能力极强