大模型时代还需要知识图谱么?新一代知识图谱语义框架SPG赋能企业数智化转型

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 本文以商家经营和风险防控为例,介绍了在企业数字化中的图谱应用。结合当前产业应用和研究进展,本文梳理总结了LLM、KG 在企业数字化中的可能应用。

企业在数字化过程中积累了海量的数据。企业需要不断地为用户创造价值,同时实现高效的经营管理和风险控制,这对企业的数字化基建提出了很高的要求,也为知识图谱(Knowledge Graph,KG)、大语言模型(Large Language Model,LLM)等AI 技术提供了多样化的落地场景。

本文以商家经营和风险防控为例,介绍了在企业数字化中的图谱应用。特别强调了因为中小商户、沉睡户等薄数据客群的画像覆盖和风险洞察而对深度上下文(deep context) 感知的要求,企业级知识管理正在实现从二元静态向多元动态的模式跃迁。结合当前产业应用和研究进展,本文梳理总结了LLM、KG 在企业数字化中的可能应用。

我们指出,LLM 因存在幻觉问题而使应用受到限制,KG 则因为具有结构化知识的表达能力、可解释性和较高的计算效率,在推理挖掘、线索洞察、分析查询等方面具有广泛应用。同时,LLM 和KG 的双重驱动因两者能力的互补性,空间巨大,在语言理解和交互类应用中也被预测为LLM产业化落地的关键路径。在此基础上,本文进一步阐述知识图谱技术当前面临的挑战,并结合蚂蚁集团知识图谱平台实践,介绍OpenKG 合作共建的工业级语义增强框架SPG( Semantic-enhanced Programmable Graph)及知识图谱引擎。

从二元静态到多元动态:知识管理模式的跃迁

知识图谱(Knowledge Graph,KG)是一种建模和管理数据的方法,它利用图结构、知识语义和逻辑依赖,提供存储、推理和查询事实知识的能力。早期的应用主要是从公开语料中提取百科类 三元组来构建静态知识图谱,以提高搜索推荐的效率和体验。

自2018 年以来,企业数字化垂直领域的图谱应用越来越广泛,如金融、医疗、公安和能源等领域[1, 2]。艾瑞咨询的一份报告[3] 显示,预计到2026 年,中国图谱市场空间将达到290 亿元,其中金融和公安是主要的拉动力量。由于领域图谱需要具备全面性、正确性和可解释性等特点,图谱数据的来源也从文本语料转向了企业多源异构数据。这些数据包括非/ 半结构化的用户生产内容/ 专业生产内容(UGC/PGC)、业务经营沉淀的结构化基础画像、交易事务、日志记录等,以及各领域特有的业务专家经验。围绕经营增长和风险防控,构建完整的客户、物料、渠道等的立体画像,图1 展示了商家实体的构建过程。

1.jpeg

图1 商家实体构建的过程

当前,商家已经突破了静态门店的限制,收款码让任何人都可以成为商家,同时也增加了风险防控的难度。仅通过文本概念标签进行风险防控是没有意义的,添加交易、社交等实际事实关系也远远不够。如图2 所示,需要实体多要素的深度信息协同才能发现更多有效的关联。

图谱构建的要求也从静态常识转向深度上下文动态时空。这既需要基于介质(如Wi-Fi、电话、Email 等)实现关系传导, 又需要对地理连续空间(Spatial)实现边界化的聚集关联[4],还需要跟踪中/ 宏/ 微观事件的多元传导脉络,实现实体间稀疏关系语义可解释的稠密化。

2.jpeg

图2 深度上下文语义扩展的基础事实图谱

在业务应用方面,知识图谱可以用于构建知识推理任务,例如

  • 商品推荐:通过类目、意图、时空等语义, 连接人- 商品、人- 商户、商品- 渠道等,实现语义联想的商品召回和表征迁移;
  • eKYB(electronic Know Your Business):通过介质关联、行为事件和时空聚集,识别商户同人、同店等,实现有效的画像补全和风险洞察。

此外,基于知识图谱还可以实现结构感知的可控文本生成[5],例如:

  • 反洗钱智能审理识别定性和报文生成:结合深度上下文预测风险行为、挖掘团伙,通过资金链、时空聚集、设备关联等还原团伙/ 异常结构,并通过知识图谱到文本的转换,输出可解释报文;
  • AI 电话唤醒受害者:将识别到的可疑设备、钓鱼域名/AppID、团伙等实时关联传导到交易用户,生成沟通话术提醒用户并拦截风险。这些应用旨在实现更加智能和精准的风险控制和业务推理,提高商业运营的效率和价值。

在商户经营与风险防控的案例中,知识管理需要具备较强的上下文感知能力。常见的常识知识图谱卸掉了可感知上下文的信息和时空关联,在实际应用中,如果论元要素出现了多元化或相互交织, 由于无法感知个体差异,仅使用概念层归纳,推理应用的效果会大打折扣[6]。类似的问题也出现在公安反诈、保险理赔、医疗问诊、企业授信等领域。因此,企业垂直领域对知识图谱的期望发生了较大变化。知识表示也从图3 所示的二元静态结构发展到时空多元动态关联,以更好地适应实际应用的要求。

3.jpeg

图3 知识表示从二元到多元的演进

LLM与KG在企业数字化业务中的应用范式

2022 年底,ChatGPT 火爆全球,随后国内也掀起百“模”大战。然而,由于LLM是一种黑箱概率模型[7],难以捕获事实知识,因此存在较多幻觉和逻辑错误[8]。与此同时,知识图谱的事实性、时效性和逻辑严谨性成为了LLM 的绝佳能力补充。通过将知识图谱作为约束和复杂推理能力的来源, LLM+KG 的应用范式引起了研究者的广泛关注,并催生了许多应用探索和研究[7, 8]。
在各种应用场景中,以商户经营与风控为例,算法任务可以分为以下五个方面。

  • 交互应用:包括消费端(C)产品上的商品/ 服务透出和供应端(B)产品上的服务/ 商家入驻等;
  • 经营管理:企业经营、商户经营必须的经营分析、物料管理等;
  • 风险防控:黑灰产对抗是企业经营永恒的话题,企业必须增强对薄数据客群的认知覆盖和对新风险模式的快速识别;
  • 知识构建:将外部非/ 半结构化、结构化数据转换成领域知识;
  • 知识挖掘:企业促进增长和把控风险,不断提升主体要素、跨主体关系的长尾覆盖。表1 中列举了不同分类下LLM、KG 及LLM与KG 相互增强可能的落地应用。这些应用可以帮助企业在商户经营和风控领域中获得更好的效果和成果。

4.png

表1 LLM和KG在企业数字化不同场景下的应用

总体而言,以商户经营与风控应用场景为例,LLM 和KG 应用的算法任务主要可以分为三类。

  • 仅用LLM :由于领域专业性和事实性的要求,LLM 在商户经营与风控领域尚未有明确可落地的场景;
  • LLM + KG 双驱动:主要体现在知识问答、报告生成等用户交互类场景中,比如前文提到的AI 电话唤醒受害者和反洗钱智能审理报文生成等。此外,还有知识要素抽取、实体链指等知识构建类场景。文献[8] 中详细描述了LLM 与KG 的双驱动,包括KG 增强的LLM、LLM 增强的KG 以及LLM+KG 框架协同三个方面,如图4 所示。
  • 仅用KG :在推理决策、分析查询、知识挖掘类等不需要复杂语言交互和意图理解的决策/ 挖掘场景中,基于图谱结构化知识直接做图表征学习、规则推理、知识查询等。通过框架的协同实现LLM与KG 双驱动,支持跨模态知识对齐、逻辑引导知识推理、自然语言知识查询等。这对KG 知识语义的统一表示和引擎框架的跨场景迁移提出了更高的要求。

5.png

图4 大模型与知识图谱的相互驱动

知识图谱技术体系的发展需要与时俱进

知识图谱自身技术框架的发展和人们对它在新知识数据管理范式、大模型双轮驱动的期待并不完全匹配,因此图谱技术的发展也需要与时俱进。首先,缺少统一的工业级知识建模框架。强语义、弱结构的资源描述框架/Web 本体语言(RDF/OWL)发展多年并未出现成功的企业级/ 商业化应用,而强结构、弱语义的带标签属性图(Labeled Property Graph,LPG)却是企业级应用的首选。其次,缺少统一的技术框架[2],导致跨领域迁移性差。由于工具繁多、链路复杂,每个领域图谱构建都要从零开始。除这两点外, 其他方面也存在较大技术挑战,如表2 所列。

6.png

表2 新范式下图谱面临的技术挑战

知识图谱的目标是构建一个机器可理解、可推理的数字世界,实现知识语义的统一表示和框架化能力分层,以支持不同领域图谱的快速构建和跨场景迁移。这是图谱产业化加速过程中必须解决的基本核心问题。

基于SPG的工业级知识图谱引擎

蚂蚁知识图谱平台支撑了多年的金融领域业务, 积累并打造了基于属性图的语义框架SPG。该框架创造性地融合了LPG 结构性与RDF 语义性,既克服了RDF/OWL 语义复杂无法在工业场景落地的问题, 又充分发挥了LPG 结构简单与大数据体系兼容的优势。如图5 所示,该平台通过以下三个维度来定义和表示知识。

  • 领域类型约束:基于SPG DC 的领域结构类型约束,实现知识的动态到静态自动分层;
  • 领域内唯一性:通过SPG Evolving 提供可编程链指/ 归一能力,实现领域内知识的唯一性;
  • 知识间依赖性:通过SPG Reasoning 谓词/ 逻辑体系定义知识之间的依赖,并提供可编程的推理表示。

7.jpeg

图5 SPG知识语义框架

以SPG 为基础构建的知识引擎框架,不仅可以在图谱构建阶段衔接大数据架构,实现数据到知识的转换,而且可以在存储阶段适配到属性图,充分发挥其存储和计算能力。在推理应用阶段,该框架可以形式化成知识图谱领域特定语言(Knowledge Graph Domain Specific Language,KGDSL)这种机器可理解的符号表示,支持下游规则推理、神经/ 符号融合学习、KG2Prompt 联动LLM 知识抽取/ 知识推理等。同时,通过该框架的分层架构,新的领域图谱构建只需定义Schema、准备数据、开发生产/ 推理Operator 即可。这为构建高效、灵活、可扩展的知识图谱应用提供了可编程的范式。

知识图谱技术目前仍处于快速发展时期,也是关键的技术拐点期。建立统一的技术框架能够大幅降低应用门槛,促进生态繁荣。为此,我们正在与OpenKG 合作,加速推出基于SPG 的语义表示和引擎框架。我们将于2023年8月底推出SPG 语义框架白皮书v1.0, 欢迎大家下载和交流。

本文作者介绍

王昊奋:CCF 高级会员,CCF 上海分部秘书长、CCF SIGKG 主席、术语工委副主任。同济大学百人计划特聘研究员,博士生导师。主要研究方向为知识图谱、自然语言处理。联系方式:carter.whfcarter@gmail.com
梁 磊:CCF 专业会员,蚂蚁知识引擎负责人。个人主要研究方向为知识图谱、图学习与推理引擎、AI工程、搜索引擎等。联系方式:leywar.liang@antgroup.com


[1] Martin S, Szekely B, Allemang D. The Rise of the Knowledge Graph[R]. O’ Reilly, 2021.
[2] 王昊奋, 丁军, 胡芳槐, 等. 大规模企业级知识图谱实践综述[J]. 计算机工程, 2020, 46(7): 13.
[3] 艾瑞咨询. 中国知识图谱行业研究报告 [OL].(2022-08- 12). 2022年中国知识图谱行业研究报告人工智能艾瑞网.
[4] 陆锋, 诸云强, 张雪英. 时空知识图谱研究进展与展望[J]. 地球信息科学学报, 2023, 25(6):1091-1105.
[5] Anthony C, Alvandipour M, Wang D Z. GAP: A Graph-aware Language Model Framework for Knowledge Graph-to-Text Generation[OL]. (2022-04-13). https:// arxiv.org/pdf/2204.06….
[6] 白硕. 事理图谱六问六答 [ O L ] . 理深科技时评. (2019-07-28). h t tps://mp.weixi n.q q.com/s/ p1h4jhL0esfYi3dOlC9Iwg.
[7] Yang L, Chen H, Li Z, et al. ChatGPT is not Enough: Enhancing Large Language Models with Knowledge Graphs for Fact-aware Language Modeling[OL]. (2023-06-20). arXiv preprint arXiv:2306.11489.
[8] Pan S, Luo L, Wang Y, et al. Unifying Large Language Models and Knowledge Graphs: A Roadmap[OL]. (2023-06-14). arXiv preprint arXiv:2306.08302.
[9] 王昊奋, 王萌. “神经+符号”:从知识图谱角度看认知推理的发展[J]. 中国计算机学会通讯, 2020, 16(8), 52-56.

相关文章
|
8月前
|
存储 人工智能 自然语言处理
知识图谱技术在金融领域的分析和应用
知识图谱(Knowledge Graph)是一种将实体、属性及关系等信息通过一定的数学模型进行组织、存储和检索的新型数据结构,它不仅可以实现对实体之间关系的描述,还可以完成对知识的描述。知识图谱由三元组构成:数据(Data)、实体(Entity)和关系(Relational),通过图数据库技术存储。知识图谱中的每一个实体都是一个节点,表示实体之间的关系,它描述了实体之间存在的关系和它们之间的属性。
|
1月前
|
存储 人工智能 安全
《数据主权:人工智能时代的核心基石与挑战》
在数字化时代,人工智能成为社会变革的强大力量,深刻改变着我们的生活方式。数据主权作为其核心基石,涉及国家、企业和个人的数据管辖与控制权。国家层面,数据主权关乎国家安全与经济竞争力;企业层面,合规利用数据可提升竞争力,但也面临法律风险;个人层面,隐私保护至关重要。国际社会正通过法规和技术手段(如GDPR和区块链)应对这些挑战,以确保数据安全与隐私,推动人工智能健康发展。
73 18
|
1月前
|
人工智能 弹性计算 监控
《容器化赋能:C++人工智能模型部署的卓越之道》
本文探讨了容器化技术在C++人工智能模型部署中的应用。通过Docker等容器化工具,C++模型及其依赖项被打包成独立的容器镜像,确保了环境一致性、快速部署与弹性伸缩,以及资源的高效利用。文章详细介绍了容器化技术的优势、实践要点及具体应用场景,如智能安防监控和工业自动化质量检测,展示了容器化技术如何助力C++人工智能模型高效落地。
55 15
|
4月前
|
人工智能 运维 自然语言处理
AI战略丨构建未来: 生成式人工智能技术落地策略
GenAI 的技术落地需要企业进行周密地规划和持续地努力。企业必须从自身的战略出发, 综合考虑成本、效果和性能,制定合理的技术架构,通过全面的 AI 治理,实现可持续的创新和发展。
|
5月前
|
人工智能 自然语言处理 搜索推荐
AI战略丨生成式人工智能应用场景与落地路径
GenAI 的应用落地是一项系统性工程,离不开战略、业务、技术、组织等多维度的统筹和推动。
|
6月前
|
人工智能 自然语言处理 搜索推荐
人工智能:赋能开发的革命性力量
在科技飞速发展的今天,人工智能(AI)正深刻影响软件开发。AI作为强大的助手,通过自动化需求分析、智能代码补全及测试等手段大幅提升开发效率。同时,AI助力软件创新,如个性化推荐系统改善用户体验,并通过数据分析辅助决策,降低项目风险。随着AI技术普及,掌握相关技能变得至关重要,推动开发者技能升级与人才培养。总之,AI正重塑软件开发,加速流程、激发创新,引领行业发展至新高度。
185 1
|
机器学习/深度学习 人工智能 分布式计算
大模型时代的人工智能+大数据平台,加速创新涌现
2023年10月31日,2023云栖大会上,阿里云副总裁、阿里云计算平台事业部负责人汪军华宣布阿里云人工智能+大数据平台升级发布,以服务大模型时代下各行各业的业务创新。
|
机器学习/深度学习 自然语言处理 搜索推荐
大厂技术实现 | 爱奇艺文娱知识图谱的构建与应用实践 @自然语言处理系列
知识图谱是一种用图模型来描述知识和建模世界万物之间关联关系的技术方法。本文研究的是爱奇艺奇搜知识图谱的构建流程与应用场景,了解这一文娱行业知识图谱是如何帮助用户精确找到想要的内容、回答用户问题、以及理解用户搜索意图的。
4195 7
大厂技术实现 | 爱奇艺文娱知识图谱的构建与应用实践 @自然语言处理系列
|
机器学习/深度学习 传感器 人工智能
人工智能如何推动能源行业走向数字化
为了给能源行业带来数字化,该行业应该像对待其他商业走廊一样对待数字化转型。它们应该在目的、目标和战略方面带来创新和有效的解决方案。
137 0
人工智能如何推动能源行业走向数字化
|
传感器 存储 人工智能
AI如何赋能工业数字化转型
工业AI成功的关键是可靠的历史数据,这些数据需要调整大数据的形式,通常需要更少的变量使其能够适应人工智能,通过对智能数据进行重新设计,以及引入适当的培训,企业的回报率可以提高5%至15%。
AI如何赋能工业数字化转型