企业在数字化过程中积累了海量的数据。企业需要不断地为用户创造价值,同时实现高效的经营管理和风险控制,这对企业的数字化基建提出了很高的要求,也为知识图谱(Knowledge Graph,KG)、大语言模型(Large Language Model,LLM)等AI 技术提供了多样化的落地场景。
本文以商家经营和风险防控为例,介绍了在企业数字化中的图谱应用。特别强调了因为中小商户、沉睡户等薄数据客群的画像覆盖和风险洞察而对深度上下文(deep context) 感知的要求,企业级知识管理正在实现从二元静态向多元动态的模式跃迁。结合当前产业应用和研究进展,本文梳理总结了LLM、KG 在企业数字化中的可能应用。
我们指出,LLM 因存在幻觉问题而使应用受到限制,KG 则因为具有结构化知识的表达能力、可解释性和较高的计算效率,在推理挖掘、线索洞察、分析查询等方面具有广泛应用。同时,LLM 和KG 的双重驱动因两者能力的互补性,空间巨大,在语言理解和交互类应用中也被预测为LLM产业化落地的关键路径。在此基础上,本文进一步阐述知识图谱技术当前面临的挑战,并结合蚂蚁集团知识图谱平台实践,介绍OpenKG 合作共建的工业级语义增强框架SPG( Semantic-enhanced Programmable Graph)及知识图谱引擎。
从二元静态到多元动态:知识管理模式的跃迁
知识图谱(Knowledge Graph,KG)是一种建模和管理数据的方法,它利用图结构、知识语义和逻辑依赖,提供存储、推理和查询事实知识的能力。早期的应用主要是从公开语料中提取百科类 三元组来构建静态知识图谱,以提高搜索推荐的效率和体验。
自2018 年以来,企业数字化垂直领域的图谱应用越来越广泛,如金融、医疗、公安和能源等领域[1, 2]。艾瑞咨询的一份报告[3] 显示,预计到2026 年,中国图谱市场空间将达到290 亿元,其中金融和公安是主要的拉动力量。由于领域图谱需要具备全面性、正确性和可解释性等特点,图谱数据的来源也从文本语料转向了企业多源异构数据。这些数据包括非/ 半结构化的用户生产内容/ 专业生产内容(UGC/PGC)、业务经营沉淀的结构化基础画像、交易事务、日志记录等,以及各领域特有的业务专家经验。围绕经营增长和风险防控,构建完整的客户、物料、渠道等的立体画像,图1 展示了商家实体的构建过程。
图1 商家实体构建的过程
当前,商家已经突破了静态门店的限制,收款码让任何人都可以成为商家,同时也增加了风险防控的难度。仅通过文本概念标签进行风险防控是没有意义的,添加交易、社交等实际事实关系也远远不够。如图2 所示,需要实体多要素的深度信息协同才能发现更多有效的关联。
图谱构建的要求也从静态常识转向深度上下文动态时空。这既需要基于介质(如Wi-Fi、电话、Email 等)实现关系传导, 又需要对地理连续空间(Spatial)实现边界化的聚集关联[4],还需要跟踪中/ 宏/ 微观事件的多元传导脉络,实现实体间稀疏关系语义可解释的稠密化。
图2 深度上下文语义扩展的基础事实图谱
在业务应用方面,知识图谱可以用于构建知识推理任务,例如
- 商品推荐:通过类目、意图、时空等语义, 连接人- 商品、人- 商户、商品- 渠道等,实现语义联想的商品召回和表征迁移;
- eKYB(electronic Know Your Business):通过介质关联、行为事件和时空聚集,识别商户同人、同店等,实现有效的画像补全和风险洞察。
此外,基于知识图谱还可以实现结构感知的可控文本生成[5],例如:
- 反洗钱智能审理识别定性和报文生成:结合深度上下文预测风险行为、挖掘团伙,通过资金链、时空聚集、设备关联等还原团伙/ 异常结构,并通过知识图谱到文本的转换,输出可解释报文;
- AI 电话唤醒受害者:将识别到的可疑设备、钓鱼域名/AppID、团伙等实时关联传导到交易用户,生成沟通话术提醒用户并拦截风险。这些应用旨在实现更加智能和精准的风险控制和业务推理,提高商业运营的效率和价值。
在商户经营与风险防控的案例中,知识管理需要具备较强的上下文感知能力。常见的常识知识图谱卸掉了可感知上下文的信息和时空关联,在实际应用中,如果论元要素出现了多元化或相互交织, 由于无法感知个体差异,仅使用概念层归纳,推理应用的效果会大打折扣[6]。类似的问题也出现在公安反诈、保险理赔、医疗问诊、企业授信等领域。因此,企业垂直领域对知识图谱的期望发生了较大变化。知识表示也从图3 所示的二元静态结构发展到时空多元动态关联,以更好地适应实际应用的要求。
图3 知识表示从二元到多元的演进
LLM与KG在企业数字化业务中的应用范式
2022 年底,ChatGPT 火爆全球,随后国内也掀起百“模”大战。然而,由于LLM是一种黑箱概率模型[7],难以捕获事实知识,因此存在较多幻觉和逻辑错误[8]。与此同时,知识图谱的事实性、时效性和逻辑严谨性成为了LLM 的绝佳能力补充。通过将知识图谱作为约束和复杂推理能力的来源, LLM+KG 的应用范式引起了研究者的广泛关注,并催生了许多应用探索和研究[7, 8]。
在各种应用场景中,以商户经营与风控为例,算法任务可以分为以下五个方面。
- 交互应用:包括消费端(C)产品上的商品/ 服务透出和供应端(B)产品上的服务/ 商家入驻等;
- 经营管理:企业经营、商户经营必须的经营分析、物料管理等;
- 风险防控:黑灰产对抗是企业经营永恒的话题,企业必须增强对薄数据客群的认知覆盖和对新风险模式的快速识别;
- 知识构建:将外部非/ 半结构化、结构化数据转换成领域知识;
- 知识挖掘:企业促进增长和把控风险,不断提升主体要素、跨主体关系的长尾覆盖。表1 中列举了不同分类下LLM、KG 及LLM与KG 相互增强可能的落地应用。这些应用可以帮助企业在商户经营和风控领域中获得更好的效果和成果。
表1 LLM和KG在企业数字化不同场景下的应用
总体而言,以商户经营与风控应用场景为例,LLM 和KG 应用的算法任务主要可以分为三类。
- 仅用LLM :由于领域专业性和事实性的要求,LLM 在商户经营与风控领域尚未有明确可落地的场景;
- LLM + KG 双驱动:主要体现在知识问答、报告生成等用户交互类场景中,比如前文提到的AI 电话唤醒受害者和反洗钱智能审理报文生成等。此外,还有知识要素抽取、实体链指等知识构建类场景。文献[8] 中详细描述了LLM 与KG 的双驱动,包括KG 增强的LLM、LLM 增强的KG 以及LLM+KG 框架协同三个方面,如图4 所示。
- 仅用KG :在推理决策、分析查询、知识挖掘类等不需要复杂语言交互和意图理解的决策/ 挖掘场景中,基于图谱结构化知识直接做图表征学习、规则推理、知识查询等。通过框架的协同实现LLM与KG 双驱动,支持跨模态知识对齐、逻辑引导知识推理、自然语言知识查询等。这对KG 知识语义的统一表示和引擎框架的跨场景迁移提出了更高的要求。
图4 大模型与知识图谱的相互驱动
知识图谱技术体系的发展需要与时俱进
知识图谱自身技术框架的发展和人们对它在新知识数据管理范式、大模型双轮驱动的期待并不完全匹配,因此图谱技术的发展也需要与时俱进。首先,缺少统一的工业级知识建模框架。强语义、弱结构的资源描述框架/Web 本体语言(RDF/OWL)发展多年并未出现成功的企业级/ 商业化应用,而强结构、弱语义的带标签属性图(Labeled Property Graph,LPG)却是企业级应用的首选。其次,缺少统一的技术框架[2],导致跨领域迁移性差。由于工具繁多、链路复杂,每个领域图谱构建都要从零开始。除这两点外, 其他方面也存在较大技术挑战,如表2 所列。
表2 新范式下图谱面临的技术挑战
知识图谱的目标是构建一个机器可理解、可推理的数字世界,实现知识语义的统一表示和框架化能力分层,以支持不同领域图谱的快速构建和跨场景迁移。这是图谱产业化加速过程中必须解决的基本核心问题。
基于SPG的工业级知识图谱引擎
蚂蚁知识图谱平台支撑了多年的金融领域业务, 积累并打造了基于属性图的语义框架SPG。该框架创造性地融合了LPG 结构性与RDF 语义性,既克服了RDF/OWL 语义复杂无法在工业场景落地的问题, 又充分发挥了LPG 结构简单与大数据体系兼容的优势。如图5 所示,该平台通过以下三个维度来定义和表示知识。
- 领域类型约束:基于SPG DC 的领域结构类型约束,实现知识的动态到静态自动分层;
- 领域内唯一性:通过SPG Evolving 提供可编程链指/ 归一能力,实现领域内知识的唯一性;
- 知识间依赖性:通过SPG Reasoning 谓词/ 逻辑体系定义知识之间的依赖,并提供可编程的推理表示。
图5 SPG知识语义框架
以SPG 为基础构建的知识引擎框架,不仅可以在图谱构建阶段衔接大数据架构,实现数据到知识的转换,而且可以在存储阶段适配到属性图,充分发挥其存储和计算能力。在推理应用阶段,该框架可以形式化成知识图谱领域特定语言(Knowledge Graph Domain Specific Language,KGDSL)这种机器可理解的符号表示,支持下游规则推理、神经/ 符号融合学习、KG2Prompt 联动LLM 知识抽取/ 知识推理等。同时,通过该框架的分层架构,新的领域图谱构建只需定义Schema、准备数据、开发生产/ 推理Operator 即可。这为构建高效、灵活、可扩展的知识图谱应用提供了可编程的范式。
知识图谱技术目前仍处于快速发展时期,也是关键的技术拐点期。建立统一的技术框架能够大幅降低应用门槛,促进生态繁荣。为此,我们正在与OpenKG 合作,加速推出基于SPG 的语义表示和引擎框架。我们将于2023年8月底推出SPG 语义框架白皮书v1.0, 欢迎大家下载和交流。
本文作者介绍
王昊奋:CCF 高级会员,CCF 上海分部秘书长、CCF SIGKG 主席、术语工委副主任。同济大学百人计划特聘研究员,博士生导师。主要研究方向为知识图谱、自然语言处理。联系方式:carter.whfcarter@gmail.com
梁 磊:CCF 专业会员,蚂蚁知识引擎负责人。个人主要研究方向为知识图谱、图学习与推理引擎、AI工程、搜索引擎等。联系方式:leywar.liang@antgroup.com
[1] Martin S, Szekely B, Allemang D. The Rise of the Knowledge Graph[R]. O’ Reilly, 2021.
[2] 王昊奋, 丁军, 胡芳槐, 等. 大规模企业级知识图谱实践综述[J]. 计算机工程, 2020, 46(7): 13.
[3] 艾瑞咨询. 中国知识图谱行业研究报告 [OL].(2022-08- 12). 2022年中国知识图谱行业研究报告人工智能艾瑞网.
[4] 陆锋, 诸云强, 张雪英. 时空知识图谱研究进展与展望[J]. 地球信息科学学报, 2023, 25(6):1091-1105.
[5] Anthony C, Alvandipour M, Wang D Z. GAP: A Graph-aware Language Model Framework for Knowledge Graph-to-Text Generation[OL]. (2022-04-13). https:// arxiv.org/pdf/2204.06….
[6] 白硕. 事理图谱六问六答 [ O L ] . 理深科技时评. (2019-07-28). h t tps://mp.weixi n.q q.com/s/ p1h4jhL0esfYi3dOlC9Iwg.
[7] Yang L, Chen H, Li Z, et al. ChatGPT is not Enough: Enhancing Large Language Models with Knowledge Graphs for Fact-aware Language Modeling[OL]. (2023-06-20). arXiv preprint arXiv:2306.11489.
[8] Pan S, Luo L, Wang Y, et al. Unifying Large Language Models and Knowledge Graphs: A Roadmap[OL]. (2023-06-14). arXiv preprint arXiv:2306.08302.
[9] 王昊奋, 王萌. “神经+符号”:从知识图谱角度看认知推理的发展[J]. 中国计算机学会通讯, 2020, 16(8), 52-56.