AAAI 2018论文解读 | 基于置信度的知识图谱表示学习框架

简介:

知识图谱被广泛地用来描述世界上的实体和实体之间的关系,一般使用三元组(h,r,t)(head entity, relation, trail entity)的形式来存储知识,其中蕴含的知识数量巨大且时常更新。

目前,人工标注已经不能满足知识图谱更新和增长的速度,但自动化构建知识图谱的过程中往往容易引入一些噪声和冲突。

由于大多数传统知识表示学习(Knowledge, Representation Learning, KRL)方法都假设现有知识图谱中的知识是完全正确的,因此会带来潜在误差。

于是,如何从带有噪声或冲突的知识图谱中学习到更好的知识表示向量,同时又能够发现已有知识图谱中可能存在的错误,就成为了亟需解决的问题。 

来自清华大学/腾讯的谢若冰研究员,清华大学的刘知远老师,腾讯的林芬研究员和林乐宇研究员,在即将发表于 AAAI 2018 的论文《Does William Shakespeare REALLY Write Hamlet? Knowledge Representation Learning with Confidence》中,提出了一种新的基于置信度的知识表示学习框架(confidence-aware KRL framework,CKRL),能够发现知识图谱中潜在的噪声或冲突,同时更好地从中学习知识表示

作者在 CKRL 模型中主要参考了 TransE 的思路,使用了平移假设(translation-based assumption),并增加了三元组置信度(triple confidence)的概念。整体能量方程如下:

5baed88f410f6c3670bf04d27199c89b51e893f5

其中,基于平移假设,有:

b94a3867ff86aacef6cc6ca3fc2929c548b59db7

对于 triple confidence,作者设计了三种模式,分别是 Local Triple Confidence,Prior Path Confidence 以及 Adaptive Path Confidence,基于平移假设,使用三元组的实体、关系,以及实体之间的路径的向量信息,综合对三元组的置信度进行动态调整与学习。

具体地,对于使用 path 的置信度,作者假设如果 (h,r,t) 中 h,t 有越多包含较多信息流的路径,并且这些路径的向量表示与 r 越相似,那么 (h,r,t) 三元组的置信度越高。

整个训练过程中,知识表示和三元组的置信度在能量函数指导下相互影响并动态优化,最终得到考虑置信度的知识表示,并能基于此知识表示完成知识表示学习和知识图谱噪声探测等任务。

e008e8a7d89863f752bbc433bf623bd2e87588f1

在学习的过程中,作者使用了 margin-base score function 进行学习,希望正例得分能够高于负例得分。需要注意的是,由于作者使用的是三元组的向量信息,所以三元组的置信度会在训练过程中发生动态变化。

低置信度的三元组在学习中会相应收到打压,最终使得带有噪声的知识图谱中的知识表示向量能够学得更好,同时减少噪声和错误带来的影响。

CKRL 模型在 noise detection、knowledge graph completion 和 triple classificaiton 三个任务上都取得了较好的结果,同时该模型的思想还可以直接扩展至知识构建环节中,在自动构建方法情境下,帮助建立更加精准的知识图谱。


原文发布时间为:2018-02-26

本文作者:谢若冰

本文来自云栖社区合作伙伴“PaperWeekly”,了解相关信息可以关注“PaperWeekly”微信公众号

相关文章
|
移动开发 vr&ar
数据库系统概论——关系代数详解
关系代数是一种抽象的查询语言,是关系数据操纵语言的一种传统表达方式,它是利用对关系的运算来表达查询的。任何运算都是将一定的运算符作用于一定的运算对象上,得到预期的运算结果。关系代数的运算对象是关系,运算结果亦为关系。集合运算符将关系看成元组的集合从关系的“水平”方向即行的角度来进行运算专门的关系运算符不仅涉及行而且涉及列算术比较符辅助专门的关系运算符进行操作逻辑运算符辅助专门的关系运算符进行操作。
2096 1
数据库系统概论——关系代数详解
|
编解码 Shell Linux
❤️超详细的FFmpeg安装及简单使用教程❤️
❤️超详细的FFmpeg安装及简单使用教程❤️
4192 0
❤️超详细的FFmpeg安装及简单使用教程❤️
|
10月前
|
机器学习/深度学习 存储 文字识别
Llama 4上线魔搭社区!社区推理、微调实战教程来啦!
近期,Meta推出了Llama 4系列的首批模型: Llama 4 Scout 和 Llama 4 Maverick。
818 12
|
安全 关系型数据库 MySQL
Navicat工具设置MySQL权限的操作指南
通过上述步骤,您可以使用Navicat有效地为MySQL数据库设置和管理用户权限,确保数据库的安全性和高效管理。这个过程简化了数据库权限管理,使其既直观又易于操作。
1427 4
|
JSON 数据挖掘 API
京东商品评论数据接口:洞察消费者心声的重要渠道
京东商品评论数据接口提供了商品用户评价信息,包括评价内容、时间、星级、用户头像、昵称、图片和视频地址等。使用时需注册京东开放平台账号,获取认证信息,查阅API文档,明确所需商品信息并调用接口,解析返回的JSON数据以获取评论。此接口适用于市场分析、产品改进、提升用户体验、品牌塑造与口碑营销以及电商运营决策等多个场景,帮助企业深入了解消费者需求,优化产品和服务。
|
SQL 关系型数据库 MySQL
【MySQL异常】MySQL事务锁问题----lock wait timeout exceeded; try restarting transaction
【MySQL异常】MySQL事务锁问题----lock wait timeout exceeded; try restarting transaction
1384 0
|
机器学习/深度学习 人工智能 运维
聊聊MLOps是什么,它对算法工程师带来了什么
数据科学(和机器学习)所面临的挑战 毫无疑问,这个时代属于人工智能(AI),这导致机器学习在几乎每个领域的使用,试图解决医疗保健、商业领域和技术领域的不同类型的问题,可以说机器学习无处不在。 同时,开源软件(OSS)和基于云的分布式计算也促使了许多工具、技术和算法的出现,而开发机器学习模型来解决问题并不是挑战,真正的挑战在于如何管理这些模型及大规模数据。
|
物联网 Android开发
Android 解析蓝牙广播数据
Android 解析蓝牙广播数据
1350 1
Android 解析蓝牙广播数据
|
移动开发 前端开发 JavaScript
【Web前端】怎样用记事本写一个简单的网页-html
【Web前端】怎样用记事本写一个简单的网页-html
1171 0
【Web前端】怎样用记事本写一个简单的网页-html
|
消息中间件 负载均衡 Java
RocketMq-消费方式
RocketMq-消费方式
RocketMq-消费方式