6.11 链接数据技术
数据链接的建立涉及多个方面,包括数据资源标识、资源描述模型、词汇与本体定义、链接数据格式、自动链接抽取、链接预测等。
资源标识
资源标识是构建数据链接的第一步。LOD 要求每个实体资源都要用类似于网页 URL 一样的 HTTPURI(Unified Resource Identifier) 来进行标识。但与维护传统网页之间的链接不同,一个网站的数据集中通常有数量巨大的实体资源。要维护不同数据集之间的 URI 链接,将带来巨大的工作量。
Schema.org 鼓励采用一种称为基于描述的引用(Reference by Description)的方式实现资源的标识和相互引用[18] 。Guha 认为人们之间交流信息时,通常基于实体的描述而非 ID 来区分实体。例如,当你介绍一个人时,常用“这位是著名作家张三”和“那位是某公司 CEO 张三”等来进行区分,而不是通过一个 ID 来介绍。因此,Schema.org 只要求少量的资源拥有 URIs,并鼓励数据发布者为资源增加尽可能多的额外描述。这些描述可以进一步被各种自动实体消解和实体对齐技术所使用,来实现更加自动的资源引用和数据链接[21] 。
资源描述框架
建立数据链接需要有统一的数据描述模型。语义网设计了自己的基本数据模型,称为 RDF(Resource Description Framework)。RDF 本质上是有向标记图(Directed Labeled Graph)。关于资源的任何一项描述都简化为一个包含主谓宾(Subject, Predicate, Object)的三元组陈述。每个 Predicate 为资源增加一条属性描述或链接至其他资源[22] 。
在很多具体的实践中,RDF 的设计并非全部可取,但其强调以图模型为基础,以数据链接为中心,属性不必从属于特定类,允许多方动态新增描述等,都是针对互联网开放性的合理设计。
词汇与本体定义
描述数据需要词汇和术语。语义网借鉴了传统知识表示,如框架系统、描述逻辑等方法,制定了OWL 等本体描述语言[23] 。OWL 在生物医学等对知识表示能力要求高的特定领域有较多的应用,但在构建开放域知识库方面,其众多的表达构件在一个开放的互联网环境下面,难以迅速扩展。
Schema.org 是公共词汇标准化方面较为成功的实践。Schema.org遵循“增量复杂”(IncrementalComplexity)和自底向上的控制原则。通常从一个最简单的词汇集开始,在各网站得到应用后,再根据需求逐步扩增表达能力。
链接数据格式
在 链 接 数 据 的 发 布 格 式 方 面, 常 用 的 包括 RDFa(RDF in Attributes) [13] 、JSON-LD(JavaScript Object Notation for Linked Data) [14]和 HTML Microdata [15] 。 RDFa 用于在 XHTML 文档嵌入语义标签,这些语义标签可以被抽取成 RDF三元组描述,用于后续处理。JSON-LD 则适合于在基于 Javascript 插件的网页中嵌入语义和链接数据。Microdata 微数据作为 HTML5 的一部分,也可用来在网页中增加语义标注,其设计比 RDFa 更为简化。谷歌知识图谱同时支持这三种链接数据发布格式。
自动链接抽取
平行于语义网的发展,怎样从海量 Web 文本中自动提取结构化数据一直是自然语言处理领域关注的重点,较为有代表性的工作如 NELL [24] 、DeepDive [25] 、OpenIE [26] 。文本也是扩展和补全当前很多知识图谱的主要来源之一[27-29] 。从主要技术思路上区分,可分为基于先验本体和基于语法结构两种主要的不同方法。第一种方法需要预先设定抽取的关系和实体类型,再迭加远监督(Distant Supervision) [30] 或弱监督的方法,采用已有的数据链接关系作为标记数据,典型的如 Deepdive [24] 、YAGO [31] 以及各种参加 TAC-KBP 的属性框填充竞赛的系统[32]等。另外一种方法通常被称为开放信息抽取(Open InformationExtraction)。这种方法主要基于句子和语法结构 的 分 析, 把 句 子 化 简 为 三 元组,比较典型的工作如 Ollie [33]和 Standford 结 合 自 然 逻 辑 的OpenIE [26] 等。
链接预测
链接预测是指基于已有的链接关系来预测发现新的链接关系。这也是当前知识图谱技术研究的一个热点。根据所使用技术方法的不同,可以分为图特征模型、表示学习和统计关系学习三类。
基于图特征模型的链接预测通过图结构的相似性来预测节点间可能存在的关系。从测量结构相似度时所使用的指标出发,传统的链接预测又可以被分为局部方法、准局部方法和全局方法[34] 。局部方法经常会使用邻居节点的相似性[35] ,全局方法通常会考虑实体间所有的路径来作为指标[36] ,而准局部方法事实上是在上述两者之间作了一个折衷,兼顾预测的准确性和计算的复杂度。由于知识图谱需要处理的是有类型的语义链接(typed links),知识图谱的链接预测比传统更加复杂。目前在针对知识图谱的链接预测中比较流行的图特征模型包括归纳逻辑编程(如 AMIE [37] )、路径排序算法 PRA(随机游走算法的扩展) [38] 和子图特征抽取算法SFE [39] 等。
表示学习源于机器学习领域,它是对数据的一种特定表达,成功地应用在自然语言处理、语音识别等多个方面[40] 。当前,表示学习方法被广泛地应用于知识图谱的链接预测中。表示学习旨将链接数据中的实体和关系通过学习过程表示为实值向量。其过程通常包含实值向量的初始化、学习目标的定义、模型参数和实值向量的学习等步骤。主要的方法包括双线性模型、多层感知机模型、张量神经网络模型和距离模型等,如表 1 所示,其中 e i ,e j ,r k 分别代表两个实体和一个关系的实体向量表示。
表 1 基于表示学习的链接预测方法
事实上,图特征模型通常和表示学习方法一起使用,起到相互补充的作用,前者可以更好地表达局部的图模式,而后者能学习到全局的模式,典型工作如 PTransE [51] 和各种组合模型等[52-53] 。
基于统计关系学习的链接预测旨在同时利用链接数据中的统计信息和逻辑依赖性来预测实体间的关系。马尔可夫随机域(MRF)是一种传统的用于链接关系学习的概率图模型[54] ,而概率软逻辑(PSL)是最近被广泛研究的可以用来预测实体关系的统计关系学习方法[55] 。前者通过将模板应用到实体集合以生成马尔可夫随机域的图,最终实现实体关系的推理;后者融合统计信息和逻辑依赖,即将链接数据中对实体的本体限制转化为有权重的规则,并能通过一种凸优化方法有效地解决其中的概率推理,解决传统的马尔可夫逻辑网络(MLN)所遇到的可扩展性问题。