6.10 链接数据实践
从语义网的理想被提出起,人们就不断尝试各种建立数据之间链接的技术和方法。比较典型的如LOD(Linked Open Data Project) [17] 、Schema.org [18] 、WikiData [19] 等。
LOD
LOD 的初衷是为了实现 Tim Berners-Lee 在2006 年发表的有关链接数据(Linked Data)作为语义网的一种实现的设想[20] 。LOD 遵循了 Tim 提出的进行数据链接的四个规则,即:
(1)使用 URI 标识万物;
(2)使用 HTTP URI,以便用户可以(像访问网页一样)查看事物的描述;
(3)使用 RDF 和 SPARQL 标准;
(4)为事物添加与其他事物的 URI 链接,建立数据关联。
截止 2014 年的统计数据,LOD 已经包含了1 014 个数据集[17] 。其中社交媒体、政府、出版和生命科学四个领域的数据占比超过 90%。56% 的数据集对外至少与一个数据集建立了链接。被链接最多的是 dbpedia 的数据。比较常用的链接类型 包 括 foaf:knows、sioc:follows、owl:sameAs、rdfs:seeAlso、dct:spatial、skos:exactMatch 等。LOD 鼓励各个数据集使用公共的开放词汇和术语,但也允许使用各自的私有词汇和术语。在使用的术语中,有 41% 是公共的开放术语。
Schema.org
Schema.org 有 更 为 清 晰 的 商 业 模 式。Schema.org 是 2011 年 由 Bing、Google、Yahoo和 Yandex 等搜索引擎公司共同创建。与 LOD 不同,Schema.org 要求使用一组简单但统一的词汇集。链接数据以语义标签(Semantic Markup)的形式被嵌入到网页或电子邮件中。语义标签能帮助搜索引擎更加自动地抽取和归集语义化数据,帮助搜索引擎理解网页内容,并优化搜索结果。
Schema.org 由一套类集合和一套关系集合组成。目前,类集合已包含 642 个类型,并有类似于本体概念那样的继承结构。关系集合包含 992 个关系属性。词汇表覆盖范围包括个人、组织机构、地点、时间、医疗、商品等。
谷歌于 2015 年推出的定制化知识图谱[12]采用了 Schema.org 的做法,允许个人和企业在其网页中增加包括 Logo、企业联系方法和个人社交信息等在内的语义标签。 截止 2016 年,谷歌的一份统计数据显示,超过 31% 的网页和 1 200 万的网站已经使用了 Schema.org 的语义标签发布语义化的链接数据[19] 。其他采用了部分 Schema.org 功能的还包括微软Cortana、Yandex、Pinterest、苹果的Siri等[18] 。
Wikidata
WikiData 由维基百科于 2012 年启动。早期得到微软联合创始人 Paul Allen、Gordon BettyMoore 基金会以及 Google 的资助。WikiData 的目标是构建一个免费开放、任何人或机器都可以编辑修改的链接数据库[19] 。与 LOD 和 Schema.org 都不相同,WikiData 采用集中存储、众包协作的方式构建链接数据。
WikiData 由条目组成,仍然以三元组为最基本的数据模型。任何人或机器可以为条目增加属性描述。截止目前,WikiData 已经包含超过 1 750 多万个条目。谷歌于 2016 年 5 月正式关闭了 Freebase的服务,并将 Freebase 原有的数据和服务迁移至WikiData。