《中国人工智能学会通讯》——6.10 链接数据实践

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第6章,第6.10节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

6.10 链接数据实践

从语义网的理想被提出起,人们就不断尝试各种建立数据之间链接的技术和方法。比较典型的如LOD(Linked Open Data Project) [17] 、Schema.org [18] 、WikiData [19] 等。

LOD
LOD 的初衷是为了实现 Tim Berners-Lee 在2006 年发表的有关链接数据(Linked Data)作为语义网的一种实现的设想[20] 。LOD 遵循了 Tim 提出的进行数据链接的四个规则,即:
(1)使用 URI 标识万物;
(2)使用 HTTP URI,以便用户可以(像访问网页一样)查看事物的描述;
(3)使用 RDF 和 SPARQL 标准;
(4)为事物添加与其他事物的 URI 链接,建立数据关联。

截止 2014 年的统计数据,LOD 已经包含了1 014 个数据集[17] 。其中社交媒体、政府、出版和生命科学四个领域的数据占比超过 90%。56% 的数据集对外至少与一个数据集建立了链接。被链接最多的是 dbpedia 的数据。比较常用的链接类型 包 括 foaf:knows、sioc:follows、owl:sameAs、rdfs:seeAlso、dct:spatial、skos:exactMatch 等。LOD 鼓励各个数据集使用公共的开放词汇和术语,但也允许使用各自的私有词汇和术语。在使用的术语中,有 41% 是公共的开放术语。

Schema.org
Schema.org 有 更 为 清 晰 的 商 业 模 式。Schema.org 是 2011 年 由 Bing、Google、Yahoo和 Yandex 等搜索引擎公司共同创建。与 LOD 不同,Schema.org 要求使用一组简单但统一的词汇集。链接数据以语义标签(Semantic Markup)的形式被嵌入到网页或电子邮件中。语义标签能帮助搜索引擎更加自动地抽取和归集语义化数据,帮助搜索引擎理解网页内容,并优化搜索结果。

Schema.org 由一套类集合和一套关系集合组成。目前,类集合已包含 642 个类型,并有类似于本体概念那样的继承结构。关系集合包含 992 个关系属性。词汇表覆盖范围包括个人、组织机构、地点、时间、医疗、商品等。

谷歌于 2015 年推出的定制化知识图谱[12]采用了 Schema.org 的做法,允许个人和企业在其网页中增加包括 Logo、企业联系方法和个人社交信息等在内的语义标签。 截止 2016 年,谷歌的一份统计数据显示,超过 31% 的网页和 1 200 万的网站已经使用了 Schema.org 的语义标签发布语义化的链接数据[19] 。其他采用了部分 Schema.org 功能的还包括微软Cortana、Yandex、Pinterest、苹果的Siri等[18] 。

Wikidata
WikiData 由维基百科于 2012 年启动。早期得到微软联合创始人 Paul Allen、Gordon BettyMoore 基金会以及 Google 的资助。WikiData 的目标是构建一个免费开放、任何人或机器都可以编辑修改的链接数据库[19] 。与 LOD 和 Schema.org 都不相同,WikiData 采用集中存储、众包协作的方式构建链接数据。

WikiData 由条目组成,仍然以三元组为最基本的数据模型。任何人或机器可以为条目增加属性描述。截止目前,WikiData 已经包含超过 1 750 多万个条目。谷歌于 2016 年 5 月正式关闭了 Freebase的服务,并将 Freebase 原有的数据和服务迁移至WikiData。

相关文章
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能:从理论到实践
【10月更文挑战第5天】在这篇文章中,我们将深入探讨人工智能(AI)的基本原理,并展示如何通过编程实现一个简单的AI模型。我们将使用Python语言和流行的机器学习库scikit-learn来构建一个线性回归模型,这是一个基本的预测模型,可以用来预测连续值的数据。我们将详细解释每一步,确保读者能够理解并跟随我们的代码示例。
|
9天前
|
机器学习/深度学习 人工智能 TensorFlow
人工智能浪潮下的自我修养:从Python编程入门到深度学习实践
【10月更文挑战第39天】本文旨在为初学者提供一条清晰的道路,从Python基础语法的掌握到深度学习领域的探索。我们将通过简明扼要的语言和实际代码示例,引导读者逐步构建起对人工智能技术的理解和应用能力。文章不仅涵盖Python编程的基础,还将深入探讨深度学习的核心概念、工具和实战技巧,帮助读者在AI的浪潮中找到自己的位置。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能:从基础理论到实践应用
【8月更文挑战第39天】在本文中,我们将深入探讨人工智能(AI)的基本概念、发展历程以及其在现实世界中的应用。我们将首先介绍AI的定义和主要分类,然后回顾其发展历史,最后通过一个实际的代码示例来展示AI的应用。无论你是AI领域的初学者还是有一定基础的学习者,这篇文章都将为你提供有价值的信息和启示。
|
23天前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能的无限可能:技术前沿与应用实践
【10月更文挑战第23天】探索人工智能的无限可能:技术前沿与应用实践
|
26天前
|
人工智能 算法 测试技术
探索人工智能的边界:从理论到实践的技术感悟###
一场意外的代码崩溃引发的技术觉醒 一次深夜的紧急修复,让我深刻体会到了算法优化与系统稳定性之间微妙的平衡。一行不起眼的代码错误,导致整个智能推荐系统瘫痪,这次经历促使我深入思考技术的本质和开发者的责任。本文将分享这一过程中的启示,并探讨如何通过技术创新来提升系统的鲁棒性和用户体验。 ###
|
26天前
|
机器学习/深度学习 人工智能 自动驾驶
探索人工智能:从理论到实践
【10月更文挑战第22天】本文将深入探讨人工智能(AI)的理论基础,并结合实例展示如何将理论应用于实践中。我们将从AI的基本概念出发,逐步深入到机器学习、深度学习等高级主题,最后通过代码示例,展示如何实现一个简单的AI模型。无论你是AI领域的初学者,还是有一定基础的开发者,都能从本文中获得有价值的信息和启示。
|
28天前
|
机器学习/深度学习 人工智能 算法
探索人工智能:从理论到实践的旅程
【10月更文挑战第20天】本文将深入探讨人工智能(AI)的核心概念、发展历程以及在现实世界中的应用。我们将从AI的定义和历史出发,逐步揭示其工作原理和关键技术,如机器学习和深度学习。接着,通过具体的代码示例,我们将展示如何实现一个简单的AI模型,并讨论其在解决实际问题中的潜力。最后,文章将展望未来AI技术的发展趋势,包括面临的挑战和潜在的机遇。
|
9天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能赋能个案管理服务的应用与实践
通义千问2.5作为新一代人工智能模型,正在为医疗健康领域的个案管理服务带来革命性变革。本文探讨了该技术在患者管理、MDT多学科协作、整体评估、电子病历管理、随访管理和复诊提醒等方面的应用,展示了其在提升医疗服务质量和管理效率方面的显著成效。
26 0
|
1月前
|
人工智能 边缘计算 算法
CDGA|利用人工智能与边缘计算显著提升数据治理效率与效果的实践案例
​ 在当今数字化转型的浪潮中,数据已成为企业最宝贵的资产之一。然而,随着数据量的爆炸性增长,如何高效、安全地治理这些数据成为企业面临的重要挑战。人工智能(AI)与边缘计算技术的融合,为数据治理带来了前所未有的机遇。本文将通过实际案例,探讨如何利用AI与边缘计算显著提升数据治理的效率和效果。
|
1月前
|
机器学习/深度学习 算法 数据建模
计算机前沿技术-人工智能算法-生成对抗网络-算法原理及应用实践
计算机前沿技术-人工智能算法-生成对抗网络-算法原理及应用实践
30 0