《语义网基础教程(原书第3版)》—— 2.2 RDF:数据模型

简介:

本节书摘来自华章出版社《语义网基础教程(原书第3版)》一 书中的第2章,第2.2节,作者:(希)Grigoris Antoniou(荷)Paul Groth(荷)Frank van Harmelen(荷)Rinke Hoekstra ,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.2 RDF:数据模型

RDF中的基本概念包括资源、属性、声明和图。

2.2.1 资源

我们可以认为一个资源是一个对象,我们希望谈论的一个“事物”。资源可以是作者、公寓、网球选手、地点、人、旅馆、查询,等等。每个资源都有一个URI。一个URI可以是一个URL((Uniform Resource Locator,统一资源定位符),或网址)或者另一种唯一的标识符。URI机制不仅被定义为万维网上的位置,还可以是电话号码、ISBN号和地理位置。URI提供了一种机制来无歧义地标识我们想要谈论的一个“事物”。因此,如果想指称一个游泳池(pool),我们可以为其分配一个URI,使它不会和撞球(billiard,pool的另一个词义)或者一群程序员(the pool of programmers)混淆。这称为一词多义问题。
使用URI不必能访问(access)到一个资源。但是使用可以解引用的(dereferenceable)URL作为资源标识符被认为是一种好的做法。它使得用户既可以获取资源本身(比如一张图片),也可以获取资源的进一步描述(比如一个人)。这种做法将贯穿本书。使用URI是RDF背后的一个关键设计方案。它允许全球唯一的命名方案的存在。使用这种机制能够大幅缓解迄今为止困扰分布式数据表示的一词多义问题。

2.2.2 属性

属性是一类特殊的资源,它们描述了资源之间的关系。例如,“friend of”、“written by”和“located in”。和其他资源一样,属性也由URI标识。我们也可以解引用属性的URL来找到它们的描述。

2.2.3 声明

声明断言了资源的属性。一个声明是一个实体–属性(attribute)–取值的三元组,由一个资源、一个属性和一个属性值组成。属性值要么是一个资源,要么是一个文字(literal)。文字是原子值,例如,数字、字符串或日期。我们经常使用主语一词来指称三元组里的实体,而使用宾语来指称其取值。
例如,对于声明“Baron Way Building is located in Amsterdam”,我们可以这么写:
screenshot

注意,我们在这个声明中如何使用URL来标识我们指称的事物。

2.2.4 图

我们也可以使用图形化的方式来书写相同的声明。注意,为了增加可读性,我们在图中不使用URI。
如图2-1所示,带标签的节点通过带标签的边连接。边是有向的,从声明的主语到声明的宾语,声明的属性被标记在边上。节点上的标签是主语和宾语的标识符。一个声明的宾语可以是另一个声明的主语。例如,我们可以说“Amsterdam is a city”。我们可以在图2-2中看见这个图形化结果。
screenshot

这种图形化表示强调了RDF是一个以图为中心的数据模型这一概念。事实上,RDF和人工智能领域中的语义网络(semantic net)类似。我们能够继续扩展有关Baron Way Building信息的图。图2-3展示了RDF图的一个扩展版本。
screenshot

重要的是,这个图可以以一种分布式的方式,由多个不同参与人使用相同的URL来创建。这使得我们可以创建一个允许知识被重用的数据万维网(Web of Data)。例如,如果我们在万维网上发现描述Amsterdam的RDF,我们可以仅通过使用该URL来重用这些信息。事实上,有一组称为链接数据原则(Linked Data principle)的最佳实践,鼓励我们重用和使信息可用来帮助创建一个全局的图。
1)使用URI作为事物的名称。
2)使用HTTP URI,以便人们可以查询到这些名称。
3)当某人查询一个URI时,使用标准(RDF)来提供有用的信息。
4)包含到其他URI的链接,以便可以发现更多事物。
虽然RDF数据模型不要求我们必须遵循这些原则,但是通过这样做可以使我们从他人贡献的知识中获益。注意,在该例子中,我们已经重用了DBpedia.org提供的信息。你可以沿着这些URL来发现更多关于所指称的概念的信息。

2.2.5 指向声明和图

有时能够指向特定的声明或图的某些部分是很有用的,例如当赋予一个声明一个信念度时,或者标识一个声明从哪里来时。例如,我们可能想要描述一个关于Baron Way Building的位置的声明是由一个叫Frank的人创建的。RDF提供了两种实现机制。
一种称为具体化(reification)。具体化背后的关键思想是引入一个额外的对象,例如LocationStatement,并将它和原来声明中的三个部分通过属性subject、predicate和object关联。在之前的例子中,LocationStatement的主语是BaronWayBuilding,谓语是location,而宾语是Amsterdam。随后我们可以将这个声明作为另一个三元组的主语来定义创建者。图2-4描述了生成的结果图。同样出于展示的原因,完整的URI没有在图2-4中给出。
screenshot

这种相对笨重的方式是必要的,因为RDF中只存在三元组,因此我们不能直接为三元组添加一个标识符(否则就变成了四元组)。正是由于具体化的昂贵代价,在较新版本的RDF标准中引入了命名图的概念。这时,一个显式的标识符(同样是URL)被赋予一个声明或声明集合。然后这个标识符就可以在普通的三元组中引用。这是一种更加直接地定义声明和图的机制。简言之,一个命名图允许圈出一个RDF声明的集合并为这些声明提供一个标识符。2.3.1节第一部分内容提供了一个使用命名图来表示上述具体化声明的例子。

2.2.6 处理更丰富的谓语

我们可以将一个三元组(x, P, y)想成一个逻辑公式P(x, y),其中二元谓词P关联对象x到对象y。事实上RDF只提供了二元谓词(属性)。但是在一些情况下,我们可能需要谓语包含超过两个参数。幸运的是,这样的谓语可以通过一组二元谓词来模拟。我们通过一个包含3个参数的谓语broker来展现这个技术。broker(X, Y, Z)的直观含义是
X是房屋出售人Y和购买人Z之间的中介。
现在介绍一个新的额外的资源home-sale以及二元谓词broker、seller和purchaser。接下来,可以将broker(X, Y, Z )表达为如下形式:
screenshot

虽然拥有3个参数的谓语书写更简洁,使用二元谓词确实简化了整个数据模型。

相关文章
|
前端开发 算法 API
Multi-Agent实践第4期:智能体的“想”与“做”-ReAct Agent
本期文章,我们将向大家展示如何使用AgentScope内置的ReAct智能体解决更为复杂的问题。
|
存储 自然语言处理 搜索推荐
什么是向量数据库?
什么是向量数据库?
1913 0
|
6月前
|
存储 人工智能 前端开发
Google揭秘Agent架构三大核心:工具、模型与编排层实战指南
本文为Google发布的Agent白皮书全文翻译。本文揭示了智能体如何突破传统AI边界,通过模型、工具与编排层的三位一体架构,实现自主推理与现实交互。它不仅详解了ReAct、思维树等认知框架的运作逻辑,更通过航班预订、旅行规划等案例,展示了智能体如何调用Extensions、Functions和Data Stores,将抽象指令转化为真实世界操作。文中提出的“智能体链式组合”概念,预示了未来多智能体协作解决复杂问题的革命性潜力——这不仅是技术升级,更是AI赋能产业的范式颠覆。
2010 1
|
10月前
|
机器学习/深度学习 存储 算法
DistilQwen2.5发布:通义千问蒸馏小模型再升级
为解决大语言模型在资源有限环境下的高计算成本和复杂性问题,阿里云推出了基于 Qwen2.5 的轻量化模型系列 DistilQwen2.5。该模型通过双层蒸馏框架、数据优化策略及参数融合技术,在保留性能的同时显著降低计算资源消耗。本文提供了详细的使用教程和代码示例,方便用户在 PAI 平台上调用。
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
《解码AI大模型涌现能力:从量变到质变的智能跃迁》
人工智能大模型的涌现能力是当今科技的焦点。其产生依赖于四大关键因素:1) 海量数据提供丰富的训练素材,涵盖多样化的文本和图像;2) 强大算力如GPU、TPU加速模型训练,突破性能瓶颈;3) 精妙架构如Transformer引入自注意力机制,提升语义理解;4) 过参数化与优化策略使模型不断进化,展现未曾预设的能力。这些因素协同作用,推动大模型在复杂任务中表现出色,为未来带来更多可能。
773 11
|
人工智能 自然语言处理 搜索推荐
🤖【多Agent大爆炸】——灵活调用与实践指南,解锁AI协作新技能!
本文深入探讨了单Agent与多Agent在不同场景下的应用及优势,通过实例讲解多Agent如何实现高效协作,涵盖智能物流、教育、医疗等多个领域的实际应用,旨在帮助开发者掌握多Agent系统的调用与实践技巧。
1178 5
|
机器学习/深度学习 算法 数据挖掘
算法金 | 欧氏距离算法、余弦相似度、汉明、曼哈顿、切比雪夫、闵可夫斯基、雅卡尔指数、半正矢、Sørensen-Dice
**摘要:** 了解9种距离和相似度算法:欧氏距离、余弦相似度、汉明距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、雅卡尔指数、半正矢距离和Sørensen-Dice系数。这些算法在机器学习、文本分析、图像处理和生物学等领域各有应用。例如,欧氏距离用于KNN和K-Means,余弦相似度用于文本相似性,汉明距离在错误检测中,曼哈顿距离在数据挖掘,切比雪夫距离在棋盘游戏,闵可夫斯基距离通过调整参数适应不同场景,雅卡尔指数和Sørensen-Dice系数用于集合相似度。每种算法有其优缺点,如欧氏距离对异常值敏感,余弦相似度忽略数值大小,汉明距离仅适用于等长数据。
597 2
算法金 | 欧氏距离算法、余弦相似度、汉明、曼哈顿、切比雪夫、闵可夫斯基、雅卡尔指数、半正矢、Sørensen-Dice
|
机器学习/深度学习 人工智能 自然语言处理
大模型的特点、重要概念及工作方式详解
大模型是具有大量参数和复杂结构的深度学习模型,通过处理大量数据实现高效任务解决。其特点包括参数规模庞大、深层网络结构、预训练与微调、多任务学习和自适应能力。重要概念有注意力机制、Transformer架构、迁移学习和分布式训练。大模型的工作方式包括输入处理、特征提取、预测与损失计算、反向传播与优化,以及评估与微调。这些特性使其在自然语言处理、计算机视觉等领域取得显著进展。
4410 0
|
SQL 自然语言处理 关系型数据库
NL2SQL进阶系列(3):Data-Copilot、Chat2DB、Vanna Text2SQL优化框架开源应用实践详解[Text2SQL]
NL2SQL进阶系列(3):Data-Copilot、Chat2DB、Vanna Text2SQL优化框架开源应用实践详解[Text2SQL]
NL2SQL进阶系列(3):Data-Copilot、Chat2DB、Vanna Text2SQL优化框架开源应用实践详解[Text2SQL]
|
人工智能 监控 前端开发
基于ReAct机制的AI Agent
当前,在各个大厂纷纷卷LLM的情况下,各自都借助自己的LLM推出了自己的AI Agent,比如字节的Coze,百度的千帆等,还有开源的Dify。你是否想知道其中的原理?是否想过自己如何实现一套AI Agent?当然,借助LangChain就可以。

热门文章

最新文章