DDIA 读书分享 第二章:数据模型和查询语言(3)

简介: DDIA 读书分享 第二章:数据模型和查询语言(3)

Triple-Stores and SPARQL

Triple-Stores,可以理解为三元组存储,即用三元组存储图。

image.png                                              SPO 三元组

其含义如下:

Subject 对应图中的一个点
Object 1. 一个原子数据,如 string 或者 number。
2. 另一个 Subject。
Predicate 1. 如果 Object 是原子数据,则  <Predicate, Object> 对应点附带的 KV 对。
2. 如果 Object 是另一个 Object,则 Predicate 对应图中的边。

仍是上边例子,用 Turtle triples (一种 Triple-Stores 语法表达为

@prefix : <urn:example:>.
_:lucy     a       :Person.
_:lucy     :name   "Lucy".
_:lucy     :bornIn _:idaho.
_:idaho    a       :Location.
_:idaho    :name   "Idaho".
_:idaho    :type   "state".
_:idaho    :within _:usa.
_:usa      a       :Location
_:usa      :name   "United States"
_:usa      :type   "country".
_:usa      :within _:namerica.
_:namerica a       :Location.
_:namerica :name   "North America".
_:namerica :type   "continent".

一种更紧凑的写法:

@prefix : <urn:example:>.
_:lucy     a: Person;   :name "Lucy";          :bornIn _:idaho
_:idaho    a: Location; :name "Idaho";         :type "state";     :within _:usa.
_:usa      a: Location; :name "United States"; :type "country";   :within _:namerica.
_:namerica a :Location; :name "North America"; :type "continent".

语义网(The Semantic Web

万维网之父Tim Berners Lee于1998年提出,知识图谱前身。其目的在于对网络中的资源进行结构化,从而让计算机能够理解网络中的数据。即不是以文本、二进制流等等,而是通过某种标准结构化互相关联的数据。

语义:提供一种统一的方式对所有资源进行描述和结构化(机器可读)。

:将所有资源勾连起来。

下面是语义网技术栈(Semantic Web Stack):

image.png

                    语义网技术栈

其中 RDFResourceDescription Framework,资源描述框架)提供了一种结构化网络中数据的标准。使发布到网络中的任何资源(文字、图片、视频、网页),都能以统一的形式被计算机理解。即,不需要让资源使用方深度学习抽取资源的语义,而是靠资源提供方通过 RDF 主动提供其资源语义。

感觉有点理想主义,但互联网、开源社区都是靠这种理想主义、分享精神发展起来的!

虽然语义网没有发展起来,但是其中间数据交换格式 RDF 所定义的 SPO三元组(Subject-Predicate-Object) 却是一种很好用的数据模型,也就是上面提到的 Triple-Stores。

RDF 数据模型

上面提到的 Turtle 语言(SPO三元组)是一种简单易读的描述 RDF 数据的方式, RDF 也可以基于 XML 表示,但是要冗余难读的多(嵌套太深):

<rdf:RDF xmlns="urn:example:"
 xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#">
 <Location rdf:nodeID="idaho"> 
  <name>Idaho</name>
  <type>state</type>
  <within>
   <Location rdf:nodeID="usa">
    <name>United States</name>
    <type>country</type>
    <within>
     <Location rdf:nodeID="namerica"> 
      <name>North America</name>
      <type>continent</type>
       </Location>
      </within>
      </Location>
    </within>
 </Location>
 <Person rdf:nodeID="lucy">
  <name>Lucy</name>
  <bornIn rdf:nodeID="idaho"/>
 </Person>
</rdf:RDF>

为了标准化和去除二义性,一些看起来比较奇怪的点是:无论 subject,predicate 还是 object 都是由 URI 定义,如

lives_in 会表示为 <http://my-company.com/namespace#lives_in>

其前缀只是一个 namespace,让定义唯一化,并且在网络上可访问。当然,一个简化的方法是可以在文件头声明一个公共前缀。

SPARQL 查询语言

有了语义网,自然需要在语义网中进行遍历查询,于是有了 RDF 的查询语言:SPARQL Protocol and RDF Query Language, pronounced “sparkle.”

PREFIX : <urn:example:>
SELECT ?personName WHERE {
  ?person :name ?personName.
  ?person :bornIn  / :within* / :name "United States".
  ?person :livesIn / :within* / :name "Europe".
}

他是 Cypher 的前驱,因此结构看起来很像:

(person) -[:BORN_IN]-> () -[:WITHIN*0..]-> (location)   # Cypher
?person   :bornIn /        :within*        ?location.   # SPARQL

SPARQL 没有区分边和属性的关系,都用了 Predicates。

(usa {name:'United States'})   # Cypher
?usa :name "United States".    # SPARQL

虽然语义网没有成功落地,但其技术栈影响了后来的知识图谱和图查询语言。

图模型和网络模型

图模型是网络模型旧瓶装新酒吗?

否,他们在很多重要的方面都不一样。

模型 图模型(Graph Model) 网络模型(Network Model)
连接方式 任意两个点之间都有可以有边 指定了嵌套约束
记录查找 1. 使用全局 ID
2. 使用属性索引。
3. 使用图遍历。
只能使用路径查询
有序性 点和边都是无序的 记录的孩子们是有序集合,在插入时需要考虑维持有序的开销
查询语言 即可命令式,也可以声明式 命令式的

查询语言前驱:Datalog

有点像 triple-store,但是变了下次序:(subject, predicate, object) → predicate(subject, object). 之前数据用 Datalog 表示为:

name(namerica, 'North America').
type(namerica, continent).
name(usa, 'United States').
type(usa, country).
within(usa, namerica).
name(idaho, 'Idaho').
type(idaho, state).
within(idaho, usa).
name(lucy, 'Lucy').
born_in(lucy, idaho).

查询从美国迁移到欧洲的人可以表示为:

within_recursive(Location, Name) :- name(Location, Name). /* Rule 1 */
within_recursive(Location, Name) :- within(Location, Via), /* Rule 2 */ 
                                    within_recursive(Via, Name).
migrated(Name, BornIn, LivingIn) :- name(Person, Name), /* Rule 3 */ 
                                    born_in(Person, BornLoc),
                                    within_recursive(BornLoc, BornIn),
                                    lives_in(Person, LivingLoc),
                                    within_recursive(LivingLoc, LivingIn).
?- migrated(Who, 'United States', 'Europe'). /* Who = 'Lucy'. */
  1. 代码中以大写字母开头的元素是变量,字符串、数字或以小写字母开头的元素是常量。下划线(_)被称为匿名变量
  2. 可以使用基本 Predicate 自定义 Predicate,类似于使用基本函数自定义函数。
  3. 逗号连接的多个谓词表达式为且的关系。

image.png

                                 条件匹配集合扩充

基于集合的逻辑运算:

  1. 根据基本数据子集选出符合条件集合。
  2. 应用规则,扩充原集合。
  3. 如果可以递归,则递归穷尽所有可能性。

Prolog(Programming in Logic的缩写)是一种逻辑编程语言。它创建在逻辑学的理论基础之上。

参考

  1. 声明式(declarative) vs 命令式(imperative)https://lotabout.me/2020/Declarative-vs-Imperative-language/
  2. SimmerChan 知乎专栏,知识图谱,语义网,RDF:https://www.zhihu.com/column/knowledgegraph
  3. MySQL 为什么叫“关系”模型:https://zhuanlan.zhihu.com/p/64731206


相关文章
|
测试技术
WinCE下电阻式触摸屏的测试方法
很早以前在《四线电阻式触摸屏驱动的优化》一文中,介绍了TCC89平台触摸驱动的改造方法。实践证明,使用此方法后,触摸屏几乎再也没有出现跳笔的情况,达到了预期的目的。最近YJUN在调试应用时,发现一个问题,怀疑跟触摸屏驱动有关系——触摸驱动在一秒内上报给操作系统的点数太少,导致界面显示在滑动时不太流畅。
1097 0
|
10天前
|
存储 关系型数据库 分布式数据库
PostgreSQL 18 发布,快来 PolarDB 尝鲜!
PostgreSQL 18 发布,PolarDB for PostgreSQL 全面兼容。新版本支持异步I/O、UUIDv7、虚拟生成列、逻辑复制增强及OAuth认证,显著提升性能与安全。PolarDB-PG 18 支持存算分离架构,融合海量弹性存储与极致计算性能,搭配丰富插件生态,为企业提供高效、稳定、灵活的云数据库解决方案,助力企业数字化转型如虎添翼!
|
9天前
|
存储 人工智能 Java
AI 超级智能体全栈项目阶段二:Prompt 优化技巧与学术分析 AI 应用开发实现上下文联系多轮对话
本文讲解 Prompt 基本概念与 10 个优化技巧,结合学术分析 AI 应用的需求分析、设计方案,介绍 Spring AI 中 ChatClient 及 Advisors 的使用。
400 130
AI 超级智能体全栈项目阶段二:Prompt 优化技巧与学术分析 AI 应用开发实现上下文联系多轮对话
|
3天前
|
存储 安全 前端开发
如何将加密和解密函数应用到实际项目中?
如何将加密和解密函数应用到实际项目中?
197 138
|
9天前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
376 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
3天前
|
存储 JSON 安全
加密和解密函数的具体实现代码
加密和解密函数的具体实现代码
195 136
|
21天前
|
弹性计算 关系型数据库 微服务
基于 Docker 与 Kubernetes(K3s)的微服务:阿里云生产环境扩容实践
在微服务架构中,如何实现“稳定扩容”与“成本可控”是企业面临的核心挑战。本文结合 Python FastAPI 微服务实战,详解如何基于阿里云基础设施,利用 Docker 封装服务、K3s 实现容器编排,构建生产级微服务架构。内容涵盖容器构建、集群部署、自动扩缩容、可观测性等关键环节,适配阿里云资源特性与服务生态,助力企业打造低成本、高可靠、易扩展的微服务解决方案。
1347 8
|
8天前
|
监控 JavaScript Java
基于大模型技术的反欺诈知识问答系统
随着互联网与金融科技发展,网络欺诈频发,构建高效反欺诈平台成为迫切需求。本文基于Java、Vue.js、Spring Boot与MySQL技术,设计实现集欺诈识别、宣传教育、用户互动于一体的反欺诈系统,提升公众防范意识,助力企业合规与用户权益保护。