#sjmj 《数据密集型应用系统设计》 - 数据模型和查询语言
概览
- 现实世界的API和相关程序作用于某个特定领域解决现实生活的某些问题。
- 存储数据的模型可以使JSON也可以是XML类型。
- 如何展示以及表示JSON,以及如何操作和处理数据模型使应用开发人员天职工作。
- 更底层的工程师需要考虑的内容越多,需要具备过硬的软硬件知识。
NOSQL诞生
第一部分讲述了NOSQL为什么会主键由关系模型发展而来。以及介绍了历史长河中曾经被尝试的一些模型信息。
NOSQL之所以越来越受欢迎,主要是下面几个特点:
- 相比关系型数据库更加灵活的存储形式,支持大的数据集和写入吞吐量。
- 对于一些特定查询操作需要NOSQL完成。
- 开源免费的产品更加受到欢迎。
- 关系型数据固有的一些缺点,NOSQL更灵活的表现形式。
对象关系匹配问题
所谓对象和关系的匹配问题指的是在一个看似简单的现实对象中,如果通过关系型数据库往往需要较多的表之间形成关联关系才能完整展示。
而使用NOSQL数据模型,则可以直接通过一个JSON模型,展示一个对象的多种嵌套关系。
虽然ORM框架某些程度上解决了数据库数据和对象模型的映射问题,但是并不能完全解决灵活性问题,在NOSQL上不存在灵活性限制。
最终一对多的关系模型由于不匹配出现了树状结构:
多对一和多对多
多对一需要使用唯一ID进行关联,使用唯一ID的好处是一旦创建就不需要更改,本身的无意义特点也决定了不会被轻易改变的特点。
如果不使用关联,则多对一的展示需要的是多次关联查询的操作,把一个对象的内容拆分为多个查询搜索。
所以一个单体对象在最初非常适合使用单一的关系模型,而在后续得扩展之中发现对象的嵌套使用关系型数据库虽然也能完成,但是带来是臃肿和业务复杂的加剧。
显然文档模型在处理关系的层面上更加灵活。
网络模型
网络模型是由于 CODASYL 的标准化被提出,最原始的数据库数据库可以看做是不同厂商实施的CODASYL模型。
关于网络模型的历史,可以看看wiki的相关介绍:
CODASYL属于层次模型的推广,网络模型的架构之下每个记录可能多个父节点,通过一个节点服务多个纪录,实现一对多和多对一的模型。
另外关系链路和关系模型的主键以及外键不同,使用的是类似链表指针串联的方式仅限连接,多对多的关系模型,需要正确的找到“父节点”,才能再重复的数据中找到匹配结果。
网络模型仅仅是作为当时历史背景下解决有限硬件资源搜索慢的问题处理的,最大的缺点和他的特点一样,就是这个特殊的“父节点”,为了寻找一条关系链路,需要准确找到父节点显然是复杂并且难以维护的。
CODASYLwiki解释:CODASYL - Wikipedia
关系模型
关系模型定义了表和元组(行)的集合,支持任意的条件搜索和表中主外键清晰的逻辑结构,迅速取代网络模型从而得到快速发展。
虽然关系型数据库的扩展带来的是越来越复杂的关系模型,但是关系模型的最大特点是只需要构建一次查询优化器就可以使得所有的应用程序都可以通用。
最终查询优化器是解决了网络模型链路查找的痛点问题。
文档模型比较
文档模型为了解决关系模型的复杂化诞生,文档模型的关系也就是外键信息被叫做文档引用,可以通过直接链接查询和解析嵌套“关系”,所以这种设计并没有遵循网络模型单一父节点的特点。
文档模型和关系模型
现今的数据和网络结构通常是文档模型和关系模型的结合,文档模型可以聚合多个关系表的内容仅限一次展示,但是如果存在多对多的关系,由于文档模型的自由一定程度上需要应用程序进行限制和防范,在这一层面上关系模型显然胜任多对多的处理。
针对关系模型的字段扩展通常需要小心谨慎的完成,比如在MYSQL种修改表
alter table
需要建立 新的BTree树并且进行拷贝工作,如果表非常大会非常久的停机时间。
一种处理方式是通过建立新表拷贝旧表的数据导入来完成,可以保证不受影响的情况下完成备份操作。
最后如果需要聚合多个对象的内容,使用文档模型显然更加合适,而使用关系模型则需要维护庞大的多表结构。
查询局限性
文档模型的瓶颈出现在本身的数据结构上,尤其是JSON或者XML格式,存储和更新文档模型在文档模型较大的时候磁盘IO的开销比较大,大文档模型的查询效率也会越发效率低下。
关于文档模型的JSON以及XML优化,将在第一部分的第四章节进行更详细的讲解。
关系模型和文档模型融合
主流的数据库在文档模型的发展之后,逐渐引入了对文档模型的兼容,比如Postgresql在9.3之后引入了JSON的API以及原生JSON的存储支持,支持文本以及二进制的存储。
而在文档数据库方面同样存在反向结合关系数据模型的特点,比如MongoDB可以自动解析数据库的引用关系转化为温暖当模型。
目前看来最终未来两者的模型结构是融合而不是一方取代另一方的模式。
数据查询语言
声明式查询
所谓声明式查询指的是只需要数据模型以及制定结果,通过抽象转化数据以及数据显示实现这一个目标完成数据模型展示逻辑上的抽象。
换句话说声明式的查询只关注整体的规范,不关注具体的实现,但是在SQL中存在诸多限制,所以SQL也存在许多的优化空间,太过自由和不够自由是生命式查询的缺点。
以此为代表的的声明式查询有下面几种结构:
- SQL
- WEB标签
命令式查询
命令式查询的好处是对于业务处理的灵活性十足, 相比于声明式的抽象和难以排查,命令式的查询则具备较强的逻辑性和可排查行。
当然命令式查询最大的问题是随着逻辑的复杂命令会越发的难以阅读,如果不加以重构,最终就会造成无法阅读的代码。
但是不管怎么说相比较声明式语言命令式显然更容易理解一些。
MapReduce 查询
MapReduct是一种编程模型,主要作用是在多机器上面晚餐海量数据处理,最初由Google提出。关于这一数据结构的讨论在第十章也有更为详细的讨论。
下面是可供参考的原始论文:
[[Mapreduce.pdf]](Obsidian)
[[三大论文中文版.pdf]](Obsidian)
MapReduce
查询是一种介于声明式和命令式之间的一种组件,代码片段可以被处理框架反复调用。
主要的函数分为 map
函数和 reduce
函数。
例如,假设 observations
集合包含如下两个文档:
将下面的的SQL进行 Map
和 Reduce
函数操作
SELECT date_trunc (’ month ’, observation_timestamp) AS sum(num_animals) AS total_animals FRO问 observations WHERE family= 'Sharks ’ GROUP BY observation_month ;
对于这个查询,首先需要编写相关的 map
和 reduce
函数对于实现上面的相同效果:
db.observations.mapReduce( function map() { @ var year = this. observation Times tamp . getFull Year(); var month = this .observationTimestamp .getMonth() + 1; emit (year +”-”+ mo『1th, this . numAnimals); €> }, function reduce(key, values) { e return Array . sum(values); © query: { family :” Sharks" } , 0 out :” monthlySharkReport ”@
每个文档都会调用 一次map
函数,从而产生Emit ( '’ 1995 - 12 4 )
。随后, reduce 函数将被调用, reduce ( “ 1995 - 12 ” , 【3 ,4】),返回 7。
注意 map
以及 reduce
函数需要依赖纯JS函数来完成操作,传递进去的数据作为输入操作同时不能完成数据库查询的操作。
这些限制保证可以实现数据库查询可以在任意的位置运行函数,一旦失败重新运行即可。
所以最后发现MapReduce特点是一个相当底层的编程模型,用于在计算集群上分布执行。
MapReduce的一个可用性问题是,必须编写两个密切协调的JavaScript 函数,这通常 比编 写单个查询更难。
此外,MapReduct编写高级函数执行相关操作这比写单个查询要难上不少。
如果书中的句子难以理解,我们可以换用IBM官方的介绍,个人认为比较直观的显示这两个函数的意义。
类似下面的情况,如果我们要对汉堡进行分类,抽出里面的所有内容,首先我们需要用map函数把汉堡分类为一个个部分,然后再通过reduce函数对于相同分类的内容进行合并。
最终结果就像是下面这样:
最终通过JSON的方式进行展示
通过对于不同函数的调用,最终实现不同形式的数据暂时以及获取不同的数据统计信息,这对于灵活运用SQL函数的结果是非常有意义的。
图数据模型
图数据模型相比其他几个模型来说复杂很多,但是实际使用图数据库的厂商通常制定了一套图数据模型查询语言帮助开发者降低门槛。
个人始终认为图模型才是人类思考的最终形式,因为这种模型实际上更像是对于“网络模型”的变种和拓展,从图中也可以看到“父节点”本身的界限被看的更加清晰。
图的主要思想是顶点(也叫做节点或者实体)以及 边(关系和弧)进行建模。
典型的案例可以直接看下面的图形:
图模型通常具备下面的特点:
- 强大的灵活性, 顶点和顶点之间的关系不受限制,没有强制的措施否认事物的关联。
- 利于演化和扩展,编写一个关系模型受到数据模型本身的影响比较小,在扩展中复杂化数据结构对于图模型本身也具备兼容条件。
下面讨论的内容涉及了Neo4j为代表的图数据库实现。
属性图
在属性图模型中,每个顶点包括:唯一的标识符、 出边的集合、 人边的集合、 属性的集合 (键-值对)
每个边包括 :唯一的标识符、边开始的顶点(尾部顶点) 边结束的顶点(头部顶点) 描述两个顶点间关系类型的标签、属性的集合 (键-值对)。
通过关系模型表示,则属性图类似下面的语句:
属性图存在下面的特点:
- 顶点之间的互相连接不存在限制。
- 给定定点可以快速的找到边和另一个顶点。
Cypher 查询语言
Cypher是一种用于属性图的声明式查询语言, 最早为Neo4j 图形数据库而创建,另外Cypher出自黑客帝国的一个比较重要的角色,这个单词的原意叫做“暗号”。
Cypher的语法结构如下,包含一个顶点和一个边,数据的存储是使用类似JSON的key/value方式。
这个语法初看可能觉得奇怪,但是理解概念之后意外的十分好上手。
对于上面的内容使用查询如下:
查询显然是根据出生地和居住地这两条关系线找到位置相关的信息,最终返回用户的名称,比较符合人的思考习惯。
比如查找相关的迁出地的人和迁入地的人:
对于上面的查询写法并不是唯一的,其实可以直接从Location开始查找欧洲和美国两个顶点,然后根据关系线找到其他的关系也是一种解法。
Neo4j还是比较意思的东西,书中只是简单介绍了一下,更多内容可以找一些简单的项目结合官方问你大概可以快速入门和上手。
Neo4j相关阅读参考: # Neo4了解# 安装Apoc插件以及JAVA集成
SQL中的图查询
如果上面的案例中的关系使用关系型数据库实现,虽然可以完成但是需要大量的关系表配合完成,关系型数据库另一项难题是这样的针对“边”的检索能力十分羸弱。
SQL在遇到图数据库的冲击之后也开始了关于图查询到研究,目前较为成功的案例为PostgreSql的图查询(Graph Query)。
注意在SQL:l999标准以后, 查询过程中这种可变的遍历路径可以使用称为递归公用表表达式(即WITH RECURSIVE) 来表示。这里截取了一部分,但是显然这个查询复杂而且显得臃肿不可理解。
这样的查询也说明了对于不同的场景选择合适的数据模型非常重要,不要试图去让一个不适合的数据模型强行去做另一个模型的专长,不会显得技术牛逼,只会显得白费力气。
三元存储和SAPRQL
三元存储的方式几乎和SPARQL一致。但是因为不同的名词采用了相同的思想,但是因为三元模型发展出了不同的工具和语言,所以这里还算要放到“图”的范畴考虑。
三元的三元分别叫做:主体、谓语、客体。有点类似语言中到主谓宾。
在三元模型汇总主体充当图的顶点,客体分为下面两种:
- 原始数据类型的值。这种情况可以认为谓语以及客体相当于主体的键值对的键和值。
- 图的另一个顶点。相当于主从结构的客体部分类似另一个“顶点”,此时谓语是一条“边”。
也就说说主体必定是一个抽象的顶点“对象”,而客体可以是另一个“主体”对象,也可以是一个具体的值。
这样描述依然比较抽象,下面是相关的结构图:
为了简化书写减少相同单词的输入,可以使用分号对于这样的写法进行改良:
吐槽:图数据的介绍这一段显然有点翻译灾难,有些属于个人认为翻译不是很恰当,建议直接看Neo4j的使用更为直观。
语义网
语义网本质指的是将发给人类阅读的文字按照机器本身可以识别的方式解读?RDF框架实现了这样的机制,不同网站的数据合并为一个数据网络,也就是实现数据互联。
但是因为它在过去被过分的夸大,所以导致与此沾边的概念会受到牵连,注意RDF是不同的数据模型。
RDF数据模型
Turtle语言参考: www.w3.org/TR/turtle/
国内有博主做了翻译,很强: www.cnblogs.com/coodream200…
一句话Turle语言:Turtle文档是以紧凑的文本形式来描述一个RDF图,这种RDF图是由主语、谓词、宾语组成的三元组构成的。
通过Turtle语言实现代表了RDF数据的人类可读格式,目前已经有不少开源组件支持对于这种数据模型格式的转化,比如使用RDF/XML语法。
因为这门语言主要的目的是不同网站之间的数据河流,所以有一个特殊约定是对于三元结构存在主体、谓语、客体三部分通常为URL的设计,采用这样的设计有一个原因是防止相同数据的冲突无法区分的问题,实用URI区分是一种比较好的方式,哪怕结果相同也不会影响关系的存在。
另外从RDF角度来看实用URI不一定是需要解析,也有可能是一个URI占位符号的存在。
SPARQL查询语言
定义:采用 RDF数据模型的三元存储查询语言。名字是SPARQL Protocol 和RDF Query Language的缩写 ,发音为“sparkle”。
注意这要比Cypher还要早,并且后者借用了前者的模式匹配,所以不少地方比较像。
下面是这门语言的相关格式
可以看到这种形式和Cypher基本类似,但是RDF的区别是不分属性和边,
图数据库和网络模型的比较 主要的区别如下:
- 网络模型需要指定那一条记录嵌套在其他的标记当中,图数据不存在记录嵌套关系的记录限制,可以为需求提供更多的灵活性。
- 图数据库可以通过一个顶点索引不同顶点,而网络模型需要唯一的一个入口找寻关系。
- 图数据库顶点和边不一定是有序的,而网络模型则在插入新纪录的时候考虑记录在集合中的位置。
- 网络模型中所有查询都是命令式,二兔数据库使用自己的语言,可以灵活的组合顶点和边形成网络。
Datalog基础
Datalog要比SPARQL 以及Cypher更为古老,作为查询语言的鼻祖比较重要。
实际案例:
- Datomic系统的查询语言
- Cascalog 主要是查询大数据集的Datalog实现。
Datalog 的模型类似SPASQL,但是有一个很重要的区别是他并不是使用三元而是二元的结构,只是用谓语(主体、客体)的方式仅限表达和处理。
下面为使用Datalog的语法实现上述的查询功能,注意和SPARQL以及Cypher查询语言不同的是它需要每次实现一块功能,。
针对上面的查询,其查询逻辑类似 “树分叉匹配”的方式仅限处理,通过“包含”关系以及二元结构递归整个二三目录产生所有的匹配结果,最终形成下面的最终结果:
在最终一级也就是第三级当中可以指定一个who来查找具体的人。
Datalog虽然看上去比较繁琐,但是实际上非常强大,通过规则拆解关系,可以组合一级重用各种查询,对于复杂数据的处理十分方便。
总结
数据模型是一个抽象并且复杂的问题,在本书的第二章重点讨论了不同数据模型的优劣,我们可以明显的看到最初的数据模型实际上是属于“网状”的。
最初人们的设想是通过层级结构和单一节点作为入口展示节点的,后续则发现这种的单一结构虽然可以解决一对多,但是碰到多对多会十分复杂,所以关系模型应运而生。
而关系型数据库发展之后,开发人员发现对于多关系结构的组合在传统关系数据库表述并不合适,所以出现了“NOSQL”,而“NOSQL” 本身又划分出两个分歧线路:
- 文档数据库设定数据都是文档,文档通常是独立并且和其他文档关系不大。
- 图数据库则强调节点之间的强关联,更加贴合最原始的网状模型,特点是所有数据都能产生联系。
文档数据库和图数据库的共同特点是都不会对于存储的形式加以限制,可以更快的适应需求,而关系型数据库则适用于看中业务逻辑的场景。
此外还有一些数据模型也比较有意思:
- 基因组数据的研究人员需要智行序列相似的搜索,所以存在关于基因组的数据库软件,比如GenBank。
- 粒子物理学家通过大型对撞机(LHC)的项目来实PB级别的数据管理,需要一些定制的解决方案避免硬件成本失控。
- 全文搜索可以说一种警察和数据库一起使用的数据模型。