四种主流NoSQL数据库核心原理与架构解析-开发者社区-阿里云

前言

NoSQL（Not Only SQL），意即“不仅仅是SQL”。NoSQL的拥护者提倡运用非关系型的数据存储作为大数据存储的重要补充。NoSQL数据库适用于数据模型比较简单、IT系统需要更强的灵活性、对数据库性能要求较高且不需要高度的数据一致性等场景。

NoSQL数据库具有如下四大分类：

1、键值（Key-Value）存储数据库：常见的键值存储数据库有Tokyo Cabinet / Tyrant、Berkeley DB、MemcacheDB、Redis等。

2、列存储数据库：如HBase、Cassandra、Riak等。

3、文档型数据库：常见的文档型数据库有MongoDB、CouchDB、SequoiaDB等。

4、图（Graph）数据库：诸如Neo4J、InfoGrid、Infinite Graph等。

一、键值数据库Redis

（一）Redis简介

Redis（REmote DIctionary Server）是一个由Salvatore Sanfilippo写的Key-Value内存数据库，能达到每秒十万次的读写，常用作缓存或者消息队列。 Redis是使用ANSI C语言编写的，遵守BSD协议，支持网络并可基于内存和可持久化的日志型Key-Value数据库，提供多种语言的API。 Redis数据库中的值（value）可以是字符串（string）、哈希（map）、列表（list）、集合（sets）和有序集合（sorted sets）等类型。

与其他Key-Value缓存产品相比，Redis主要具有以下三个特点：首先，Redis支持数据的持久化，可以将内存中的数据保存在磁盘中，重启时可以再次加载使用；其次，Redis不仅仅支持简单的Key-Value类型的数据，同时还提供list、set、zset、hash等数据结构的存储。最后，Redis还支持数据的备份，即Master/Slave模式的数据备份，可以将数据从主服务器复制到任意数量的从服务器。 Redis运行在内存中并可以持久化到磁盘，所以在对不同数据集进行高速读写时需要权衡内存，因为数据量不能大于硬件内存。相比在磁盘上相同的复杂的数据结构，在内存中操作起来非常简单。

（二）Redis数据类型

Redis支持5种数据类型：string（字符串）、hash（哈希）、list（列表）、set（集合）及zset。

1、string（字符串）

字符串是最常用的一种数据类型，普通的Key/Value存储都可以归为此类。

2、hash（哈希）

哈希是一个string类型的field和value的映射表。hash特别适合存储对象，相当于将对象的每个字段存成单个string类型。Redis的hash实际是将内部存储的value作为一个HashMap，并提供了直接存取这个Map成员的接口，如图所示为Redis中的哈希结构。

3、list（列表）

列表是一个链表结构，可以从头部（左边）或者尾部（右边）添加和删除元素。Redis的list类型其实就是每个子元素都是string类型的双向链表，我们可以通过push或pop操作从链表两端添加删除元素。

4、set（集合）

set是string类型的无序不重复集合。set是通过hash table实现的。可以对集合采取并集、交集、差集操作；还可以使用不同的命令将结果返回给客户端并且存到一个新的集合中。

5、zset

zset在set的基础上增加了一个顺序的属性，这一属性在添加修改元素的时候可以指定，每次指定后，zset会自动重新按新的值调整顺序。可以将其理解为有列的表，一列存value，一列存顺序，操作中key理解为zset的名字。

（三）Redis持久化

Redis将内存中的数据同步到磁盘来保证持久化。Redis主要支持使用Snapshotting（快照）和Append-only file（aof）两种方式实现数据的持久化。

1、Snapshotting

快照是默认的持久化方式。这种方式就是将内存中数据以快照的方式写入到二进制文件中，默认的文件名为dump.rdb。可以通过配置设置自动做快照，比如可以配置Redis在n秒内如果超过m个key被修改就自动做快照。

2、Append-only file

Append-only file方式比快照方式有更好的持久化性，是由于在使用aof方式进行数据的持久化时，Redis会将每一个收到的写命令都通过write()函数追加到文件中。当redis重启时会通过重新执行文件中保存的写命令，在内存中重建整个数据库的内容。当然由于操作系统会在内核中缓存写操作所做的修改，所以可能不是立即写到磁盘上，这样aof方式的持久化也还是有可能会丢失部分修改。不过可以通过配置文件告知Redis通过fsync函数强制操作系统写入到磁盘的策略。

二、列存储数据库HBase

（一）简介

HBase是一个分布式的、面向列的开源数据库。它主要用来存储非结构化和半结构化的松散数据，是基于列而非行进行数据存储的。HBase建立在HDFS之上，仅能通过主键（row key）和主键的range来检索数据，仅支持单行事务，可以通过Hive支持来实现多表join等复杂操作。它还可以横向扩展，增加廉价的商用服务器来提高HBase的计算和存储能力。

在一个HBase集群中一般存在Client、HMaster、HRegionServer、Zookeeper四种角色，如图所示为HBase部署架构。

1、Client

客户端包含访问HBase的接口，并维护Cache来加快对HBase的访问，比如Region的位置信息。

2、HMaster

HMaster在功能上主要负责Table和Region的管理工作，包括：

（1）管理用户对Table的增、删、改、查操作；

（2）管理HRegionServer的负载均衡，调整Region分布；

（3）在Region Split后，负责新Region的分配；

（4）在HRegionServer停机后，负责失效HRegionServer上的Regions迁移。

Region是HBase数据管理的基本单位。数据的move、balance、split，都是按照Region来进行操作的。

HMaster没有单点问题，HBase中可以启动多个HMaster，通过Zookeeper的Master Election机制保证总有一个Master运行。

3、HRegionServer

HRegionServer主要负责响应用户I/O请求，向HDFS文件系统中读写数据，是HBase中最核心的模块。HRegionServer内部管理了一系列HRegion对象，每个HRegion对应了Table中的一个Region，HRegion由多个HStore组成。每个HStore对应了Table中的一个Column Family的存储，每个Column Family就是一个集中的存储单元。因此将具备共同IO特性的Column放在一个Column Family中，会提高存储效率。

4、Zookeeper

Zookeeper Quorum中除存储了HBase内置表-ROOT-的地址和HMaster的地址外，HRegionServer也会把自己相关信息注册到Zookeeper中，使得HMaster可以随时感知到各个HRegionServer的健康状态。此外，Zookeeper也避免了HMaster的单点问题。

（二）HBase数据表

相较于传统的数据表，HBase中的数据表一般有这样一些特点：

（1）大表，一个表可以有上亿行，上百万列；

（2）面向列（族）的存储和权限控制，列（族）独立检索；

（3）稀疏表结构，对于为空（null）的列，并不占用存储空间。

表的逻辑结构如图所示，表由行和列组成。列划分为若干个列族（row family）。

1、行键

行键Row Key是用来检索记录的主键。访问HBase Table中的行，要么通过单个Row Key访问，要么通过Row Key的Range，要么就是进行全表扫描。行键（Row Key）可以是任意字符串（最大长度是64KB，实际应用中长度一般为10～100 bytes），在HBase内部，Row Key保存为字节数组。

2、列族

HBase表中的每个列，都归属于某个列族（Column Family）。列族是表的一部分，而列不是，列簇必须在使用表之前定义，列名都以列族作为前缀。例如courses:history，courses:math都属于courses这个列族。

3、时间戳

HBase中通过行键和列确定的一个存储单元称为cell。每个cell都保存着同一份数据的多个版本，版本通过时间戳（Timestamp）来索引。时间戳的类型是64位整型。时间戳可以由HBase在数据写入时自动赋值，此时时间戳是精确到毫秒的当前系统时间。时间戳也可以由客户显式赋值。

（三）Hbase物理存储

HBase的数据表中的所有行都按照行键的字典序排列。在存储时，Table在行的方向上分割为多个HRegion。HRegion是按大小分割的，每个表一开始只有一个region，随着数据不断插入表，region不断增大，当增大到一个阀值的时候，Hregion就会等分为两个新的HRegion。当Table中的行不断增多，就会有越来越多的HRegion。

HRegion是HBase中分布式存储和负载均衡的最小单元，不同的HRegion可分布在不同的HRegion server上，但一个HRegion是不会拆分到多个Server上的。一个HRegion由一个或者多个Store组成，每个Store保存一个columns family。每个Strore又由一个MemStore和0～多个StoreFile组成。StoreFile以HFile格式保存在HDFS上。

HFile分为如下六个部分：

（1）Data Block段：保存表中的数据，这部分可以被压缩。

（2）Meta Block段（可选的）：保存用户自定义的键值对，可以被压缩。

（3）File Info段：HFile的元信息，不被压缩，用户也可以在这一部分添加自己的元信息。

（4）Data Block Index段：Data Block的索引，每条索引的key是被索引的block的第一条记录的key。

（5）Meta Block Index段（可选的）：Meta Block的索引。

（6）Trailer：这一段是定长的。保存了每一段的偏移量，读取一个HFile时，会首先读取Trailer，Trailer保存了每个段的起始位置，然后，DataBlock Index会被读取到内存中。

为了应对灾难恢复，每个Region Server维护一个HLog，HLog记录数据的所有变更，一旦数据修改，就可以从log中进行恢复。

三、文档数据库MongoDB

（一）MongoDB简介

MongoDB是一个基于分布式文件存储的数据库，由C++语言编写，旨在为Web应用提供可扩展的高性能数据存储解决方案。MongoDB是一个介于关系数据库和非关系数据库之间的产品。MongoDB查询语言功能非常强大，可以实现类似关系数据库单表查询的绝大部分功能，同时支持数据索引。

对于数据查询：MongoDB支持动态查询，支持丰富的查询表达式。支持完全索引，可以在任意属性上建立索引，包含内部对象。MongoDB还提供创建基于地理空间索引的能力。MongoDB的查询优化器会分析表达式，并生成一个高效的查询计划，并且包含一个监视工具用于分析数据库操作的性能。

提供强大的聚合工具：如Count、Group等，支持使用MapReduce完成复杂的聚合任务。同时支持复制和故障恢复，MongoDB支持主从复制机制，可以实现数据备份、故障恢复、读扩展等功能。而基于副本集的复制机制提供了自动故障恢复的功能，确保了集群数据不会丢失。

对于数据存储：MongoDB采用高效的传统存储方式，文件存储格式为BSON（JSON的一种扩展）。BSON是对二进制格式的JSON的简称，BSON支持文档和数组的嵌套。支持二进制数据及大型对象。同时，MongoDB采用自动分片功能，自动处理碎片，以支持云计算层次的扩展性，可动态添加额外的机器。MongoDB对数据进行分片可以使集群存储更多的数据，实现更大的负载，也能保证存储的负载均衡。

提供了多种语言的接口：支持Python、PHP、Ruby、Java、C、C#、Javascript、Perl及C++语言的驱动程序，社区中也提供了对Erlang及.NET等平台的驱动程序。开发人员使用任何一种主流开发语言都可以轻松编程，实现访问MongoDB数据库。

针对MongoDB的特点和提供的功能，MongoDB不适合处理传统的商业智能应用和那些要求高度事务性的系统以及复杂的跨文档（表）级联查询。

MongoDB非常适合在以下应用环境中使用：

（1）网站数据：MongoDB非常适合实时的插入、更新与查询，并具备网站实时数据存储所需的复制及高度伸缩性。

（2）缓存：由于性能很高，MongoDB也适合作为信息基础设施的缓存层。在系统重启之后，由MongoDB搭建的持久化缓存层可以避免下层的数据源过载。

（3）大尺寸，低价值的数据：使用传统的关系型数据库存储一些数据时可能会比较昂贵，在此之前，很多时候往往会选择传统的文件进行存储。

（4）高伸缩性的场景：MongoDB非常适合由数十或数百台服务器组成的数据库。MongoDB的路线图中已经包含对MapReduce引擎的内置支持。

（5）用于对象及JSON数据的存储：MongoDB的BSON数据格式非常适合文档化格式的存储及查询。

（二）MongoDB基本概念

MongoDB是NoSQL数据库中最像关系数据库的一种，但其采用基于文档的存储，而是基于数据表的存储。下表给出了MongoDB与关系型数据库在文档、集合等概念的区别，其中MongoDB并不支持表间的连接操作。

SQL术语概念与MongoDB术语概念的比较表

SQL术语/概念	MongoDB术语/概念	解释/说明
database	database	数据库
table	collection	数据库表/集合

row	document	数据记录行/文档
column	field	数据字段/域
index	index	索引
table joins	——	表连接，MongoDB不支持
primary key	primary key	主键，MongoDB自动将_id字段设置为主键

传统关系数据库的数据表与MongoDB中集合相对应，下图给出了一个记录用户信息的关系型数据库表与MongoDB集合的对应关系。用户记录包括id、用户名（user_name）、电子邮箱（email）、年龄（age）、城市（city）信息。

一个MongoDB实例可以包含一组数据库，一个数据库可以包含一组集合，一个集合可以包含一组文档，一个文档包含一组字段，每一个字段都是一个键值对。其中key必须为字符串类型，value可以包含如下类型：

① 基本类型，例如，string、int、float、timestamp、binary等；

② 一个文档；

③ 数组类型。

1、文档

文档是MongoDB中数据的基本单位，类似于关系数据库中的行（但是比行复杂）。必须提醒注意的是，MongoDB中“文档”是由多个键及其关联的值有序地放在一起构成的一个文档。不同的编程语言对文档的表示方法不同，在JavaScript中文档表示为：

{"name":"Alex"}

这个文档只有一个键“name”，对应的值为“Alex”。多数情况下，文档比这个更复杂，它包含多个键/值对。例如：

{"name":"alex", "age": 3}

文档中的键/值对是有序的，下面的文档与上面的文档是完全不同的两个文档。

{"age": 3 , "name":"alex"}

文档中的值不仅可以是双引号中的字符串，也可以是其他的数据类型，例如，整型、布尔型等，也可以是另外一个文档，即文档可以嵌套，文档中的键类型只能是字符串。

2、集合

集合是一组文档，类似于关系数据库中的表。集合是无模式的，集合中的文档可以是各式各样的。例如，{"Alex":"name"}和{"age": 21}，它们的键不同，值的类型也不同，但是它们可以存放在同一个集合中，也就是不同模式的文档都可以放在同一个集合中。

3、数据库

MongoDB中多个文档组成集合，多个集合组成数据库。一个MongoDB实例可以承载多个数据库，它们之间可以看作是相互独立的，每个数据库都有独立的权限控制。在磁盘上，不同的数据库存放在不同的文件中。MongoDB中存在Admin、Local和Config三个系统数据库。

Admin数据库：一个权限数据库，如果创建用户的时候将该用户添加到admin数据库中，那么该用户就自动继承了所有数据库的权限。

Local数据库：这个数据库永远不会被复制，可以用来存储本地单台服务器的任意集合。

Config数据库：当MongoDB使用分片模式时，Config数据库在内部使用，用于保存分片的信息。

四、图数据库Neo4j

（一）Neo4j与知识图谱

知识图谱是结构化的语义知识库，用于以符号形式描述物理世界中的概念及其相互关系，其基本组成单位是“实体-关系-实体”三元组，以及实体及其相关“属性-值”对，实体之间通过关系相互连接，构成网状的知识结构。

在知识图谱的数据层，知识以事实（Fact）为单位存储在图数据库。如果以“实体-关系-实体”或者“实体-属性-值”三元组作为事实的基本表达方式，则存储在图数据库中的所有数据将构成庞大的实体关系网络，形成知识的图谱。

Neo4j是一个将结构化数据存储在图（网络）而不是表中的NoSQL图数据库，它可以被看作是一个嵌入式的、基于磁盘的、具备完全事务特性的高性能Java持久化图引擎，该引擎具有成熟数据库的所有特性。

Neo4j重点解决了拥有大量连接的传统RDBMS在查询时出现的性能衰退问题。围绕图进行数据建模后，Neo4j会以相同的速度遍历节点与边，其遍历速度与构成图的数据规模没有关系。此外，Neo4j还提供了非常快的图算法、推荐系统和OLAP风格的分析。

遍历是图数据库数据检索的一个基本操作，也是图模型中所特有的操作。遍历的重要概念是其本身的局域化，遍历查询数据时仅使用必需的数据，而不是像关系数据库中使用join操作那样对所有的数据集实施代价昂贵的分组操作。

Neo4j在开始添加数据之前，不需要定义表和关系，一个节点可以具有任何属性，任何节点都可以与其他任何节点建立关系。Neo4j数据库中的数据模型隐含在它存储的数据中，而不是明确地将数据模型定义为数据库本身的一个部分，它是对存入数据的一个描述，而不是数据库的一系列方法来限制将要存储的内容。

Neo4j本身是用Java语言实现的，它也提供了Java API帮助用户来实现相关的数据库操作。同时Neo4j提供Cypher声明式图谱查询语言，用来可视化查询展示图谱里面的节点和关系。Cypher围绕图谱查询提供了可读性好和容易使用，功能强大的众多优点，并且是跨平台的，包括Java、Shell等其他所有平台。

（二）Neo4j的核心概念

1、Nodes（节点）

图谱的基本单位主要是节点和关系，它们都可以包含属性；一个节点就是一行数据，一个关系也是一行数据，里面的属性就是数据库里面的row里面的字段。除了属性之外，关系和节点还可以有零到多个标签，标签也可以认为是一个特殊分组方式。

2、Relationships（关系）

关系的功能是组织和连接节点，一个关系连接两个节点，一个开始节点和一个结束节点。当所有的点被连接起来，就形成了一张图谱，通过关系可以组织节点形成任意的结构，比如list、tree、map、tuple，或者更复杂的结构。关系拥有进和出两个方向，代表一种指向。

3、Properties（属性）

属性非常类似数据库里面的字段，只有节点和关系可以拥有0到多个属性，属性类型基本和Java的数据类型一致，分为数值、字符串、布尔，以及其他的一些类型，字段名必须是字符串。

4、Labels（标签）

可以通过标签给节点加上一种类型，一个节点可以有多个类型。除此之外标签在给属性建立索引或者约束时也会用到。Label名称必须是非空的unicode字符串，其最大标记容量为231。

5、Traversal（遍历）

查询时候通常是遍历图谱然后找到路径，在遍历时通常会有一个开始节点，然后根据Cypher提供的查询语句，遍历相关路径上的节点和关系，从而得到最终的结果。

6、Paths（路径）

路径是一个或多个节点通过关系连接起来的产物，例如，得到图谱查询或者遍历的结果。

7、Indexes（索引）

构建索引是一个异步请求，并不会立刻生效，会在后台创建直至成功后，才能最终生效。

8、Constraints（约束）

约束可以定义在某个字段上，限制字段值唯一，创建约束会自动创建索引。

大数据存储技术（4）—— NoSQL数据库