大数据存储技术(4)—— NoSQL数据库

本文涉及的产品
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
云数据库 Tair(兼容Redis),内存型 2GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
简介: 大数据存储技术(4)—— NoSQL数据库

前言

       NoSQL(Not Only SQL),意即“不仅仅是SQL”。NoSQL的拥护者提倡运用非关系型的数据存储作为大数据存储的重要补充。NoSQL数据库适用于数据模型比较简单、IT系统需要更强的灵活性、对数据库性能要求较高且不需要高度的数据一致性等场景。


       NoSQL数据库具有如下四大分类:

1、键值(Key-Value)存储数据库:常见的键值存储数据库有Tokyo Cabinet / Tyrant、Berkeley DB、MemcacheDB、Redis等。

2、列存储数据库:如HBase、Cassandra、Riak等。

3、文档型数据库:常见的文档型数据库有MongoDB、CouchDB、SequoiaDB等。

4、图(Graph)数据库:诸如Neo4J、InfoGrid、Infinite Graph等。

一、键值数据库Redis

(一)Redis简介

       Redis(REmote DIctionary Server)是一个由Salvatore Sanfilippo写的Key-Value内存数据库,能达到每秒十万次的读写,常用作缓存或者消息队列。 Redis是使用ANSI C语言编写的,遵守BSD协议,支持网络并可基于内存和可持久化的日志型Key-Value数据库,提供多种语言的API。 Redis数据库中的值(value)可以是字符串(string)、哈希(map)、列表(list)、集合(sets)和有序集合(sorted sets)等类型。

       与其他Key-Value缓存产品相比,Redis主要具有以下三个特点: 首先,Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启时可以再次加载使用; 其次,Redis不仅仅支持简单的Key-Value类型的数据,同时还提供list、set、zset、hash等数据结构的存储。 最后,Redis还支持数据的备份,即Master/Slave模式的数据备份,可以将数据从主服务器复制到任意数量的从服务器。 Redis运行在内存中并可以持久化到磁盘,所以在对不同数据集进行高速读写时需要权衡内存,因为数据量不能大于硬件内存。相比在磁盘上相同的复杂的数据结构,在内存中操作起来非常简单。

(二)Redis数据类型

       Redis支持5种数据类型:string(字符串)、hash(哈希)、list(列表)、set(集合)及zset。

1、string(字符串)

       字符串是最常用的一种数据类型,普通的Key/Value存储都可以归为此类。

2、hash(哈希)

       哈希是一个string类型的field和value的映射表。hash特别适合存储对象,相当于将对象的每个字段存成单个string类型。Redis的hash实际是将内部存储的value作为一个HashMap,并提供了直接存取这个Map成员的接口,如图所示为Redis中的哈希结构。

3、list(列表)

       列表是一个链表结构,可以从头部(左边)或者尾部(右边)添加和删除元素。Redis的list类型其实就是每个子元素都是string类型的双向链表,我们可以通过push或pop操作从链表两端添加删除元素。

4、set(集合)

       set是string类型的无序不重复集合。set是通过hash table实现的。可以对集合采取并集、交集、差集操作;还可以使用不同的命令将结果返回给客户端并且存到一个新的集合中。

5、zset

       zset在set的基础上增加了一个顺序的属性,这一属性在添加修改元素的时候可以指定,每次指定后,zset会自动重新按新的值调整顺序。可以将其理解为有列的表,一列存value,一列存顺序,操作中key理解为zset的名字。

(三)Redis持久化

      Redis将内存中的数据同步到磁盘来保证持久化。Redis主要支持使用Snapshotting(快照)和Append-only file(aof)两种方式实现数据的持久化。

1、Snapshotting

       快照是默认的持久化方式。这种方式就是将内存中数据以快照的方式写入到二进制文件中,默认的文件名为dump.rdb。可以通过配置设置自动做快照,比如可以配置Redis在n秒内如果超过m个key被修改就自动做快照。

2、Append-only file

       Append-only file方式比快照方式有更好的持久化性,是由于在使用aof方式进行数据的持久化时,Redis会将每一个收到的写命令都通过write()函数追加到文件中。当redis重启时会通过重新执行文件中保存的写命令,在内存中重建整个数据库的内容。当然由于操作系统会在内核中缓存写操作所做的修改,所以可能不是立即写到磁盘上,这样aof方式的持久化也还是有可能会丢失部分修改。不过可以通过配置文件告知Redis通过fsync函数强制操作系统写入到磁盘的策略。

二、列存储数据库HBase

(一)简介

       HBase是一个分布式的、面向列的开源数据库。它主要用来存储非结构化和半结构化的松散数据,是基于列而非行进行数据存储的。HBase建立在HDFS之上,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务,可以通过Hive支持来实现多表join等复杂操作。它还可以横向扩展,增加廉价的商用服务器来提高HBase的计算和存储能力。

       在一个HBase集群中一般存在Client、HMaster、HRegionServer、Zookeeper四种角色,如图所示为HBase部署架构。

1、Client

       客户端包含访问HBase的接口,并维护Cache来加快对HBase的访问,比如Region的位置信息。

2、HMaster

       HMaster在功能上主要负责Table和Region的管理工作,包括:

       (1)管理用户对Table的增、删、改、查操作;

       (2)管理HRegionServer的负载均衡,调整Region分布;

       (3)在Region Split后,负责新Region的分配;

       (4)在HRegionServer停机后,负责失效HRegionServer上的Regions迁移。

       Region是HBase数据管理的基本单位。数据的move、balance、split,都是按照Region来进行操作的。

       HMaster没有单点问题,HBase中可以启动多个HMaster,通过Zookeeper的Master Election机制保证总有一个Master运行。

3、HRegionServer

       HRegionServer主要负责响应用户I/O请求,向HDFS文件系统中读写数据,是HBase中最核心的模块。HRegionServer内部管理了一系列HRegion对象,每个HRegion对应了Table中的一个Region,HRegion由多个HStore组成。每个HStore对应了Table中的一个Column Family的存储,每个Column Family就是一个集中的存储单元。因此将具备共同IO特性的Column放在一个Column Family中,会提高存储效率。

4、Zookeeper

       Zookeeper Quorum中除存储了HBase内置表-ROOT-的地址和HMaster的地址外,HRegionServer也会把自己相关信息注册到Zookeeper中,使得HMaster可以随时感知到各个HRegionServer的健康状态。此外,Zookeeper也避免了HMaster的单点问题。

(二)HBase数据表

       相较于传统的数据表,HBase中的数据表一般有这样一些特点

       (1)大表,一个表可以有上亿行,上百万列;

       (2)面向列(族)的存储和权限控制,列(族)独立检索;

       (3)稀疏表结构,对于为空(null)的列,并不占用存储空间。

       表的逻辑结构如图所示,表由行和列组成。列划分为若干个列族(row family)。

1、行键

       行键Row Key是用来检索记录的主键。访问HBase Table中的行,要么通过单个Row Key访问,要么通过Row Key的Range,要么就是进行全表扫描。行键(Row Key)可以是任意字符串(最大长度是64KB,实际应用中长度一般为10~100 bytes),在HBase内部,Row Key保存为字节数组。

2、列族

       HBase表中的每个列,都归属于某个列族(Column Family)。列族是表的一部分,而列不是,列簇必须在使用表之前定义,列名都以列族作为前缀。例如courses:history,courses:math都属于courses这个列族。

3、时间戳

       HBase中通过行键和列确定的一个存储单元称为cell。每个cell都保存着同一份数据的多个版本,版本通过时间戳(Timestamp)来索引。时间戳的类型是64位整型。时间戳可以由HBase在数据写入时自动赋值,此时时间戳是精确到毫秒的当前系统时间。时间戳也可以由客户显式赋值。

(三)Hbase物理存储

       HBase的数据表中的所有行都按照行键的字典序排列。在存储时,Table在行的方向上分割为多个HRegion。HRegion是按大小分割的,每个表一开始只有一个region,随着数据不断插入表,region不断增大,当增大到一个阀值的时候,Hregion就会等分为两个新的HRegion。 当Table中的行不断增多,就会有越来越多的HRegion。

       HRegion是HBase中分布式存储和负载均衡的最小单元,不同的HRegion可分布在不同的HRegion server上,但一个HRegion是不会拆分到多个Server上的。一个HRegion由一个或者多个Store组成,每个Store保存一个columns family。每个Strore又由一个MemStore和0~多个StoreFile组成。StoreFile以HFile格式保存在HDFS上。

       HFile分为如下六个部分:

(1)Data Block段:保存表中的数据,这部分可以被压缩。

(2)Meta Block段(可选的):保存用户自定义的键值对,可以被压缩。

(3)File Info段:HFile的元信息,不被压缩,用户也可以在这一部分添加自己的元信息。

(4)Data Block Index段:Data Block的索引,每条索引的key是被索引的block的第一条记录的key。

(5)Meta Block Index段(可选的):Meta Block的索引。

(6)Trailer:这一段是定长的。保存了每一段的偏移量,读取一个HFile时,会首先读取Trailer,Trailer保存了每个段的起始位置,然后,DataBlock Index会被读取到内存中。

       为了应对灾难恢复,每个Region Server维护一个HLog,HLog记录数据的所有变更,一旦数据修改,就可以从log中进行恢复。

三、文档数据库MongoDB

(一)MongoDB简介

       MongoDB是一个基于分布式文件存储的数据库,由C++语言编写,旨在为Web应用提供可扩展的高性能数据存储解决方案。MongoDB是一个介于关系数据库和非关系数据库之间的产品。MongoDB查询语言功能非常强大,可以实现类似关系数据库单表查询的绝大部分功能,同时支持数据索引。

      对于数据查询:MongoDB支持动态查询,支持丰富的查询表达式。支持完全索引,可以在任意属性上建立索引,包含内部对象。MongoDB还提供创建基于地理空间索引的能力。MongoDB的查询优化器会分析表达式,并生成一个高效的查询计划,并且包含一个监视工具用于分析数据库操作的性能。

       提供强大的聚合工具:如Count、Group等,支持使用MapReduce完成复杂的聚合任务。同时支持复制和故障恢复,MongoDB支持主从复制机制,可以实现数据备份、故障恢复、读扩展等功能。而基于副本集的复制机制提供了自动故障恢复的功能,确保了集群数据不会丢失。

      对于数据存储:MongoDB采用高效的传统存储方式,文件存储格式为BSON(JSON的一种扩展)。BSON是对二进制格式的JSON的简称,BSON支持文档和数组的嵌套。支持二进制数据及大型对象。 同时,MongoDB采用自动分片功能,自动处理碎片,以支持云计算层次的扩展性,可动态添加额外的机器。MongoDB对数据进行分片可以使集群存储更多的数据,实现更大的负载,也能保证存储的负载均衡。

      提供了多种语言的接口:支持Python、PHP、Ruby、Java、C、C#、Javascript、Perl及C++语言的驱动程序,社区中也提供了对Erlang及.NET等平台的驱动程序。开发人员使用任何一种主流开发语言都可以轻松编程,实现访问MongoDB数据库。


       针对MongoDB的特点和提供的功能,MongoDB不适合处理传统的商业智能应用和那些要求高度事务性的系统以及复杂的跨文档(表)级联查询。

       MongoDB非常适合在以下应用环境中使用:

(1)网站数据:MongoDB非常适合实时的插入、更新与查询,并具备网站实时数据存储所需的复制及高度伸缩性。

(2)缓存:由于性能很高,MongoDB也适合作为信息基础设施的缓存层。在系统重启之后,由MongoDB搭建的持久化缓存层可以避免下层的数据源过载。

(3)大尺寸,低价值的数据:使用传统的关系型数据库存储一些数据时可能会比较昂贵,在此之前,很多时候往往会选择传统的文件进行存储。

(4)高伸缩性的场景:MongoDB非常适合由数十或数百台服务器组成的数据库。MongoDB的路线图中已经包含对MapReduce引擎的内置支持。

(5)用于对象及JSON数据的存储:MongoDB的BSON数据格式非常适合文档化格式的存储及查询。

(二)MongoDB基本概念

       MongoDB是NoSQL数据库中最像关系数据库的一种,但其采用基于文档的存储,而是基于数据表的存储。下表给出了MongoDB与关系型数据库在文档、集合等概念的区别,其中MongoDB并不支持表间的连接操作。

SQL术语概念与MongoDB术语概念的比较表

SQL术语/概念 MongoDB术语/概念 解释/说明
database database 数据库
table collection 数据库表/集合
row document 数据记录行/文档
column field 数据字段/域
index index 索引
table joins —— 表连接,MongoDB不支持
primary key primary key 主键,MongoDB自动将_id字段设置为主键

       传统关系数据库的数据表与MongoDB中集合相对应,下图给出了一个记录用户信息的关系型数据库表与MongoDB集合的对应关系。用户记录包括id、用户名(user_name)、电子邮箱(email)、年龄(age)、城市(city)信息。

       一个MongoDB实例可以包含一组数据库,一个数据库可以包含一组集合,一个集合可以包含一组文档,一个文档包含一组字段,每一个字段都是一个键值对。其中key必须为字符串类型,value可以包含如下类型:

① 基本类型,例如,string、int、float、timestamp、binary等;

② 一个文档;

③ 数组类型。

1、文档

       文档是MongoDB中数据的基本单位,类似于关系数据库中的行(但是比行复杂)。必须提醒注意的是,MongoDB中“文档”是由多个键及其关联的值有序地放在一起构成的一个文档。不同的编程语言对文档的表示方法不同,在JavaScript中文档表示为:

{"name":"Alex"}

这个文档只有一个键“name”,对应的值为“Alex”。多数情况下,文档比这个更复杂,它包含多个键/值对。例如:

{"name":"alex", "age": 3}

文档中的键/值对是有序的,下面的文档与上面的文档是完全不同的两个文档。

{"age": 3 , "name":"alex"}

       文档中的值不仅可以是双引号中的字符串,也可以是其他的数据类型,例如,整型、布尔型等,也可以是另外一个文档,即文档可以嵌套,文档中的键类型只能是字符串。

2、集合

       集合是一组文档,类似于关系数据库中的表。集合是无模式的,集合中的文档可以是各式各样的。例如,{"Alex":"name"}和{"age": 21},它们的键不同,值的类型也不同,但是它们可以存放在同一个集合中,也就是不同模式的文档都可以放在同一个集合中。

3、数据库

       MongoDB中多个文档组成集合,多个集合组成数据库。一个MongoDB实例可以承载多个数据库,它们之间可以看作是相互独立的,每个数据库都有独立的权限控制。在磁盘上,不同的数据库存放在不同的文件中。MongoDB中存在Admin、Local和Config三个系统数据库。

Admin数据库:一个权限数据库,如果创建用户的时候将该用户添加到admin数据库中,那么该用户就自动继承了所有数据库的权限。

Local数据库:这个数据库永远不会被复制,可以用来存储本地单台服务器的任意集合。

Config数据库:当MongoDB使用分片模式时,Config数据库在内部使用,用于保存分片的信息。

四、图数据库Neo4j

(一)Neo4j与知识图谱

       知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关“属性-值”对,实体之间通过关系相互连接,构成网状的知识结构。

       在知识图谱的数据层,知识以事实(Fact)为单位存储在图数据库。如果以“实体-关系-实体”或者“实体-属性-值”三元组作为事实的基本表达方式,则存储在图数据库中的所有数据将构成庞大的实体关系网络,形成知识的图谱。

       Neo4j是一个将结构化数据存储在图(网络)而不是表中的NoSQL图数据库,它可以被看作是一个嵌入式的、基于磁盘的、具备完全事务特性的高性能Java持久化图引擎,该引擎具有成熟数据库的所有特性。

       Neo4j重点解决了拥有大量连接的传统RDBMS在查询时出现的性能衰退问题。围绕图进行数据建模后,Neo4j会以相同的速度遍历节点与边,其遍历速度与构成图的数据规模没有关系。此外,Neo4j还提供了非常快的图算法、推荐系统和OLAP风格的分析。

       遍历是图数据库数据检索的一个基本操作,也是图模型中所特有的操作。遍历的重要概念是其本身的局域化,遍历查询数据时仅使用必需的数据,而不是像关系数据库中使用join操作那样对所有的数据集实施代价昂贵的分组操作。

       Neo4j在开始添加数据之前,不需要定义表和关系,一个节点可以具有任何属性,任何节点都可以与其他任何节点建立关系。Neo4j数据库中的数据模型隐含在它存储的数据中,而不是明确地将数据模型定义为数据库本身的一个部分,它是对存入数据的一个描述,而不是数据库的一系列方法来限制将要存储的内容。

       Neo4j本身是用Java语言实现的,它也提供了Java API帮助用户来实现相关的数据库操作。同时Neo4j提供Cypher声明式图谱查询语言,用来可视化查询展示图谱里面的节点和关系。Cypher围绕图谱查询提供了可读性好和容易使用,功能强大的众多优点,并且是跨平台的,包括Java、Shell等其他所有平台。

(二)Neo4j的核心概念

1、Nodes(节点)

       图谱的基本单位主要是节点和关系,它们都可以包含属性;一个节点就是一行数据,一个关系也是一行数据,里面的属性就是数据库里面的row里面的字段。除了属性之外,关系和节点还可以有零到多个标签,标签也可以认为是一个特殊分组方式。

2、Relationships(关系)

       关系的功能是组织和连接节点,一个关系连接两个节点,一个开始节点和一个结束节点。当所有的点被连接起来,就形成了一张图谱,通过关系可以组织节点形成任意的结构,比如list、tree、map、tuple,或者更复杂的结构。关系拥有进和出两个方向,代表一种指向。

3、Properties(属性)

       属性非常类似数据库里面的字段,只有节点和关系可以拥有0到多个属性,属性类型基本和Java的数据类型一致,分为数值、字符串、布尔,以及其他的一些类型,字段名必须是字符串。

4、Labels(标签)

       可以通过标签给节点加上一种类型,一个节点可以有多个类型。除此之外标签在给属性建立索引或者约束时也会用到。Label名称必须是非空的unicode字符串,其最大标记容量为231。

5、Traversal(遍历)

       查询时候通常是遍历图谱然后找到路径,在遍历时通常会有一个开始节点,然后根据Cypher提供的查询语句,遍历相关路径上的节点和关系,从而得到最终的结果。

6、Paths(路径)

       路径是一个或多个节点通过关系连接起来的产物,例如,得到图谱查询或者遍历的结果。

7、Indexes(索引)

       构建索引是一个异步请求,并不会立刻生效,会在后台创建直至成功后,才能最终生效。

8、Constraints(约束)

       约束可以定义在某个字段上,限制字段值唯一,创建约束会自动创建索引。


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
数据库 索引
深入探索数据库索引技术:回表与索引下推解析
【10月更文挑战第15天】在数据库查询优化的领域中,回表和索引下推是两个核心概念,它们对于提高查询性能至关重要。本文将详细解释这两个术语,并探讨它们在数据库操作中的作用和影响。
46 3
|
1月前
|
数据库 索引
深入理解数据库索引技术:回表与索引下推详解
【10月更文挑战第23天】 在数据库查询性能优化中,索引的使用是提升查询效率的关键。然而,并非所有的索引都能直接加速查询。本文将深入探讨两个重要的数据库索引技术:回表和索引下推,解释它们的概念、工作原理以及对性能的影响。
51 3
|
29天前
|
负载均衡 网络协议 数据库
选择适合自己的数据库多实例负载均衡技术
【10月更文挑战第23天】选择适合自己的数据库多实例负载均衡技术需要全面考虑多种因素。通过深入的分析和评估,结合自身的实际情况,能够做出明智的决策,为数据库系统的高效运行提供有力保障。
108 61
|
16天前
|
存储 缓存 NoSQL
常见的 NoSQL 数据库有哪些?
常见的 NoSQL 数据库有哪些?
26 2
|
27天前
|
SQL Java 数据库连接
在Java应用中,数据库访问常成为性能瓶颈。连接池技术通过预建立并复用数据库连接,有效减少连接开销,提升访问效率
在Java应用中,数据库访问常成为性能瓶颈。连接池技术通过预建立并复用数据库连接,有效减少连接开销,提升访问效率。本文介绍了连接池的工作原理、优势及实现方法,并提供了HikariCP的示例代码。
42 3
|
29天前
|
缓存 负载均衡 监控
数据库多实例的负载均衡技术深入
【10月更文挑战第23天】数据库多实例负载均衡技术是确保数据库系统高效运行的重要手段。通过合理选择负载均衡策略、实时监控实例状态、不断优化调整,能够实现资源的最优分配和系统性能的提升。在实际应用中,需要根据具体情况灵活运用各种负载均衡技术,并结合其他相关技术,以满足不断变化的业务需求。
|
1月前
|
Java 数据库连接 数据库
优化之路:Java连接池技术助力数据库性能飞跃
在Java应用开发中,数据库操作常成为性能瓶颈。频繁的数据库连接建立和断开增加了系统开销,导致性能下降。本文通过问题解答形式,深入探讨Java连接池技术如何通过复用数据库连接,显著减少连接开销,提升系统性能。文章详细介绍了连接池的优势、选择标准、使用方法及优化策略,帮助开发者实现数据库性能的飞跃。
28 4
|
27天前
|
Java 数据库连接 数据库
深入探讨Java连接池技术如何通过复用数据库连接、减少连接建立和断开的开销,从而显著提升系统性能
在Java应用开发中,数据库操作常成为性能瓶颈。本文通过问题解答形式,深入探讨Java连接池技术如何通过复用数据库连接、减少连接建立和断开的开销,从而显著提升系统性能。文章介绍了连接池的优势、选择和使用方法,以及优化配置的技巧。
27 1
|
1月前
|
SQL Java 数据库连接
打破瓶颈:利用Java连接池技术提升数据库访问效率
在Java应用中,数据库访问常成为性能瓶颈。连接池技术通过预建立并复用数据库连接,避免了频繁的连接建立和断开,显著提升了数据库访问效率。常见的连接池库包括HikariCP、C3P0和DBCP,它们提供了丰富的配置选项和强大的功能,帮助优化应用性能。
46 2
|
2月前
|
存储 SQL JSON
介绍一下RDBMS和NoSQL数据库之间的区别
【10月更文挑战第21天】介绍一下RDBMS和NoSQL数据库之间的区别
64 2