Neo4j数据库简介-阿里云开发者社区

开发者社区> 李牙刷儿> 正文

Neo4j数据库简介

简介: 作为世界先进的图数据库,Neo4j成为了时下许多互联网公司的首选。Neo4j是基于java开发的开源图数据库,也是一种NoSQL数据库。Neo4j在保证对数据关系的良好刻画的同时,还支持传统关系型数据的ACID特性,并且在存储效率,集群支持以及失效备援等等方面都有着不错的表现。近来因为实验室的项目的关系,对Neo4j有了一定的了解。同时,我也对其设计思想和架构都产生了很大的兴趣,所以写
+关注继续查看

作为世界先进的图数据库,Neo4j成为了时下许多互联网公司的首选。Neo4j是基于java开发的开源图数据库,也是一种NoSQL数据库。Neo4j在保证对数据关系的良好刻画的同时,还支持传统关系型数据的ACID特性,并且在存储效率,集群支持以及失效备援等等方面都有着不错的表现。近来因为实验室的项目的关系,对Neo4j有了一定的了解。同时,我也对其设计思想和架构都产生了很大的兴趣,所以写下这篇博客,帮助大家更好地了解这一数据库,也分享一下以及的认识。

设计理念

Neo4j的设计动机是为了更好地同时也更高效地描述实体之间的关系。在现实生活中,每一个实体都于周围的其他实体有着千丝万缕的关系,这些关系里面所存储的信息甚至要大于身体本身的属性。然后传统的关系型数据库更注重刻画实体内部的属性,实体与实体之间的关系通常都是利用外键来实现。所以在求解关系的时候通常需要join操作,而join操作通常又是耗时的。互联网尤其是移动互联网的爆发式增长本来就使得传统关系型数据库不堪重负,再加上诸如社交网络等应用对于关系的高需求,可以说关系型数据库已经是毫无优势。而图数据库作为重点描述数据之间关系的数据库应运而生,成为了NoSQL中非常重要的一部分。而Neo4j正是图数据库中最为优秀的之一

Neo4j数据库只有两种类型的数据:

  • 节点Node:节点类似于E-R图种的实体(entity),每个实体可以有0到多个属性,这些属性以key-value对的形式存在,并且对属性没有类别要求,也无需提前定义。另外,还允许给每个节点打上标签,以区别不同类型的节点。
  • 关系Relationship: 关系类似于E-R图种的关系(relationship),一个关系有一个起始节点和一个终止节点构成。另外和node一样,关系也可以有多个属性已经标签

其具体的结构如下图:Neo4j的数据结构而一个实际的图数据库例子就如下图所示的这样:

正是基于这样的设计理念,Neo4j有了以下这些特性:

  • 关系在创建的时候就已经实现了,因而在查询关系的时候是一个O(1)的操作
  • 所有的关系在Neo4j中都是同等重要的
  • 提供了图的深度优先搜索、广度优先搜索、最短路径、简单路径已经Dijkstra等等算法

Neo4j的存储结构

现在让我们来看看数据在Neo4j中是如何存储的,首先是节点Node的格式: Node:in_use(byte)+next_rel_id(int)+next_prop_id(int),每一位的具体意义如下:

  • in_use:1表示该节点被使用,0表示被删除
  • next_rel_id(int):该节点下一个关系id
  • next_prop_id(int):该节点下一个属性的id

Relation格式: in_use+first_node+second_node+rel_type+first_prev_rel_id+first_next_rel_id+second_prev_rel_id+second_next_rel_id+next_prop_id

  • in_use,next_prop_id:同上
  • first_node:当前关系的起始节点
  • second_node:当前关系的终止节点
  • rel_type:关系类型
  • first_prev_rel_id & first_next_rel_id:起始节点的前一个和后一个关系id
  • second_prev_rel_id & second_next_rel_id:终止节点的前一个和后一个关系id

相信看了存数结构之后,大家知道为什么Neo4j在查询节点关系的时候会如此之快了,因为每一个节点有哪些关系都是直接存在该节点的定义域内的,直接访问就行了,根本不需要再去查找另外一张表。

下面举一个图的遍历的例子:

  • 从节点1开始,宽度优先遍历,其存储结构为:01 00000002 ffffffff
  • 其下一个关系id是2,访问关系2:01 00000001 00000004  00000000   ffffffff 00000001   ffffffff ffffffff    ffffffff 得出node 1 -> node 4,同时下个关系是1
  • 关系1: 01 00000001 00000003  00000000   00000002 00000000   00000003 ffffffff    ffffffff node1 -> node 3,node3 有其他关系,所以将node3存入队列,同时访问关系0
  • 关系0:01 00000001 00000002  00000000   00000001 ffffffff   ffffffff ffffffff    ffffffff node1 -> node2,访问完成node1的所有关系,从队列中退出node3
  • 用于上文相同的方法访问node3
  • 最后结果如下:
(1)–[KNOWS,2]–>(4)
(1)–[KNOWS,1]–>(3)
(1)–[KNOWS,0]–>(2)
(1)–[KNOWS,1]–>(3)–[KNOWS,5]–>(7)
(1)–[KNOWS,1]–>(3)–[KNOWS,4]–>(6)
(1)–[KNOWS,1]–>(3)–[KNOWS,3]–>(5)

Neo4j与关系型数据库的区别

其实通过上述的讲解,相信大家都对neo4j与RDBMS(Relational Database Management System)的区别有了一定的认识,现在再用下面的表格来重新整理一下:

Neo4j RDBMS
允许对数据的简单且多样的管理 高度结构化的数据
数据添加和定义灵活,不受数据类型和数量的限制,无需提前定义 表格schema需预定义,修改和添加数据结构和类型复杂,对数据有严格的限制
常数时间的关系查询操作 关系查询操作耗时
提出全新的查询语言cypher,查询语句更加简单 查询语句更为复杂,尤其涉及到join或union操作时

最后再以下面两张图来展示一下两者在查询关系时的区别:RDBMSNeo4j

关于Neo4j具体的安装和使用,不是文章的重点,如果想要真正上手用Neo4j,可以到Neo4j官网上面有很多资料


版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
《移动数据挖掘》—— 1.4 本书简介
在这些挑战之下,本书将主要以人的轨迹数据,特别是移动社交网络的位置数据为中心,结合人的基本信息及社交网络等相关信息来研究个人与群体的移动模式特性,具体包括用户移动建模、基于移动数据的用户画像及个性化兴趣地点推荐等。
1631 0
Dataset之WebVision:WebVision数据集简介、下载、使用方法之详细攻略
Dataset之WebVision:WebVision数据集简介、下载、使用方法之详细攻略
15 0
mysql数据库锁简介
mysql数据库锁简介 乐观锁 乐观锁最常用的实现方式是用数据版本(Version)记录机制。数据版本即为数据增加一个版本标识,一般通过在数据库表中增加一个数字类型的 “version” 字段实现。
4265 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
4622 0
Dataset之Handwritten Digits:Handwritten Digits(手写数字图片识别)数据集简介、安装、使用方法之详细攻略
Dataset之Handwritten Digits:Handwritten Digits(手写数字图片识别)数据集简介、安装、使用方法之详细攻略
28 0
Neo4j数据库简介
作为世界先进的图数据库,Neo4j成为了时下许多互联网公司的首选。Neo4j是基于java开发的开源图数据库,也是一种NoSQL数据库。Neo4j在保证对数据关系的良好刻画的同时,还支持传统关系型数据的ACID特性,并且在存储效率,集群支持以及失效备援等等方面都有着不错的表现。近来因为实验室的项目的关系,对Neo4j有了一定的了解。同时,我也对其设计思想和架构都产生了很大的兴趣,所以写
1938 0
大数据简介
第三次信息浪潮: 大数据 、 云计算 、 物联网 大数据 、 云计算 、 物联网区别和联系: 云计算 通过网络提供廉价的计算能力叫云计算。 saas 软件既是服务 software as a service paas 平台既是服务 platform as a service lass 基础设施即时服务 infrastructure as a service 虚拟化,分布式存储,分布式计算,多租户 物联网 把人,物,物与物互相关联叫物联网。
855 0
Dataset之HiggsBoson:Higgs Boson(Kaggle竞赛)数据集的简介、下载、案例应用之详细攻略
Dataset之HiggsBoson:Higgs Boson(Kaggle竞赛)数据集的简介、下载、案例应用之详细攻略
18 0
Neo4j导入数据的几种方法
create语句 CREATE (a:Person {name: '张三', sex: '男'}) 如利用create批量写入,这里我使用的是scala+spark,代码如下: object Neo4jConnect { def main(args: Array[String]).
2764 0
+关注
李牙刷儿
Android开发者&前端菜鸟,专注于跨平台、热修复领域
87
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载