如何在数据库中存储一棵树

简介:

树形结构的数据在项目开发中比较常见,比如比较典型的是论坛主题留言。

每一个主题(节点)可以有n个留言(子节点)。这些留言又可以有自己的留言。因此这种结构就是一颗树。本文讨论的是数据库中如何存储这种树形结构。

假设有如下一棵树:

无标题

方法一

注意:本例中的数据库是SQLite,因此SQL语句只对SQLite有效,其他数据库可以参考该写法。

要存储于数据库中,最简单直接的方法,就是存储每个元素的父节点ID。

暂且把这种方法命名依赖父节点法,因此表结构设计如下:

598F8C3BAEC249C7B7C21FCAE42C097F

存储的数据如下格式:

D91E5117473F4F75B42E8542953BE78C

这种结构下,如果查询某一个节点的直接子节点,十分容易,比如要查询D节点的子节点。

1
select  from  tree1  where  parentid=4

如果要插入某个节点,比如在D节点下,再次插入一个M节点。

只需要如下SQL:

1
INSERT  INTO  tree1 (value,parentid)  VALUES ( 'M' ,4);

这种结构在查找某个节点的所有子节点,就稍显复杂,无论是SELECT还是DELETE都可能涉及到获取所有子节点的问题。比如要删除一个节点并且该节点的子节点也要全部删除,那么首先要获得所有子节点的ID,因为子节点并不只是直接子节点,还可能包含子节点的子节点。比如删除D节点及其子节点,必须先查出D节点下的所有子节点,然后再做删除,SQL如下:

1
2
3
4
select  nodeid  from  tree1  where  parentid=4  --返回8,9
select  nodeid  from  tree1  where  parentid  in  (8,9)  --返回10,11,12
select  nodeid  from  tree1  where  parentid  in  (10,11,12)  --返回空
delete  from  tree1  where  nodeid  in  (4,8,9,10,11,12)

如果是只删除D节点,对于其它节点不做删除而是做提升,那么必须先修改子节点的parentid,然后才能删除D节点。

正如上面演示的,对于这种依赖父节点法,最大的缺点就是无法直接获得某个节点的所有子节点。因此如果要select所有的子节点,需要繁琐的步骤,这不利于做聚合操作。

对于某些数据库产品,支持递归查询语句的,比如微软的SQL Server,可以使用CTE技术实现递归查询。比如,要查询D节点的所有子节点。只需要如下语句:

1
2
3
4
5
6
WITH  tmp  AS (
SELECT  FROM  Tree1  WHERE  nodeid = 4
UNION  ALL
SELECT  a.*  FROM  Tree1  AS  a,tmp  AS  WHERE  a.parentid = b. nodeid
)
SELECT  FROM  tmp

但是对于那些不支持递归查询的数据库来说,实现起来就比较复杂了。


方法二

还有一种比较土的方法,就是存储路径。暂且命名为路径枚举法。

这种方法,将存储根结点到每个节点的路径。

55778B9842DC47279FFCFF48B54ABDA1

这种数据结构,可以一眼就看出子节点的深度。

如果要查询某个节点下的子节点,只需要根据path的路径去匹配,比如要查询D节点下的所有子节点。

1
select  from  tree2  where  path  like  '%/4/%'

或者出于效率考虑,直接写成

1
select  from  tree2  where  path  like  '1/4/%'

214EF7DB11684064ABB9C4FCBDDD5CD4

如果要做聚合操作,也很容易,比如查询D节点下一共有多少个节点。

select count(*) from tree2 where path like '1/4/%';

要插入一个节点,则稍微麻烦点。要插入自己,然后查出父节点的Path,并且把自己生成的ID更新到path中去。比如,要在L节点后面插入M节点。

首先插入自己M,然后得到一个nodeid比如nodeid=13,然后M要插入到L后面,因此,查出L的path为1/4/8/12/,因此update M的path为1/4/8/12/13

1
2
3
4
5
update  tree2  set
path=( select  path  from  tree2  where  nodeid=12)  --此处开始拼接
||last_insert_rowid()|| '/'
where
nodeid= last_insert_rowid();

这种方法有一个明显的缺点就是path字段的长度是有限的,这意味着,不能无限制的增加节点深度。因此这种方法适用于存储小型的树结构。

方法三

下面介绍一种方法,称之为闭包表。

该方法记录了树中所有节点的关系,不仅仅只是直接父子关系,它需要使用2张表,除了节点表本身之外,还需要使用1张表来存储节祖先点和后代节点之间的关系(同时增加一行节点指向自身),并且根据需要,可以增加一个字段,表示深度。因此这种方法数据量很多。设计的表结构如下:

Tree3表:

E1D5EEEE05EF4188ADE17192C9B95ECC

NodeRelation表:

C3E90EA4EEBE490D87035F98DFC39EA2

如例子中的树,插入的数据如下:

Tree3表的数据

20ADFF42DB6E45CC9CA0C287DA49C5B5

NodeRelation表的数据

9F3B8EC76E0B4D67830FF29B6F6EEC4E

可以看到,NodeRelation表的数据量很多。但是查询非常方便。比如,要查询D节点的子元素

只需要

1
select  from  NodeRelation  where  ancestor=4;

要查询节点D的直接子节点,则加上depth=1

1
select  from  NodeRelation  where  ancestor=4  and  depth=1;

要查询节点J的所有父节点,SQL:

1
select  from  NodeRelation  where  descendant=10;

如果是插入一个新的节点,比如在L节点后添加子节点M,则插入的节点除了M自身外,还有对应的节点关系。即还有哪些节点和新插入的M节点有后代关系。这个其实很简单,只要和L节点有后代关系的,和M节点必定会有后代关系,并且和L节点深度为X的和M节点的深度必定为X+1。因此,在插入M节点后,找出L节点为后代的那些节点作为和M节点之间有后代关系,插入到数据表。

1
2
3
4
5
6
7
INSERT  INTO  tree3 (value)  VALUES ( 'M' ); --插入节点
INSERT  INTO   NodeRelation(ancestor,descendant,depth)
select  n.ancestor,last_insert_rowid(),n.depth+1 --此处深度+1作为和M节点的深度
from  NodeRelation n
where  n.descendant=12
Union  ALL
select   last_insert_rowid() ,last_insert_rowid(),0  --加上自身

在某些并不需要使用深度的情况下,甚至可以不需要depth字段。

如果要删除某个节点也很容易,比如,要删除节点D,这种情况下,除了删除tree3表中的D节点外,还需要删除NodeRelation表中的关系。

首先以D节点为后代的关系要删除,同时以D节点的后代为后代的这些关系也要删除:

1
2
delete  from  NodeRelation  where  descendant  in
( select  descendant  from  NodeRelation  where  ancestor=4 ); --查询以D节点为祖先的那些节点,即D节点的后代。

这种删除方法,虽然彻底,但是它也删除了D节点和它原本的子节点的关系。

如果只是想割裂D节点和A节点的关系,而对于它原有的子节点的关系予以保留,则需要加入限定条件。

限制要删除的关系的祖先不以D为祖先,即如果这个关系以D为祖先的,则不用删除。因此把上面的SQL加上条件。

1
2
3
delete  from  NodeRelation  where  descendant  in
( select  descendant  from  NodeRelation  where  ancestor=4 ); --查询以D节点为祖先的那些节点,即D节点的后代。
and  ancestor  not  in  ( select  descendant  from  NodeRelation   where  ancestor =4 )

上面的SQL用文字描述就是,查询出D节点的后代,如果一个关系的祖先不属于D节点的后代,并且这个关系的后代属于D节点的后代,就删除它。

这样的删除,保留了D节点自身子节点的关系,如上面的例子,实际上删除的节点关系为:

569AD87B6E7B4F428D3521B550F9D0FF

如果要删除节点H,则为

8579EB3DB87C4175B5DAAEAA9E182395

总结:

上面主要讲了3种方式,各有优点缺点。可以根据实际需要,选择合适的数据模型。


---------------------------------

参考资料 《SQL Antipatterns》

















本文转自cnn23711151CTO博客,原文链接:http://blog.51cto.com/cnn237111/1226911 ,如需转载请自行联系原作者




相关文章
|
1月前
|
存储 关系型数据库 MySQL
MySQL——数据库备份上传到阿里云OSS存储
MySQL——数据库备份上传到阿里云OSS存储
71 0
|
8天前
|
存储 NoSQL 关系型数据库
可以存储文件的数据库有哪些?
可以存储文件的数据库有哪些?
16 6
|
24天前
|
存储 缓存 负载均衡
带你认识DM 共享存储数据库集群
带你认识DM 共享存储数据库集群
34 3
|
4天前
|
存储 NoSQL 关系型数据库
可以存储文件的数据库有哪些?
可以存储文件的数据库有哪些?
27 0
|
16天前
|
存储 C# 关系型数据库
“云端融合:WPF应用无缝对接Azure与AWS——从Blob存储到RDS数据库,全面解析跨平台云服务集成的最佳实践”
【8月更文挑战第31天】本文探讨了如何将Windows Presentation Foundation(WPF)应用与Microsoft Azure和Amazon Web Services(AWS)两大主流云平台无缝集成。通过具体示例代码展示了如何利用Azure Blob Storage存储非结构化数据、Azure Cosmos DB进行分布式数据库操作;同时介绍了如何借助Amazon S3实现大规模数据存储及通过Amazon RDS简化数据库管理。这不仅提升了WPF应用的可扩展性和可用性,还降低了基础设施成本。
35 0
|
1月前
|
存储 数据库
如何在数据库中存储小数:FLOAT、DECIMAL还是BIGINT?
【8月更文挑战第7天】在数据库中存储小数时,需谨慎选择数据类型:FLOAT、DECIMAL 或 BIGINT。FLOAT 存储空间小,适于非关键性小数如温度;但精度有限,可能产生误差。DECIMAL 能精确表示小数,适合货币金额等需要高度准确性的场景,不过占用空间较大。BIGINT 用于整数,若存储小数需额外转换处理。根据精度需求及应用场景选择合适类型至关重要。
|
1月前
|
存储 SQL 运维
“震撼发布!PolarDB-X:云原生分布式数据库巨擘,超高并发、海量存储、复杂查询,一网打尽!错过等哭!”
【8月更文挑战第7天】PolarDB-X 是面向超高并发、海量存储和复杂查询场景设计的云原生分布式数据库系统
85 1
|
1月前
|
存储 小程序 关系型数据库
原生小程序 获取手机号并进行存储到mysql数据库
原生小程序 获取手机号并进行存储到mysql数据库
|
2月前
|
存储 关系型数据库 分布式数据库
PolarDB,阿里云的云原生分布式数据库,以其存储计算分离架构为核心,解决传统数据库的扩展性问题
【7月更文挑战第3天】PolarDB,阿里云的云原生分布式数据库,以其存储计算分离架构为核心,解决传统数据库的扩展性问题。此架构让存储层专注数据可靠性,计算层专注处理SQL,提升性能并降低运维复杂度。通过RDMA加速通信,多副本确保高可用性。资源可独立扩展,便于成本控制。动态添加计算节点以应对流量高峰,展示了其灵活性。PolarDB的开源促进了数据库技术的持续创新和发展。
262 2
|
3月前
|
关系型数据库 MySQL 分布式数据库
PolarDB产品使用问题之 MySQL数据库中,执行delete命令删除数据后,存储空间通常不会立即释放,该如何优化
PolarDB产品使用合集涵盖了从创建与管理、数据管理、性能优化与诊断、安全与合规到生态与集成、运维与支持等全方位的功能和服务,旨在帮助企业轻松构建高可用、高性能且易于管理的数据库环境,满足不同业务场景的需求。用户可以通过阿里云控制台、API、SDK等方式便捷地使用这些功能,实现数据库的高效运维与持续优化。

热门文章

最新文章