一、基本概念
树是一种非线性结构,其严格的数学定义是:如果一组数据中除了第一个节点(第一个节点称为根节点,没有直接前驱节点)之外,其余任意节点有且仅有一个直接前驱,有零个或多个直接后继,这样的一组数据形成一棵树。这种特性简称为一对多的逻辑关系。
二、常见例子
日常生活中,很多数据的组织形式本质上是一棵树。比如一个公司中的职员层级关系,一个学校中的院系层级关系,淘汰赛中的各次比赛队伍,一个家族中的族谱成员关系等,这些都是树状逻辑结构。由于树状结构表现出来都是具有层次的,因此也被称为层次结构。
通常,在逻辑上表达一棵抽象的树状结构的时候,习惯于将树根放在顶部,树枝树杈向下生长,如下图所示。
三、基本术语
对于一棵树来说,有如下基本术语:
1、根(root)
树的第一个节点,没有直接前驱。如上图中的A。
2、双亲节点(parent)
某节点的直接前驱称为该节点的双亲节点,或成为父节点。例如上图中A是B的父节点。根节点无父节点
3、孩子节点(child)
某节点的直接后继称为该节点的孩子节点。例如上图中B、C、D均为A的孩子节点。
4、节点的层次(level)
根节点所在的层次规定为第1层,其孩子所在的层次为第2层,后代节点以此类推。比如上图中节点E的层次是3。
树的层次/深度: 4
5、节点的度(degree)
一个节点拥有的孩子节点的总数,称为该节点的度。比如上图中节点B的度为2。
6、叶子(leaf)
一棵树中度等于0的节点,被称为叶子,又称为终端节点。比如上图中K、L、F、G、M、I、J均为叶子。----没有孩子节点的节点称为叶子节点
7、树的高度(height)/深度
一棵树中所有节点的层次的最大值,称为这棵树的高度,又称为树的深度。比如上图的树的高度为4。----从根节点到叶子节点的最长路径
8、有序树与无序树—人为定义的概念
一棵树中,如果某个节点的孩子节点之间是有次序的,则称这棵树为有序树,反之称为无序树。
四、二叉树
在各种不同的树状结构中,最常见也最重要的是二叉树(Binary Tree),下面是二叉树的定义:
- 有序树
- 任意节点的度小于等于2
比如如下这棵树就是一棵二叉树。其中8是根节点,14是10的右孩子(因为二叉树是有序树,因此严格区分左右),而13则是14的左孩子。
为了方便对二叉树进行操作,通常会对一棵它进行标号:从上到下,从左到右进行标号:
注意:
没有孩子节点的地方也要标出来
对于二叉树而言,有如下特性:
- 第i层上,最多有2^i−1个节点。
- 高度为k的二叉树,最多有(2^k ) −1个节点。
- 假设叶子数目为n0,度为2的节点数目为n2,则有:n0=n2+1
另外,还需掌握如下重要的基本概念:
- 满二叉树/完美二叉树:(full/perfect binary tree)
树的高度为k,且树的节点总数达到(2^k)−1的二叉树。
①没有一个节点的度为1都是0或是2
②节点个数达到(2^k)−1 [K:二叉树层数]
- 完全二叉树:(complete binary tree)各节点的标号连续。
- 平衡二叉树:(balance binary tree)任意节点的两棵子树高度差小于等于1。
- 平衡二叉树也被成为AVL树----AVL算法属于选修内容,解决BST树的退化问题
- 退化二叉树:(degenerate binary tree)所有的节点的度小于等于1,此时的二叉树实际上已经退化成链表。
- 最优二叉树-哈夫曼树带权路径最短的二叉树
五、存储形式
与其他逻辑结构类似,可以使用顺序存储,也可以使用链式存储。
1、顺序存储
由于在顺序存储,数据元素之间的逻辑关系是用物理位置来表达的,而二叉树中每一个节点都有一个对应的标号,因此可以使用标号来作为数组的下标,但除非是完美或者完全二叉树,否则会浪费存储空间,如下图所所示。
二叉树的顺序储存规则:
①按二叉树标号对应数组的下标储存
②如果空出的标号在对应数组下标成员 补0
在顺序存储中,节点彼此之间的关系,要用到二叉树标号的基本特性。简单观察二叉树的标号会发现如下规律:
- 根节点标号为1,根节点没有父节点
- 标号为n的节点,其父节点的标号为n/2
- 标号为n的节点,其左孩子(若有)的标号为2n,其右孩子(若有)的标号为 2n+1
根据以上结论,在顺序存储的二叉树中,虽然没有任何信息连接节点e和f,但根据他们的下标序号,可以得知e是f的父节点,且f是e的左孩子。
2、链式存储
链式存储思路与链表类似,使用指针来直接将节点的逻辑关系串起来,比如:
对于链式存储而言,二叉树节点的设计与链表无异,如下:
typedef struct node { datatype data; // 用户数据 struct node *lchild; // 左子树指针 struct node *rchild; // 右子树指针 }node;
六、 树的遍历
所谓遍历,就是按某种规律访问每一个节点。对于之前的线性表而言,遍历算法很简单,就是从头跑到尾,因为线性表是一对一的关系。但是树状结构是非线性的,因此从根节点开始遍历所有节点可以有多种不同的算法,常见的有:
- 前序遍历:根节点 - 左子树 - 右子树
- 中序遍历:左子树 - 根节点 - 右子树
- 后序遍历:左子树 - 右子树 - 根节点
- 按层遍历:从上到下,从左到右依次访问节点
其中需要注意的是,前中后序遍历,都是递归算法。以前序遍历为例,当访问完根节点,进而要访问左子树时,由于左子树本身一棵二叉树,因此也需要进行前序遍历,也是先访问左子树的根节点,然后再依次访问左子树的左子树和左子树的右子树。比如:
前序遍历的序列是:F - [BADCE] - [GIH]
其中,F是根节点,而BADCE是左子树,GIH是右子树。
对左子树的访问,也符合前序遍历的定义,即:B - [A] - [DCE]
以此类推,对上述二叉树而言:
中序遍历的序列是:[ABCDE] - F - [GHI]
后序遍历的序列是:[ACEDB] - [HIG] - F
至于按层遍历,就按照字面意思理解即可,序列是:FBGADICEH