二叉树的搜索效率最高,但是大多数的数据库存储不适用二叉树,因为索引不止在内存里,还在磁盘上。一棵100万节点的平衡二叉树,树高20,依次查询可能访问20个数据块,从磁盘随机读一个数据块需要10ms左右的寻址时间,那么单独访问一行需要200ms时间,效率很低。为了让一个查询尽可能少得读磁盘,就必须让查询过程访问尽量少的数据块,所以应该使用N叉树,N取决于数据块的大小。
InnoDB的索引模型
InnoDB里使用了B+树索引模型,所有的数据都是存储在B+树里的,每一个索引在InnoDB里对应一棵B+树。
假设有一个主键列为ID的表,表中有字段k,并且k上有索引。表中R1~R5的(ID,k)值分别为(100,1)、(200,2)、(300,3)、(500,5)和(600,6),两棵树的示例示意图如下
根据叶子节点的内容,索引类型分为主键索引和非主键索引。主键索引的叶子节点存的是整行数据,在InnoDB里,主键索引也被成为聚簇索引。非主键索引的叶子节点内容是主键的值,在InnoDB里,非主键索引也被成为二级索引。
根据上面的接口,思考一个问题:基于主键索引和普通索引的查询有什么区别?
- 主键查询方式,只需要搜索ID这棵B+树
- 普通索引查询方式,需要先搜索k索引树,得到ID的值后,再到ID索引树搜索一次,这个过程称为回表。
基于非主键索引的查询需要多扫描一棵索引树,因此应该尽量使用主键查询。
索引维护
B+树为了维护索引有序性,在插入新值的时候需要做必要的维护。如果插入新的行ID值为700,则只需要在R5的记录后面插入一个新记录。如果新插入得ID值为400,就需要逻辑上挪动后面的数据,空出位置。
更糟的情况是,如果R5所在的数据页已经满了,根据B+树的算法,需要申请一个新的数据页,然后挪动部分数据过程,这个过程称为页分裂。在这种情况下,性能会受影响。而且页分裂操作还会影响数据页的利用率,原本放在一个页的数据,现在放到两个页中,整体空间利用率降低大约50%。
有分裂就有合并,当相邻两个页由于删除了数据,利用率很低后,会做数据页合并。
基于上面索引维护的过程,来讨论一个案例。
哪些场景建表额时候应该使用自增主键,哪些场景不应该
1. 性能角度:
自增主键的插入模式中,插入新记录的时候可以不指定ID的值,系统会获得当前ID最大值+1作为下一条记录的ID值。这个模式正符合了之前提到的递增插入的场景,每插入一条新记录都是追加操作,都不涉及挪动其他记录,也不会触发叶子节点的分裂。
用有业务逻辑的字段做主键,往往不容易保证有序插入,写数据成本较高。
2.存储空间角度:
假设表里确实有一个唯一字段,比如字符串类型的身份证号,应该用身份证号做主键还是自增字段做主键呢?
由于每个非主键索引的叶子节点上都是主键的值,如果用身份证号做主键,每个二级索引的叶子节点占用约20个字节。如果用整型做主键,只需要4个字节。显然主键的长度越小,普通索引的叶子节点就越小,普通索引占用的空间也越小。
综合性能和存储空间角度,自增主键往往是更合理的选择。
如果有些业务的场景需求如下:
- 只有一个索引
- 该索引必须为唯一索引
也就是典型的KV场景,由于没有其他索引,所以也不用考虑其他索引的叶子节点大小的问题,这个时候就要优先考虑“尽量使用主键查询”原则,直接将这个索引设置为主键,避免查询的时候需要搜索两棵树。