上篇文章我们说了,表空间的区概念,我们都知道mysql的数据是存放在页里,一个页有16kb,而表空间能存放64TB的数据,为了提高查询效率,表空间里又吧页分为多个区,64个页也就是大概1M为一个区,而256个区为一组,每组的前几个页都是存储固定的结构数据。
段(segment)的概念
为啥会突然出现区(extent)的概念呢?我们以前说的查询数据不都是直接查询b+树,b+树的节点就是数据页存放的数据,通过聚簇索引和二级索引查询。
是的,如果表里数据很少,可以直接这样查询,但如果表里数据越来越多呢?
我们以前查询的话也是通过fil_page_prev和fil_page_next连接成的页的双向链表,来查询我们需要的数据。
是的,理论上不引入区对数据查询影响不大,但我们不妨设想以下场景:当我们表里存放的数据越来越多,因为页是通过双向链表连接起来的,物理位子存储的距离可能会很远,这时候如果沿着双向链表扫描,就是所谓的 随机I/O。再次强调,磁盘的速度和内存的速度差好几个量级,所以这种情况就会导致查询非常慢。
所以,引入了区(extent)的概念。所以当表里存储的数据非常多的时候,并不是按照页为单位来分配数据的,而是按照区的单位来分配的,甚至当表里的数据非常多时,会吧数据分配在多个连续的区里,这样查询的时候会避免 随机I/O带来的性能损耗,虽然这样会浪费存储内存(区的内存可能会因为数据不够而没存储满,但比随机I/O查询性能更高)。
那么段又是什么呢?由上面的基础延伸,我们查询数据的时候,其实就是对b+树节点进行扫描,那如果吧叶子节点和非叶子节点都放在一起进行扫描,是不是就太多了。所以mysql设计者吧叶子节点和非叶子节点的区放在不同的内存,区别对待,而他们自己独有的区就称为段(segment),叶子节点有自己独有的段,非叶子节点也有自己独有的段。也就是说,不论是聚簇索引还是二级索引,一个索引都会生成两个段,一个是叶子节点段,一个是非叶子节点段。
问:
默认情况下,我们一个聚簇索引会生成段,一个叶子节点段,一个非叶子节点段而段是以区为单位进行存储的,一个区为1M,意味着存少量的数据会用2M内存吗?以后每次添加一条索引都要申请2M的内存?这简直就是天大的浪费。
这是因为我们现在介绍的区都是非常纯粹的,他都是完整的属于一个段,如果区的页内存没有用完,他的剩余页的内存也不可以存储其他段的数据。那么考虑到较小数据量存到区内页这种情况。Mysql设计者们提出了碎片区(fragment)区的概念。也就是在fragment中,不是所有的页都是为了存储同一个段的数据的,比如存了叶子节点段的数据,也可以存非叶子节点段的数据,不属于任何一个段,是只属于表空间结构管理的,他的策略是这样:
刚开始向表中插入数据,段是从某个碎片区以页面为单位来分配存储空间的。
当某个段已经占用了32个碎片区页面后,就会升级为完整的区来分配存储空间。
所以,由上可以知道,段是零散页面碎片区的集合以及完整区的集合,innoDB为了存储一些特殊的数据,除了叶子节点段和非叶子节点段外,还有许多额外的段,比如回滚段,这些后面会一一介绍。