1. InnoDB是干嘛的?
InnoDB
是一个将表中的数据存储到磁盘上的存储引擎。
2. InnoDB是如何读写数据的?
InnoDB
处理数据的过程是发生在内存中的,需要把磁盘中的数据加载到内存中,如果是处理写入或修改请求的话,还需要把内存中的内容刷新到磁盘上。
读写磁盘的速度非常慢,和内存读写差了几个数量级,所以当我们想从表中获取某些记录时,InnoDB
存储引擎将数据划分为若干个页,以「页作为磁盘和内存之间交互的基本单位」,InnoDB
中页的大小默认为 16 KB
。也就是在一般情况下,一次最少从磁盘中读取16KB
的内容到内存中,或者一次最少把内存中的16KB
内容刷新到磁盘中。
所以当你用postman
测试一个分页查询接口时,发现第一次打印耗时300 ~ 400ms
,往后不停的查找下一页都是30 ~ 40ms
,原因就是第一次请求接口时,读数据库的时候需要读磁盘,从磁盘加载16KB
的数据到内存,往后下一页的数据都是从内存中获取,没有再读磁盘,除非在内存中的16KB
的数据中找不到,才会再次读磁盘获取下一个16KB
的数据到内存中。(我们不讨论mysql 8.0
舍弃的查询缓存特性,我测试过mysql 5.7
中关闭了查询缓存,也仍然是第一次慢,后续查询很快,查询时间相差大概10
倍的样子)
❝
温馨提示:分页查询和数据库的一页16KB
中的"页"是两个概念。
❞
注意:innodb_page_size
变量在服务器运行过程中不可以更改,只能在第一次初始化MySQL
数据目录时指定。所以页在运行时的大小不可更改。
3. varchar疑问千千万——InnoDB行格式
❝
看到这里,你一定有着和我相同的疑问,比如varchar(255)
后面这个最大长度应该怎么选择呢?为什么不能varchar(65535)
而最大只能varchar(16383)
呢?我来带你看!
❞
我们平时是以「记录」为单位来向表中插入数据的,这些「记录在磁盘上的存放方式」也被称为行格式或者记录格式。行格式有4种,分别是Dynamic
、Compact
、Redundant
和Compressed
MySQL 5+
默认行格式都是Dynamic
, 在MySQL 5
和 MySQL 8
经过验证确实是的。
SHOW VARIABLES LIKE "innodb_default_row_format"
大家在业务中和平时使用中都几乎没有修改过或者注意过InnoDB
行格式,那么「我就只重点讲默认行格式dynamic
」,让大家更深层次理解平时开发中的varchar
。
请记住这个表结构,后面会围绕这个来讲
CREATE TABLE test ( c1 VARCHAR(10), c2 VARCHAR(10) NOT NULL, c3 CHAR(10), c4 VARCHAR(10)) CHARSET = utf8mb4;
现在业务数据库字符集都是utf8mb4
,我就以这个来讲,把理解难度降到最低。
INSERT INTO test ( c1, c2, c3, c4 ) VALUES('aaaa', '你好啊', 'cc', 'd'),('eeee', 'fff', NULL, NULL);
现在,表中的记录就是这样
3.1 dynamic——innodb默认行格式
关于记录的额外信息这部分,是服务器为了描述这条记录而不得不额外添加的一些信息,这些额外信息分为3
类,分别是「变长字段长度列表」、「NULL
值列表」和「记录头信息」。
在这里我只讲「变长字段长度列表」、「NULL
值列表」。因为记录头信息非常的绕和本篇没多大关系。
3.2 innodb怎么知道varchar真正有多长?——变长字段长度列表
一些变长的数据类型,比如VARCHAR(M)
、各种TEXT
类型,各种BLOB
类型,变长数据类型的字段中存储多少字节的数据是不固定的,在存储真实数据的时候需要把「这些数据占用的字节数也存起来」。
就像设计String
类型,不仅仅是存放真实数据的char
数组,还有length
变量去记录字符串长度。又比如input
输入框最大限制500
字,但是你还得有一个变量去统计真实在输入框内有多少字符。同理,varchar
也有记录真实数据长度的变量(「假设为L
,后文沿用方便描述」),L
表示varchar
真实占用的「字节数」,innodb
最多分配2
个字节去表示这个L
,就像unsigned short
类型,2
个字节,寄存器最多只有16
位来让你存这个长度,所以L
记录范围是2^16 - 1 = 65535
。
❝
这些变长字段(「比如varchar
」)占用的存储空间分为两部分:
- 真正的数据内容部分,放在对应的列
- 真实占用的字节数,放在变长字段列表部分
❞
我们拿test
表中的第一条记录来举个例子。因为test
表的c1
、c2
、c4
列都是VARCHAR(10)
类型的,说明最大10
个字符,所以这三个列的值的长度都需要保存在记录开头处,「因为test
表中的各个列都使用的是utf8mb4
字符集,每个字符最大需要4
个字节来进行编码(不使用utf8
而是utf8mb4
是因为可能存储emoji
表情,如果只是文字,utf8
就足够)」,来看一下第一条记录各变长字段内容的长度:
怎么确定这些字段有多少字节?
比如这里c2
的"你好啊",使用如下sql
可以确定
SELECT LENGTH(c2) from test where c1='aaaa';
各变长字段数据占用的「字节数」按照列的顺序「逆序存放」!!
由于第一行记录中c1、c2、c4列中的字符串都比较短,也就是说varchar真实占用的字节数比较小,L用1个字节(8个bit位) 就可以表示,但是如果varchar真实占用的字节数比较多,L可能就需要用2个字节(16个bit位) 来表示。到底varchar能存多少字节呢?继续往下看。