上篇文章我们总结了mysql字符集:
我们现在已经知道了,mysql客户端到服务器字符集是如何编码解码的,但表中数据到底存在哪里?以什么格式存放?mysql以什么方式访问这些数据?这些我们都会在下面一一解答。
我们之前说到过mysql-service和存储引擎,mysql-service包含tcp/ip连接、查询缓存,解码sql语句,优化sql语句。Mysql服务器支持不同的存储引擎,如InnoDB、MyISAM、Memory等,不同的存储引擎拥有不同的性能,存放的格式也是不同的,甚至memory都不是吧数据存在磁盘中,也就是服务器关闭,数据就会消息。而InnoDB和myISAM是我们常用的两个存储引擎,所以就先重点介绍支持事务的InnoDB。
InnoDB存储引擎
InnoDB是一个吧数据写入磁盘中的存储引擎,所以服务器宕机或者重启,数据都不会消失。而真正处理数据是在内存中,所以我们需要把磁盘上的数据写入内存,当在内存中处理新增或者修改数据时候,又会把内存中的数据刷新到磁盘上。我们知道处理内存和处理磁盘上的数据,运行和反映速度不在一个量级,所以在select数据的时候,难道从磁盘中一行一行查吗?当然不是,InnoDB解决的办法是,将数据分为若干页,每一页大小大概16kb。也就是一般情况下,最少从磁盘读取16kb到内存中,一次也是最少吧16kb的数据刷新到磁盘上。
先来创建一个compact_tb表,指定字符集为ascii,指定行格式为compact。还可以用另一个语句指定行格式,如下。
//创建的时候指定行格式 create TABLE compact_tb( c1 VARCHAR(10), c2 VARCHAR(10) NOT NULL, c3 CHAR(10), c4 VARCHAR(10) ) CHARSET=ascii ROW_FORMAT=COMPACT; //另一个方法指定行格式 ALTER TABLE COMPACT_TB ROW_FORMAT=COMPACT;
因为ascii字符集不包含汉字,只有空格,大小写字母,数字,标点符号等不可见字符,所以我们insert进表的时候不要存汉字,insert语句如下,查询之后就是这样:
INSERT INTO compact_tb(c1, c2, c3, c4) VALUES('aaaa', 'bbb', 'cc', 'd'), ('eeee', 'fff', NULL, NULL); //查询 select * from compact_tb; +------+-----+------+------+ | c1 | c2 | c3 | c4 | +------+-----+------+------+ | aaaa | bbb | cc | d | | eeee | fff | NULL | NULL | +------+-----+------+------+ 2 rows in set (0.00 sec)
compact行格式:
一条完整的信息记录分为:“记录的额外信息”和“记录的真是数据”两大部分
一、记录的额外信息
真是数据顾名思义就是存储我们需要的数据信息,而额外信心存储的是不得不存储的描述这些数据的信息,分别有三个部分,“变长字段长度列表”、“null值列表”和“记录头信息”。
VARCHAR(M),VARBINARY(M)、text类型,各种BLOB类型都属于边长字段,这些存储多少数据都是不固定的,mysql为了方便存储,吧这些数据分为两个部分,一是真正的数据内容,二时这些内容占用的字节数。
在compact中,吧所有变长字段真实数据字节长度都存在记录开头部分,从而形成变长字段长度列表,各变长字段的长度按逆袭存放,按逆袭存放,按逆袭存放。(重要的事要说三遍)
我们拿插入的第一列为例,
C1字段的‘aaaa‘十进制表示4,十六进制表示0x04
C2字段的‘bbb’十进制表示3,十六进制表示0x03
C4字段的‘d’ 十进制表示1,十六进制表示0x01
因为c3是char类型,不是变长字段。
所以这些数据存入变长字段长度列表为:010304
上诉情况都是因为存储的字段小,都是用一个字节,那么innoDB表如果存储两个字节呢?innoDB有他字节的规则,我们创建字段的时候会有varchar(M),假设字符集中站用一个字符的字节数为W,utf8的占用字节数W为3,gbk一个字符占用字节数为2,ascii占用一个字符的字节数为1。规则如下:
当M*W<=255时候,存储的都是一个字节数。
当M*W>255时候:
如果存储的真实字节长度<127,则用一个字节存储。
如果存储的真实字节长度>127,则用两个字节存储。
另外需要注意的是,变长字段长度只存储非NULL的数据,若为null则不存储了,下篇文章介绍innoDB表的null值如何存储。另外,不是所有数据都有变长字段长度部分的存储,比方说表里都没有变长字段长度部分,就不需要这个存储区间。