一.Mysql 索引与算法
1.什么是聚集索引?
InnoDB
存储引擎表是索引组织表,即表中数据按照主键顺序存放。而聚集索引(clustered index)
就是按照每张表的主键构造一棵 B+树,同时叶子节点中存放的即为整张表的行记录数据,也将聚集索引的叶子节点称为数据页。每个数据页之间都通过一个双向链表来进行链接。由于实际的数据页只能按照一棵 B+树进行排序,因此每张表只能拥有一个聚集索引。在多数情况下,查询优化器倾向于采用聚集索引。因为聚集索引能够在 B+树索引的叶子节点上直接找到数据。此外,由于定义了数据的逻辑顺序,它对于主键的排序查找和范围查找速度非常快。叶子节点的数据就是用户所要查询的数据如:用户需要查询一张用户注册表,查询最后注册的 10 位用户,由于 B+树索引是双向链表的,用户可以快速找到最后一个数据页,并取出 10 条记录
SELECT*FROMProfileORDERBY id LIMIT10;
虽然使用 ORDER BY 对主键 id 记录进行排序,但是在实际过程中并没有进行所谓的 file sort 操作,而这就是因为聚集索引的特点。另一个是范围查询(range query),即如果要查找主键某一范围内的数据,通过叶子节点的上层中间节点就可以得到页的范围,之后直接读取数据页即可。如:
SELECT*FROMProfilewhere id>1and id<100;
聚簇索引与非聚簇索引的区别:
聚簇索引并不是一种单独的索引类型,而是一种数据存储方式。它表示索引结构和数据一起存放的索引。非聚集索引是索引结构和数据分开存放的索引。
在MySQL
的InnoDB
存储引擎中, 聚簇索引与非聚簇索引最大的区别,在于叶节点是否存放一整行记录。聚簇索引叶子节点存储了一整行记录,而非聚簇索引叶子节点存储的是主键信息,因此,一般非聚簇索引还需要回表查询。
- 一个表中只能拥有一个聚集索引(因为一般聚簇索引就是主键索引),而非聚集索引一个表则可以存在多个。
- 一般来说,相对于非聚簇索引,聚簇索引查询效率更高,因为不用回表。
2.什么是辅助索引?
对于辅助索引(Secondary Index,也称非聚集索引),叶子节点并不包含行记录的全部数据。叶子节点除了包含键值以外,每个叶子节点中的索引行中还包含了一个书签(bookmark)。该书签用来告诉 InnoDB 存储引擎哪里可以找到与索引相对应的行数据。由于 InnoDB 存储引擎表是索引组织表,因此 InnoDB 存储引擎的辅助索引的书签就是相应行数据的聚集索引键。辅助索引的存在并不影响数据在聚集索引中的组织,因此每张表上可以有多个辅助索引。当通过辅助索引来寻找数据时,InnoDB 存储引擎会遍历辅助索引并通过叶级别的指针获得指向主键索引的主键,然后再通过主键索引来找到一个完整的行记录。举例来说,如果在一棵高度为 3 的辅助索引树中查找数据,那需要对这棵辅助索引树遍历 3 次找到指定主键,如果聚集索引树的高度同样为 3,那么还需要对聚集索引树进行 3 次查找,最终找到一个完整的行数据所在的页,因此一共需要 6 次逻辑 IO 访问以得到最终的一个数据页。
3.什么是二级索引?
MySQL 的二级索引,也称为辅助索引或非聚集索引,是一种用于提高数据库查询性能的索引类型。与主键索引(聚集索引)不同,二级索引不是基于表的物理顺序排序的,而是独立于表数据的额外数据结构。
二级索引允许您在表中的一个或多个列上创建索引,以加快特定列或列组合的查询速度。当您在一个或多个列上创建二级索引后,MySQL 将会构建一个索引数据结构,该数据结构包含索引列的值和指向实际数据位置的指针。这样,当查询需要使用索引列进行筛选或排序时,MySQL 可以直接使用二级索引来定位相关的数据行,而无需扫描整个表。
与主键索引不同,二级索引不是表的物理排序顺序,因此在使用二级索引进行查询时,MySQL 可能需要额外的 I/O 操作来访问实际的数据行。这就是为什么使用二级索引可能会比使用主键索引稍慢的原因。然而,二级索引的存在仍然可以大大提高查询性能,特别是对于那些频繁使用特定列进行筛选或排序的查询。
需要注意的是,当对表进行更新(插入、更新或删除)时,MySQL 还需要维护二级索引的一致性,以保证索引的准确性和完整性。因此,在创建二级索引时,需要权衡查询性能和更新性能之间的平衡。
4.什么是联合索引?
联合索引是有多个索引列组成的索引.
# 创建联合索引
CREATE TABLE tmp_kwan_muti_fileld
(
a INT,
b INT,
PRIMARY KEY (a),
KEY idx_a_b (a, b)
) ENGINE = INNODB;
SHOW INDEX FROM tmp_kwan_muti_fileld;
联合索引是指对表上的多个列进行索引
CREATE TABLE buy_log(
userid INT UNSIGNED NOT NULL,
buy_date DATE
)ENGINE=InnoDB;
ALTER TABLE buy_log ADD KEY(userid);
ALTER TABLE buy_log ADD KEY(userid,buy_date);
以上代码建立了两个索引来进行比较。两个索引都包含了 userid 字段。情况 1:如果只对于 userid 进行查询,如:
SELECT * FROM buy_log WHERE userid=2;
索引选择:优化器最终的选择是索引 userid,因为该索引的叶子节点包含单个键值,所以理论上一个页能存放的记录应该更多。情况 2:
SELECT * FROM buy_log WHERE userid=1 ORDER BY buy_date DESC LIMIT 3;
索引选择:优化器使用了(userid,buy_date)的联合索引 userid_2,因为在这个联合索引中 buy_date 已经排序好了。根据该联合索引取出数据,无须再对 buy_date 做一次额外的排序操作。情况 3:假如三个字段的联合索引。如:对于联合索引(a,b,c)来说,下列语句同样可以直接通过联合索引得到结果,不需要 filesort 的排序操作:
SELECT * FROM TABLE WHERE a=xxx ORDER BY b;
SELECT * FROM TABLE WHERE a=xxx AND b=xxx ORDER BY c;
但是对于下面的语句,联合索引不能直接得到结果,其还需要执行一次 filesort 排序操作,因为索引(a,c)并未排序:
CREATE TABLE buy_log_01(
a INT UNSIGNED NOT NULL,
b INT default NULL,
c DATE
)ENGINE=InnoDB;
ALTER TABLE buy_log ADD KEY(a,b,c);
explain SELECT * FROM buy_log_01 WHERE a='xxx' ORDER BY c;
- Using index:使用到了 a 索引
- Using filesort:需要对 c 进行排序
explain SELECT b from buy_log_01 where b=1
- Using index:使用到了 a 索引
- Using where:使用了筛选条件
- 联合索引中只用到了 b 字段进行查询,也用到了索引
5.什么是覆盖索引?
InnoDB 存储引擎支持覆盖索引(covering index,或称索引覆盖),即从辅助索引中就可以得到查询的记录,而不需要查询聚集索引中的记录。使用覆盖索引的一个好处是覆盖索引不包含整行记录的所有信息,故其大小要远小于聚集索引, 因此可以减少大量的 IO 操作。
覆盖索引就是查询的结果中全部包含了索引字段
如果要查询辅助索引中不含有的字段,得先遍历辅助索引,再遍历聚集索引,而如果要查询的字段值在辅助索引上就有,就不用再查聚集索引了,这显然会减少 IO 操作。
覆盖索引的好处:
- 不会回表,在查询结果中有列信息和主键信息
- 统计操作 count 时,优化器会进行优化,选择覆盖索引
执行 count(*)的执行计划,possible_keys 列为 NULL,但是实际执行时优化器却选择了 userid 索引,而列 Extra 列的 Using index 就是代表了优化器进行了覆盖索引操作。
此外,在通常情况下,诸如(a,b)的联合索引,一般是不可以选择列 b 中所谓的查询条件。但是如果是统计操作,并且是覆盖索引的,则优化器会进行选择.所以在使用联合索引时,带头的兄弟断了,也有可能使用到索引.
什么情况下优化器会选择覆盖索引:
InnoDB 存储引擎支持覆盖索引(covering index,或称索引覆盖),即从辅助索引中就可以得到查询的记录(此时不能够使用 select * 操作,只能对特定的索引字段进行 select),而不需要查询聚簇索引中的记录。使用覆盖索引的一个好处是辅助索引不包含整行记录的所有信息,故其大小要远小于聚簇索引,因此可以减少大量的 IO 操作。对于 InnoDB 存储引擎的辅助索引而言,由于其包含了主键信息,因此其叶子节点存放的数据为(primarykey1,primarykey2,…,key1,key2,…)。例如,下列语句都可仅使用一次辅助联合索引来完成查询:
- select count(*) from table;
- select 覆盖索引 from table;
SELECT key2 FROM table WHERE key1=xxx;
SELECT primary key2,key2 FROM table WHERE key1=xxx;
SELECT primary key1,key2 FROM table WHERE key1=xxx;
覆盖索引的另一个好处是对某些统计问题而言的。还是对于上题创建的表 buy_log,要进行举例说明。
SELECT COUNT(1) FROM buy_log;
InnoDB 存储引擎并不会选择通过查询聚集索引来进行统计。由于 buy_log 表上还有辅助索引,而辅助索引远小于聚集索引,选择辅助索引可以减少 IO 操作。在通常情况下,诸如(a,b)的联合索引,一般是不可以选择列 b 中所谓的查询条件。但是如果是统计操作,并且是覆盖索引的,则优化器会进行选择,如下述语句:
explain SELECT COUNT(1) FROM buy_log WHERE buy_date >= '2011-01-01' AND buy_date <='2011-02-01'
表 buy_log 有(userid,buy_date)的联合索引,这里只根据列 b 进行条件查询,一般情况下是不能进行该联合索引的,但是这句 SQL 查询是统计操作,并且可以利用到覆盖索引的信息,因此优化器会选择该联合索引:
从图中可以发现列 possible_keys 为 userid_2,列 key 为 userid_2,即表示(userid,buy_date)的联合索引。在列 Extra 同样可以发现 Using index 提示,表示为覆盖索引。
不符合最左前缀时也可以走索引:
全扫描联合索引树的方式查询到数据
执行计划里的 type 是 index,这代表着是通过全扫描联合索引树的方式查询到数据的,这是因为 where buy_date 并不符合联合索引最左匹配原则。
那么,如果写了个符合最左原则的 select 语句,那么 type 就是 ref,这个效率就比 index 全扫描要高一些。
因为联合索引树的记录比要小的多,而且这个 select * 不用执行回表操作,所以直接遍历联合索引树要比遍历聚集索引树要小的多,因此 MySQL 选择了全扫描联合索引树。
6.什么是最左前缀原则?
CREATE TABLE mysql_user
(
id INT UNSIGNED NOT NULL,
name VARCHAR(64) DEFAULT NULL,
age int DEFAULT NULL
)ENGINE=InnoDB;
INSERT INTO kwan.mysql_user (id, name, age) VALUES(100, '张一', 10);
INSERT INTO kwan.mysql_user (id, name, age) VALUES(300, '张二', 20);
INSERT INTO kwan.mysql_user (id, name, age) VALUES(400, '张三', 40);
INSERT INTO kwan.mysql_user (id, name, age) VALUES(600, '李四', 10);
如果我们按照 name 字段来建立索引的话,采用 B+树的结构,大概的索引结构如右图:
如果我们要进行模糊查找,查找 name 以“张"开头的所有人的 ID,即 sql 语句为
select ID from mysql_user where name like '张%';
由于在 B+树结构的索引中,索引项是按照索引定义里面出现的字段顺序排序的,索引在查找的时候,可以快速定位到 ID 为 100 的张一,然后直接向右遍历所有张开头的人,直到条件不满足为止。也就是说,我们找到第一个满足条件的人之后,直接向右遍历就可以了,由于索引是有序的,所有满足条件的人都会聚集在一起。而这种定位到最左边,然后向右遍历寻找,就是我们所说的最左前缀原则。
7.MySQL 联合索引?
#联合索引
index(a,b,c)
#查询语句
1. select * from T where a=x and b=y and c=z;
2. select * from T where a=x and b>y and c=z;
3. select * from T where c=z and a=x and b=y;
4. select (a,b) from T where a=x and b>y;
5. select count(*) from T where a=x;
6. select count(*) from T where b=y;
7. select count(*) form T;
- a、b、c 三个字段都可以走联合索引。
- a 和 b 都会走联合索引,但是由于最左匹配原则, 范围查找后面的字段是无法走联合索引的,但是在 mysql 5.6 版本后,c 字段虽然无法走联合索引,但是因为有索引下推的特性,c 字段在 inndob 层过滤完满足查询条件的记录后,才返回给 server 层进行回表,相比没有索引下推,减少了回表的次数。
- 查询条件的顺序不影响,优化器会优化,所以 a、b、c 三个字段都可以走联合索引。
- a 和 b 都会走联合索引,查询是覆盖索引,不需要回表。
- a 可以走联合索引。
- 只有 b,无法使用联合索引,由于表存在联合索引,所以 count(*) 选择的扫描方式是扫描联合索引来统计个数,扫描的方式是 type=index。
- 由于表存在联合索引,所以 count(*) 选择的扫描方式是扫描联合索引来统计个数,扫描的方式是 type=index。
关于 count(*) 为什么选择扫描联合索引(二级索引),而不扫描聚簇索引的原因:这是因为相同数量的二级索引记录可以比聚簇索引记录占用更少的存储空间
,所以二级索引树比聚簇索引树小,这样遍历二级索引的 I/O 成本比遍历聚簇索引的 I/O 成本小,因此「优化器」优先选择的是二级索引。
8.什么是自适应 hash 索引?
自适应哈希索引采用之前讨论的哈希表的方式实现。不同的是,这仅是数据库自身创建并使用的,DBA 本身并不能对其进行干预。自适应哈希索引经哈希函数映射到一个哈希表中,因此对于字典类型的查找非常快速,如
SELECT * FROM TABLE WHERE index_col='xxx';
但是对于范围查找就无能为力了。通过命令
SHOW ENGINE INNODB STATUS;
可以看到当前自适应哈希索引的使用状况。
9.什么是全文索引?
当前 InnoDB 存储引擎的全文检索还存在以下的限制:
- 每张表只能有一个全文检索的索引。
- 由多列组合而成的全文检索的索引列必须使用相同的字符集与排序规则。
- 不支持没有单词界定符(delimiter)的语言,如中文、日语、韩语等。
#添加全文索引
alter table mysql_user add fulltext (name);
SELECT * FROM blog WHERE content like '%xxx%';
根据 B+树索引的特性,上述 SQL 语句即便添加了 B+树索引也是需要进行索引的扫描来得到结果。类似这样的需求在互联网应用中还有很多。例如,搜索引擎需要根据用户输入的关键字进行全文查找,电子商务网站需要根据用户的查询条件,在可能需要在商品的详细介绍中进行查找,这些都不是 B+树索引所能很好地完成的工作。全文检索(Full-TextSearch)是将存储于数据库中的整本书或整篇文章中的任意内容信息查找出来的技术。它可以根据需要获得全文中有关章、节、段、句、词等信息,也可以进行各种统计和分析。在之前的 MySQL 数据库中,InnoDB 存储引擎并不支持全文检索技术。大多数的用户转向 MyISAM 存储引擎,这可能需要进行表的拆分,并将需要进行全文检索的数据存储为 MyISAM 表。这样的确能够解决逻辑业务的需求,但是却丧失了 InnoDB 存储引擎的事务性,而这在生产环境应用中同样是非常关键的。从 InnoDB1.2.x 版本开始,InnoDB 存储引擎开始支持全文检索,其支持 MyISAM 存储引擎的全部功能,并且还支持其他的一些特性。InnoDB 存储引擎从 1.2.x 版本开始支持全文检索的技术,其采用 full inverted index 的方式。在 InnoDB 存储引擎中,将(DocumentId,Position)视为一个“ilist”。因此在全文检索的表中,有两个列,一个是 word 字段,另一个是 ilist 字段,并且在 word 字段上有设有索引。全文检索通常使用倒排索引(inverted index)来实现。倒排索引同 B+树索引一样,也是一种索引结构。它在辅助表(auxiliary table)中存储了单词与单词自身在一个或多个文档中所在位置之间的映射。这通常利用关联数组实现,其拥有两种表现形式:
- inverted file index,其表现形式为{单词,单词所在文档的 ID}
- full inverted index,其表现形式为{单词,(单词所在文档的 ID,在具体文档中的位置)}
从图 1 可以看出,可以看到单词 code 存在于文档 1 和 4 中,单词 days 存在与文档 3 和 6 中。从图 2 可以看出,full inverted index 还存储了单词所在的位置信息,如 code 这个单词出现在(1∶6),即文档 1 的第 6 个单词为 code。相比之下,full inverted index 占用更多的空间,但是能更好地定位数据
10.全文索引的语法有了解吗?
MySQL 数据库支持全文检索(Full-TextSearch)的查询,其语法为:
MATCH(col1,col2,...)AGAINST(expr[search_modifier])
search_modifier:
{
IN NATURAL LANGUAGE MODE
| IN NATURAL LANGUAGE MODE WITH QUERY EXPANSION
| IN BOOLEAN MODE
| WITH QUERY EXPANSION
}
MySQL 数据库通过 MATCH()…AGAINST()语法支持全文检索的查询,MATCH 指定了需要被查询的列,AGAINST 指定了使用何种方法去进行查询。
NATURAL LANGUAGE MODE
全文检索通过 MATCH 函数进行查询,默认采用 Natural-Language 模式,其表示查询带有指定 word 的文档
SELECT*
FROM mysql_user
WHERE MATCH(name) AGAINST('张三' IN NATURAL LANGUAGE MODE);
BOOLEAN MODE
MySQL 数据库允许使用 IN BOOLEAN MODE 修饰符来进行全文检索。当使用该修饰符时,查询字符串的前后字符会有特殊的含义,例如下面的语句要求查询有字符串张三但没有 hot 的文档,其中+和-分别表示这个单词必须出现,或者一定不存在。
SELECT*
FROM mysql_user
WHERE MATCH(name) AGAINST('+张三-hot' IN BOOLEAN MODE);
WITH QUERY EXPANSION 或 IN NATURAL LANGUAGE MODE WITH QUERY EXPANSION
MySQL 数据库还支持全文检索的扩展查询。这种查询通常在查询的关键词太短,用户需要 implied knowledge(隐含知识)时进行。例如,对于单词 database 的查询,用户可能希望查询的不仅仅是包含 database 的文档,可能还指那些包含 MySQL、Oracle、DB2、RDBMS 的单词。而这时可以使用 QueryExpansion 模式来开启全文检索的 implied knowledge。
SELECT*
FROM mysql_user
WHERE MATCH(name) AGAINST('张三' WITH QUERY EXPANSION);
11.索引设计原则
设计原则:
- 针对于数据量较大,且查询比较频繁的表建立索引
- 针对于常作为查询条件(where)、排序(order by)、分组(group by)操作的字段建立索引
- 尽量选择区分度高的列作为索引,尽量建立唯一索引,区分度越高,使用索引的效率越高
- 如果是字符串类型的字段,字段长度较长,可以针对于字段的特点,建立前缀索引
- 尽量使用联合索引,减少单列索引,查询时,联合索引很多时候可以覆盖索引,节省存储空间,避免回表,提高查询效率
- 要控制索引的数量,索引并不是多多益善,索引越多,维护索引结构的代价就越大,会影响增删改的效率
- 如果索引列不能存储 NULL 值,请在创建表时使用 NOT NULL 约束它。当优化器知道每列是否包含 NULL 值时,它可以更好地确定哪个索引最有效地用于查询
12.什么列作为索引更加有效?
并不是在所有的查询条件中出现的列都需要添加索引。对于什么时候添加 B+树索引,一般的经验是,在访问表中数据量很大,且重复数据较少时, B+树索引才有意义
。对于性别字段、地区字段、类型字段,它们可取值的范围很小,称为低选择性不建议添加索引,当然也要根据自身项目和场景的需求。如:
SELECT * FROM student WHERE sex='M';
按性别进行查询时,可取值的范围一般只有'M'、'F'。因此上述 SQL 语句得到的结果可能是该表 50%的数据(假设男女比例 1∶1),这时添加 B+树索引是完全没有必要的。相反,如果某个字段的取值范围很广,几乎没有重复,即属于高选择性,则此时使用 B+树索引是最适合的。
怎样查看索引是否是高选择性的呢?可以通过 SHOW INDEX 结果中的列 Cardinality
来观察。Cardinality
值非常关键,表示索引中不重复记录数量的预估值。同时需要注意的是,Cardinality
是一个预估值,而不是一个准确值,基本上用户也不可能得到一个准确的值。在实际应用中,Cardinality/n_rows_in_table
应尽可能地接近 1。如果非常小,那么用户需要考虑是否还有必要创建这个索引。
举例:
ALTER TABLE mysql_user
ADD UNIQUE (id);
EXPLAIN
SELECT *
FROM mysql_user
WHERE id = '500';
表 mysql_user 大约有 500 万行数据。id 字段上有一个唯一的索引。这时如果查找 id 为 500 的用户,将会得到如下的执行计划:
SHOW INDEX FROM mysql_user;
可以看到使用了 id 这个索引,这也符合之前提到的高选择性,即 SQL 语句选取表中较少行的原则。
选择合适的字段创建索引:
- 不为 NULL 的字段 :索引字段的数据应该尽量不为 NULL,因为对于数据为 NULL 的字段,数据库较难优化。如果字段频繁被查询,但又避免不了为 NULL,建议使用 0,1,true,false 这样语义较为清晰的短值或短字符作为替代。
- 被频繁查询的字段 :我们创建索引的字段应该是查询操作非常频繁的字段。
- 被作为条件查询的字段 :被作为 WHERE 条件查询的字段,应该被考虑建立索引。
- 频繁需要排序的字段 :索引已经排序,这样查询可以利用索引的排序,加快排序查询时间。
- 被经常频繁用于连接的字段 :经常用于连接的字段可能是一些外键列,对于外键列并不一定要建立外键,只是说该列涉及到表与表的关系。对于频繁被连接查询的字段,可以考虑建立索引,提高多表连接查询的效率。
13.索引关键属性
SHOW INDEX FROM chatbot;
Table:
索引所在的表名。Non_unique:
非唯一的索引,可以看到 primary key 对应的 id 是 0,因为必须是唯一的。Key_name:
索引的名字,用户可以通过这个名字来执行 DROP INDEX。Seg_in_index:
索引中该列的位置,如果看联合索引 idxac 就比较直观了。Column_name:
索引列的名称。Collation:
列以什么方式存储在索引中。可以是 A 或 NULL。B+树索引总是 A,即排序的。如果使用了 Heap 存储引擎,并且建立了 Hash 索引,这里就会显示 NULL 了。因为 Hash 根据 Hash 桶存放索引数据,而不是对数据进行排序。Cardinality:
非常关键的值,表示索引中唯一值的数目的估计值。Cardinality 的值应尽可能接近表的最大行数,如果非常小,那么用户需要考虑是否可以删除此索引。Sub_part:
是否是列的部分被索引。如果看 idx_b 这个索引,这里显示 100,表示只对 b 列的前 100 字符进行索引。如果索引整个列则该字段为 NULL。Packed:
关键字如何被压缩。如果没有被压缩,则为 NULL。Null:
是否索引的列含有 NULL 值。可以看到 idxb 这里为 Yes,因为定义的列 b 允许 NULL 值。Index_type:
索引的类型。InnoDB 存储引擎只支持 B+树索引,所以这里显示的都是 BTREE。Comment:
注释。
Cardinality 值非常关键,优化器会根据这个值来判断是否使用这个索引。但是这个值并不是实时更新的,即并非每次索引的更新都会更新该值,因为这样代价太大了。因此这个值是不太准确的,只是一个大概的值。上面显示的结果主键的 Cardinality 为 2,但是很显然我们的表中有 4 条记录,这个值应该是 4。Cardinality 为 NULL,在某些情况下可能会发生索引建立了却没有用到的情况。或者对两条基本一样的语句执行 EXPLAIN,但是最终出来的结果不一样:一个使用索引,另外一个使用全表扫描。这时最好的解决办法就是做一次 ANALYZE TABLE
的操作,因此在一个非高峰时间,对应用程序下的几张核心表做 ANALYZE TABLE
操作,这能使优化器和索引更好的工作。
#刷新Cardinality的值
ANALYZE TABLE kwan_t1;
在实际应用中,Cardinality/n_rows_in_table
应尽可能地接近 1。如果非常小,那么用户需要考虑是否还有必要创建这个索引。故在访问高选择性属性的字段并从表中取出很少一部分数据时,对这个字段添加 B+树索引是非常有必要的。
InnoDB 存储引擎内部对更新 Cardinality
信息的策略为:
- 表中 1/16 的数据已发生过变化。
- stat_modifed_counter>2000 000 000
第一种策略为自从一次统计 Cardinality
信息后,表中 1/16 的数据已经发生过变化,这时需要更新 Cardinality
信息。第二种情况考虑的是,如果对表中某一行数据频繁地进行更新操作,这时表中的数据实际并没有增加,实际发生变化的还是这一行数据,则第一种更新策略就无法适用这这种情况。故在 InnoDB 存储引擎内部有一个计数器 stat_modifed_counter
,用来表示发生变化的次数,当 stat_modifed_counter
大于 2000 000 000 时,则同样需要更新 Cardinality
信息。
14.explain 使用?
Explain 执行计划中各个字段的含义:
字段 | 含义 |
id | select 查询的序列号,表示查询中执行 select 子句或者是操作表的顺序(id 相同,执行顺序从上到下;id 不同,值越大,越先执行)。 |
select_type | 表示 SELECT 的类型,常见的取值有 SIMPLE(简单表,即不使用表连接或者子查询)、PRIMARY(主查询,即外层的查询)、UNION(UNION 中的第二个或者后面的查询语句)、SUBQUERY(SELECT/WHERE 之后包含了子查询)等 |
type | 表示连接类型,性能由好到差的连接类型为 NULL、system、const、eq_ref、ref、range、 index、all 。不一定是多表才显示,单表也显示. |
possible_key | 显示可能应用在这张表上的索引,一个或多个。 |
key | 实际使用的索引,如果为 NULL,则没有使用索引。 |
key_len | 表示索引中使用的字节数, 该值为索引字段最大可能长度,并非实际使用长度,在不损失精确性的前提下, 长度越短越好 。 |
rows | MySQL 认为必须要执行查询的行数,在 innodb 引擎的表中,是一个估计值,可能并不总是准确的。 |
filtered | 表示返回结果的行数占需读取行数的百分比, filtered 的值越大越好。 |
Extra | 额外信息 |
id 详解
- id 相同,执行顺序从上到下
- id 值越大执行优先级越高
select_type 详解
查询的类型,主要用于区别普通查询、联合查询、子查询等复杂的查询。其值主要有六个:
- SIMPLE:简单的 select 查询,查询中不包含子查询或 union 查询。
- PRIMARY:查询中若包含任何复杂的子部分,最外层查询为 PRIMARY,也就是最后加载的就是 PRIMARY。
- SUBQUERY:在 select 或 where 列表中包含了子查询,就为被标记为 SUBQUERY。
- DEPENDENT SUBQUERY:子查询中的第一个 SELECT,取决于外面的查询
- DERIVED:在 from 列表中包含的子查询会被标记为 DERIVED(衍生),MySQL 会递归执行这些子查询,将结果放在临时表中。
- UNION:若第二个 select 出现在 union 后,则被标记为 UNION,若 union 包含在 from 子句的子查询中,外层 select 将被标记为 DERIVED。
- DEPENDENT UNION:UNION 中的第二个或后面的 SELECT 语句,取决于外面的查询
- UNION RESULT:从 union 表获取结果的 select。
- DERIVED:导出表的 SELECT(FROM 子句的子查询)
type 详解
- index:这种类型表示 mysql 会对整个该索引进行扫描。要想用到这种类型的索引,对这个索引并无特别要求,只要是索引,或者某个联合索引的一部分,mysql 都可能会采用 index 类型的方式扫描。但是呢,缺点是效率不高,mysql 会从索引中的第一个数据一个个的查找到最后一个数据,直到找到符合判断条件的某个索引。所以,上述语句会触发索引。
- ref:这种类型表示 mysql 会根据特定的算法快速查找到某个符合条件的索引,而不是会对索引中每一个数据都进行一一的扫描判断,也就是所谓你平常理解的使用索引查询会更快的取出数据。而要想实现这种查找,索引却是有要求的,要实现这种能快速查找的算法,索引就要满足特定的数据结构。简单说,也就是索引字段的数据必须是有序的,才能实现这种类型的查找,才能利用到索引。
type 字段就是描述了找到所需数据时使用的扫描方式是什么,常见扫描类型的执行效率从低到高的顺序为:
- ALL(全表扫描);
- index(全索引扫描);
- range(索引范围扫描);
- ref(非唯一索引扫描);
- eq_ref(唯一索引扫描);
- const(结果只有一条的主键或唯一索引扫描);
- system (系统表);
- 考虑到查询效率问题,全表扫描和全索引扫描要尽量避免(all 和 index)。
- 从最好到最差依次为:system>const>eq_ref>ref>range>index>ALL
Extra:该列包含 MySQL 解决查询的详细信息。
- Distinct:MySQL 发现第 1 个匹配行后,停止为当前的行组合搜索更多的行。
- Not exists:MySQL 能够对查询进行 LEFT JOIN 优化,发现 1 个匹配 LEFT JOIN 标准的行后,不再为前面的的行组合在该表内检查更多的行。
- range checked for each record (index map: #):MySQL 没有发现好的可以使用的索引,但发现如果来自前面的表的列值已知,可能部分索引可以使用。对前面的表的每个行组合,MySQL 检查是否可以使用 range 或 index_merge 访问方法来索取行。
- Using filesort:MySQL 需要额外的一次传递,以找出如何按排序顺序检索行。通过根据联接类型浏览所有行并为所有匹配 WHERE 子句的行保存排序关键字和行的指针来完成排序。然后关键字被排序,并按排序顺序检索行。
- Using index:从只使用索引树中的信息而不需要进一步搜索读取实际的行来检索表中的列信息。当查询只使用作为单一索引一部分的列时,可以使用该策略。
- Using temporary:为了解决查询,MySQL 需要创建一个临时表来容纳结果。典型情况如查询包含可以按不同情况列出列的 GROUP BY 和 ORDER BY 子句时。
- Using where:WHERE 子句用于限制哪一个行匹配下一个表或发送到客户。除非你专门从表中索取或检查所有行,如果 Extra 值不为 Using where 并且表联接类型为 ALL 或 index,查询可能会有一些错误。
- Using sort_union(...), Using union(...), Using intersect(...):这些函数说明如何为 index_merge 联接类型合并索引扫描。
- Using index for group-by:类似于访问表的 Using index 方式,Using index for group-by 表示 MySQL 发现了一个索引,可以用来查询 GROUP BY 或 DISTINCT 查询的所有列,而不要额外搜索硬盘访问实际的表。并且,按最有效的方式使用索引,以便对于每个组,只读取少量索引条目。
15.不走索引的情况?
尽量用覆盖索引,注意查询的数据量,也就是查询条件的选取
- 不要在索引列上进行运算操作, 索引将失效。
- 字符串类型字段使用时,不加引号,索引将失效。数字类型加不加引号都走索引。
- 如果仅仅是尾部模糊匹配,索引不会失效。如果是头部模糊匹配,索引失效。
- 用 or 分割开的条件
- 如果 or 前后的查询字段有一个没有索引,则不走索引
- 如果 or 前后都有索引,在 8.0 中走索引,在 5.7 中不走索引
- not in ,not exist 不走索引
- <> 不等于的情况
- 在 8.0 中走索引
- 在 5.7 中跟数据量有关,如果不等于的结果集大于 20%不走索引,小于 20%走索引
- 在包含有 null 值的 table 列上建立索引,当时使用 select count(*) from table 时不会使用索引
- 如果 MySQL 评估使用索引比全表更慢,则不使用索引
16.优化器不使用单列索引?
在某些情况下,当执行 EXPLAIN 命令进行 select 语句的分析时,会发现优化器并没有选择索引去查找数据,而是通过扫描聚集索引,也就是直接进行全表的扫描来得到数据。这利中情况多发生于范围查找、JOIN 链接操作等情况下。
SELECT *
FROM tmp_kwan_muti_fileld
WHERE a > 10000
AND a < 102000;
比如,表 tmp_kwan_muti_fileld 有(a,b)的联合主键,此外还有对于列 a 的单个索引。上述这句 SQL 显然是可以通过扫描 a 上的索引进行数据的查找。然而通过 EXPLAIN 命令。用户会发现优化器并没有按照 OrderlD 上的索引来查找数据,使用了 a 的联合主键索引,也就是表扫描.而非辅助索引扫描.
原因在于用户要选取的数据是整行信息,而 a 索引不能覆盖到我们要查询的信息,因此在对 a 索引查询到指定数据后,还需要一次书签访问来查找整行数据的信息。虽然 a 索引中数据是顺序存放的,但是再一次进行书签查找的数据则是无序的,因此变为了磁盘上的离散读操作。如果要求访问的数据量很小,则优化器还是会选择辅助索引,但是当访问的数据占整个表中数据的蛮大一部分时(一般是 20%左右),优化器会选择通过聚集索引来查找数据。因为顺序读要远远快于离散读。因此对于不能进行索引覆盖的情况,优化器选择辅助索引的情况是,通过辅助索引查找的数据是少量的。这是由当前传统机械硬盘的特性所决定的,即利用顺序读来替换随机读的查找。若用户使用的磁盘是固态硬盘,随机读操作非常快,同时有足够的自信来确认使用辅助索引可以带来更好的性能,那么可以使用关键字 FORCE INDEX 来强制使用某个索引.
17.desc 的索引实现?
在 mysql5.7 版本中添加降序索引后,并不会实际的添加降序索引,在 mysql8.0 中添加降序索引会添加降序索引.
降序的索引的执行计划中多了个 Backward index scan 反向索引扫描。
升序查询的时候,由于指定列是降序排列的,所以执行计划中多了个 using filesort 的结果,用到了文件排序,而在一些大型表的排序过程中,使用文件排序是非常消耗性能的。使用降序索引可以避免文件排序,这一点,就是降序索引能够带来的直观收益。
- 降序索引只能在 innodb 存储引擎中使用,其他存储引擎不支持。
- 使用聚合函数如果没有使用 group by 子句,不能使用降序索引进行优化。
- 降序索引只支持 BTREE 索引,不支持 HASH 索引。
- 升序索引支持的数据类型,降顺索引都支持。
18.为什么读小数据也是 16kb?
MySQL
中执行一条SQL
语句,相应表数据的读写都是由存储引擎去做(更新数据、查询数据)。
在这个过程,存储引擎需要决策一些事情
- 数据是从内存查还是从硬盘查
- 数据是更新在内存,还是硬盘
- 内存的数据什么时候同步到硬盘
InnoDB
存储引擎在内存中有两个非常重要的组件,分别是缓冲池(Buffer Pool
)和重做日志缓存(redo log buffer
)。
缓冲池(Buffer Pool)
里面会缓存很多的数据,比如数据页、索引页、锁信息等等。MySQL 表数据是以页为单位,你查询一条记录,会从硬盘把一页的数据加载出来,加载出来的数据叫数据页,会放入到 Buffer Pool
中。后续的查询先从 Buffer Pool
中找,没有命中再去硬盘加载,减少硬盘 IO 开销,提升性能。更新表数据的时,如果Buffer Pool
里命中数据,就直接在Buffer Pool
里更新。
19.NULL 值问题
在 MySQL 中,创建二级索引时,索引树上通常不会包含 NULL 值。索引树的目的是加速查询,而 NULL 值并不提供有用的信息来加速查询过程。
如果您在一个可为空(nullable)的字段上创建了二级索引,并且该字段的某些行具有 NULL 值,这些 NULL 值的记录不会在索引树中显示。当执行查询时,如果您要查找具有 NULL 值的记录,MySQL 将不会使用该二级索引,而是需要执行全表扫描来找到包含 NULL 值的记录。
这是因为在 MySQL 中,对于包含 NULL 值的记录,查询优化器通常认为它们的数量相对较少,通过全表扫描来定位这些记录可能更为高效。因此,当您执行查询条件包含对 NULL 值的判断时,MySQL 可能会选择进行全表扫描。
如果您经常需要查询具有 NULL 值的记录,并且性能成为问题,您可以考虑使用其他技术,如使用一个额外的标志字段来指示是否为 NULL,或者使用特殊的值来替代 NULL 值,以便在二级索引中进行索引。
需要注意的是,MySQL 的行为在不同的版本和配置下可能会有所不同。因此,建议在具体的环境中进行测试和评估,以确定在包含 NULL 值的字段上使用二级索引时的实际性能和行为。
20.NULL 值是怎么存放的?
MySQL 的 Compact 行格式中会用「NULL值列表
」来标记值为 NULL 的列,NULL 值并不会存储在行格式
中的真实数据部分。
NULL 值列表会占用 1 字节空间,当表中所有字段都定义成NOT NULL
,行格式中就不会有 NULL
值列表,这样可节省 1 字节的空间。
在 MySQL 数据库中,NULL 值是一种特殊的值,用于表示缺少值或未知值。在内部,MySQL 使用一种称为 "NULL bitmap
" 或 "null bitmap
" 的机制来存储 NULL 值。
每个存储在表中的行都有一个对应的 NULL 位图,它是一个位数组,其中的每个位对应于该行中的一个列。如果列的值为 NULL,则对应的位被设置为 1;如果列的值不为 NULL,则对应的位被设置为 0。这样,数据库系统可以有效地跟踪每列是否包含 NULL 值。
这种位图的存储方式使得数据库可以更有效地使用存储空间
,并且能够快速地进行 NULL
值的检索和比较。当查询需要检查 NULL
值时,数据库系统可以直接引用 NULL
位图,而无需实际检查每个列的值。
需要注意的是,NULL
值在数据库中有特定的语义,它表示缺少值或未知值,与空字符串或零值不同。在查询中,可以使用 IS NULL 或 IS NOT NULL 来检查 NULL 值。
MySQL 使用 NULL 位图来存储 NULL 值,这种机制在数据库中有效地管理和表示缺少值。
21.is null 查询问题
select age from table where age is null;
在 MySQL 中,当使用select age from table where age is null;
这样的查询语句时,如果"age"列没有被设置为索引,那么 MySQL 通常不会使用索引来执行这个查询。原因是,对于包含IS NULL
或IS NOT NULL
条件的查询,MySQL 的优化器通常认为全表扫描是更有效的方式。
当没有索引可用时,MySQL 需要扫描整个表来找到满足条件的行,然后返回"age"列的值。如果"age"列被设置为索引,MySQL 可能会使用索引来快速定位满足条件的行,这样可以大大加快查询速度。
但是对于"age is null"这种条件,即使有索引,MySQL 通常也不会使用它。这是因为 NULL 值在数据库中是一种特殊的值,索引的存储方式会导致难以有效地使用索引来加速这类查询。因此,MySQL 倾向于执行全表扫描来查找 NULL 值,而不是使用索引。
如下图所示,通过 explain 查询出来的 type 为 ALL,ALL
: 表示 MySQL 将执行全表扫描,将遍历表中的每一行来匹配查询条件。这通常发生在没有合适的索引可供优化查询时,或者查询条件无法使用索引优化。
22.表的最大索引个数
在 MySQL 中,每个表的索引数量是有限制的,但具体的限制取决于 MySQL 的版本和存储引擎。在某些情况下,一个表可以支持多于 64 个索引。
在 MySQL 5.7 及之前的版本中,每个表最多支持 64 个索引。这是因为 MySQL 5.7 及之前的版本使用了类似于file_per_table
的存储模式,导致每个表的索引数量有限制。
然而,在 MySQL 8.0 及之后的版本中,情况有所改变。MySQL 8.0 引入了InnoDB
存储引擎的innodb_large_prefix
特性,默认情况下为开启状态。该特性允许索引的最大长度扩展到 3072 字节(之前为 767 字节),这使得每个表可以支持更多的索引数量。
总体而言,具体支持的最大索引数量取决于 MySQL 的版本和存储引擎,并且可能受到配置选项的影响。对于大多数应用场景而言,不太可能需要超过 64 个索引,因为合理使用较少数量的索引通常就能够满足查询优化的需求。
23.什么是 FIC?
说说 FIC(Fast index creation)原理,与普通 index 有什么不同?
MySQL5.5 版本之前(不包括 5.5)存在的一个普遍被人诟病的问题是:MySQL 数据库对于索引的添加或者删除的这类 DDL 操作,MySQL 数据库的操作过程为:
- 首先创建一张新的临时表,表结构为通过命令 ALTERTABLE 新定义的结构。
- 然后把原表中数据导入到临时表。
- 接着删除原表。
- 最后把临时表重命名为原来的表名。
可以发现,若用户对于一张大表进行索引的添加和删除操作,那么这会需要很长的时间。更关键的是,若有大量事务需要访问正在被修改的表,这意味着数据库服务不可用。MySQL 数据库的索引维护始终让使用者感觉非常痛苦。
InnoDB 存储引擎从 InnoDB1.0.x 版本开始支持一种称为 Fast Index Creation(快速索引创建)的索引创建方式——简称 FIC。
对于辅助索引的创建,InnoDB 存储引擎会对创建索引的表加上一个 S 锁。在创建的过程中,不需要重建表,因此速度较之前提高很多,并且数据库的可用性也得到了提高。删除辅助索引操作就更简单了,InnoDB 存储引擎只需更新内部视图,并将辅助索引的空间标记为可用(不影响辅助索引的使用,因为可读,后边的同时删除四个字非常传神),同时删除 MySQL 数据库内部视图上对该表的索引定义即可。
由于 FIC 在索引的创建的过程中对表加上了 S 锁,因此在创建的过程中只能对该表进行读操作,若有大量的事务需要对目标表进行写操作,那么数据库的服务同样不可用。此外,FIC 方式只限定于辅助索引,对于主键的创建和删除同样需要重建一张表.
大表如何添加索引:
如果一张表数据量级是千万级别以上的,那么,如何给这张表添加索引?
我们需要知道一点,给表添加索引的时候,是会对表加锁的。如果不谨慎操作,有可能出现生产事故的。可以参考以下方法:
- 先创建一张跟原表
A
数据结构相同的新表B
。 - 在新表
B
添加需要加上的新索引。 - 把原表
A
数据导到新表B
rename
新表B
为原表的表名A
,原表A
换别的表名;
24.有没有比 FIC 更好的方式?
虽然 FIC 可以让 InnoDB 存储引擎避免创建临时表,从而提高索引创建的效率。但索引创建时会阻塞表上的 DML 操作(除读操作)。OSC(一个 FaceBook 的 PHP 脚本)虽然解决了上述的部分问题,但是还是有很大的局限性。MySQL5.6 版本开始支持 Online DDL(在线数据定义)操作
,其允许辅助索引创建的同时,还允许其他诸如 INSERT、UPDATE、DELETE 这类 DML 操作,这极大地提高了 MySQL 数据库在生产环境中的可用性。
不仅是辅助索引,以下这几类 DDL 操作都可以通过“在线”的方式进行操作:
- 辅助索引的创建与删除
- 改变自增长值
- 添加或删除外键约束
- 列的重命名
使用语法:
alter table tba_name
|ADD{INDEX|KEY}[index_name]
[index_type](index_col_name,...)[index_option]...
ALGORITHM[=]{DEFAULT|INPLACE|COPY}
LOCK[=]{DEFAULT|NONE|SHARED|EXCLUSIVE}
ALGORITHM 指定了创建或删除索引的算法,COPY 表示按照 MySQL5.1 版本之前的工作模式,即创建临时表的方式。INPLACE 表示索引创建或删除操作不需要创建临时表。DEFAULT 表示根据参数 old_alter_table 来判断是通过 INPLACE 还是 COPY 的算法,该参数的默认值为 OFF,表示采用 INPLACE 的方式。
LOCK 部分为索引创建或删除时对表添加锁的情况:
NONE
:执行索引创建或者删除操作时,对目标表不添加任何的锁,即事务仍然可以进行读写操作,不会收到阻塞。因此这种模式可以获得最大的并发度。SHARE:
这和之前的 FIC 类似,执行索引创建或删除操作时,对目标表加上一个 S 锁。对于并发地读事务,依然可以执行,但是遇到写事务,就会发生等待操作。如果存储引擎不支持 SHARE 模式,会返回一个错误信息。EXCLUSIVE:
在 EXCLUSIVE 模式下,执行索引创建或删除操作时,对目标表加上一个 X 锁。读写事务都不能进行,因此会阻塞所有的线程,这和 COPY 方式运行得到的状态类似,但是不需要像 COPY 方式那样创建一张临时表。DEFAULT:
DEFAULT 模式首先会判断当前操作是否可以使用 NONE 模式,若不能,则判断是否可以使用 SHARE 模式,最后判断是否可以使用 EXCLUSIVE 模式。也就是说 DEFAULT 会通过判断事务的最大并发性来判断执行 DDL 的模式。
InnoDB 存储引擎实现 Online DDL
的原理是在执行创建或者删除操作的同时,将 INSERT、UPDATE、DELETE 这类 DML 操作日志写入到一个缓存中。待完成索引创建后再将重做应用到表上,以此达到数据的一致性。这个缓存的大小由参数 innodb_online_alter_log_max_size
控制,默认的大小为 128MB。
需要特别注意的是,由于 Online DDL 在创建索引完成后再通过重做日志达到数据库的最终一致性,这意味着在索引创建过程中,SQL 优化器不会选择正在创建中的索引。
25.什么是离散读?
在某些情况下,当执行 EXPLAIN 命令进行 SQL 语句的分析时,会发现优化器并没有选择索引去查找数据,而是通过扫描聚集索引,也就是直接进行全表的扫描来得到数据。这种情况多发生于范围查找、JOIN 链接操作等情况下。
假设表:t_index。其中 id 为主键;c1 与 c2 组成了联合索引(c1,c2);此外,c1 还是一个单独索引。进行如下查询操作:
SELECT * FROM t_index WHERE c1>1 and c1<100000;
可以看到表 t_index 有(c1,c2)的联合主键,此外还有对于列 c1 的单个索引。上述这句 SQL 显然是可以通过扫描 OrderID 上的索引进行数据的查找。然而通过 EXPLAIN 命令,用户会发现优化器并没有按照 OrderID 上的索引来查找数据。
在最后的索引使用中,优化器选择了 PRIMARY id 聚集索引,也就是表扫描(tablescan),而非 c1 辅助索引扫描(index scan)。
这是为什么呢?因为如果强制使用 c1 索引,就会造成离散读。具体原因在于用户要选取的数据是整行信息,而 c1 作为辅助索引不能覆盖到我们要查询的信息,因此在对 c1 索引查询到指定数据后,还需要一次书签访问来查找整行数据的信息。虽然 c1 索引中数据是顺序存放的,但是再一次进行书签查找的数据则是无序的,因此变为了磁盘上的离散读操作。如果要求访问的数据量很小,则优化器还是会选择辅助索引,但是当访问的数据占整个表中数据的蛮大一部分时(一般是 20%左右),优化器会选择通过聚集索引来查找数据。
26.索引下推
select * from employee where name like '小%' and age=28 and sex='0';
其中,name
和age
为联合索引(idx_name_age
)。
如果是Mysql5.6 之前,在idx_name_age
索引树,找出所有名字第一个字是“小”
的人,拿到它们的主键id
,然后回表找出数据行,再去对比年龄和性别等其他字段。如图:
idx_name_age(name,age)
不是联合索引嘛?为什么选出包含“小”
字后,不再顺便看下年龄age
再回表呢,不是更高效嘛?所以呀,MySQL 5.6
就引入了索引下推优化,可以在索引遍历过程中,对索引中包含的字段先做判断,直接过滤掉不满足条件的记录,减少回表次数。
因此,MySQL5.6 版本之后,选出包含“小”
字后,顺表过滤age=28
27.如何创建联合索引
联合索引(也称为复合索引或组合索引)是数据库中的一种重要优化工具,用于提高数据库查询性能。创建联合索引时需要考虑一些原则,以确保索引的有效性和效率。以下是创建联合索引的一些原则:
- 选择合适的列组合: 联合索引涉及多个列,因此需要仔细选择哪些列应该包含在索引中。选择常用于查询条件、连接条件或排序操作的列。避免在联合索引中包含过多的列,因为这可能会增加索引维护的开销,并且不一定会带来更好的性能提升。
- 列的顺序: 列的顺序对联合索引的性能影响很大。应该将最常用于过滤数据的列放在索引的前面,这有助于数据库更快地定位到所需的数据。如果经常使用的列在索引的后面,数据库可能需要更多的操作才能达到所需的数据行。
- 避免重复列: 不要在联合索引中重复包含相同的列。如果某列已经在索引的前面出现,就不需要再将其放在后面的位置。
- 平衡性能需求: 联合索引需要权衡查询性能和索引维护的成本。过多的索引可能会导致写操作(如插入、更新和删除)变慢,因为数据库需要维护多个索引。因此,需要根据实际场景综合考虑查询性能和写操作性能。
- 考虑查询选择性: 索引的选择性是指索引列中不同值的数量与总行数的比例。选择性越高,索引在过滤数据时的效率越高。因此,选择选择性较高的列作为索引列通常会带来更好的性能。
- 避免过度索引: 不要为每个可能的查询都创建一个新的联合索引。过多的索引可能会导致索引失效,降低性能。根据实际使用情况选择最有价值的查询来创建索引。
- 定期维护索引: 随着数据的增加和变化,索引的性能可能会下降。定期重新组织或重建索引,以保持其效率。数据库管理系统通常提供了工具来进行索引维护。
- 考虑内存和存储限制: 索引需要内存和存储空间来维护。过多的索引可能会占用大量的资源。在创建索引时要考虑数据库服务器的内存和存储容量。
创建联合索引需要权衡多个因素,包括查询模式、写操作频率、数据量和数据库系统的特性。根据实际情况和性能测试,选择合适的列组合和顺序,以提高数据库的查询性能和整体效率。
举例:
有个笔试一道题:一张表,sql 语句是这样,select * from XXwhere sex=x and shengfen=x order by idCard limit 10,最好的建立索引的方式是什么?sex 两个类别,idCare-身份证,shengfeng-省份,如何建立联合索引呢?
首先排序字段不能放在联合索引的左边,因为排序字段后面的字段就没办法走索引了。所以建立联合索引 idCare 不能放在最左边。
然后 shengfen 和 sex,shengfen 的区分度会更高,所以可以把 shengfen 作为最左边的字段,因此(shengfen,sex,idCare)
会比较好,这个联合索引索引可以保证三个字段都能走索引。
二.Mysql 锁
1.innodb 中的锁有哪几种?
# 这个查询用于查看当前正在运行的InnoDB事务的信息,包括事务ID、事务状态、锁定等信息。
SELECT * FROM information_schema.INNODB_TRX;
# 这个查询用于查看正在等待锁定的InnoDB事务的信息,包括等待锁的事务ID、等待锁的资源和锁等待时间等。
SELECT * FROM `sys`.`innodb_lock_waits`;
#这个查询用于查看当前正在持有的数据锁定信息,包括锁定的对象、锁定类型和锁定持有者等。
SELECT * FROM performance_schema.data_locks;
#这个查询用于查看正在等待数据锁定的事务信息,包括等待锁定的事务ID、等待锁的资源和锁等待时间等。
SELECT * FROM performance_schema.data_lock_waits;
InnoDB 存储引擎实现了如下两种标准的行级锁:
- 共享锁(SLock),允许事务读一行数据。
- 排他锁(XLock),允许事务删除或更新一行数据。
如果一个事务 T1 已经获得了行 r 的共享锁,那么另外的事务 T2 可以立即获得行 r 的共享锁,因为读取并没有改变行 r 的数据,称这种情况为锁兼容(Lock Compatible)。但若有其他的事务 T3 想获得行 r 的排他锁,则其必须等待事务 T1、T2 释放行 r 上的共享锁——这种情况称为锁不兼容。
2.innodb 意向锁?
InnoDB 存储引擎支持多粒度(granularity)锁定,这种锁定允许事务在行级上的锁和表级上的锁同时存在。为了支持在不同粒度上进行加锁操作,InnoDB 存储引擎支持一种额外的锁方式,称为意向锁(Intention Locks)。意向锁将锁定的对象分为多个层次,意味着事务希望在更加细粒度(fine granularity)上加行锁。意向锁是一种不与行级锁冲突的表级锁。
如果需要用到表锁的话,如何判断表中的记录没有行锁呢?一行一行遍历肯定是不行,性能太差。我们需要用到一个叫做意向锁
的东西来快速判断是否可以对某个表使用表锁。
意向锁是表级锁,共有两种:
- 意向共享锁(Intention Shared Lock,IS 锁):事务有意向对表中的某些记录加共享锁(S 锁),加共享锁前必须先取得该表的 IS 锁。
- 意向排他锁(Intention Exclusive Lock,IX 锁):事务有意向对表中的某些记录加排他锁(X 锁),加排他锁之前必须先取得该表的 IX 锁。
由于 InnoDB 存储引擎支持的是行级别的锁,因此意向锁其实不会阻塞除全表扫以外的任何请求。
3.innodb 行锁的三种算法?
InnoDB 存储引擎有 3 种行锁的算法,其分别是:
- Record Lock 记录锁:单个行记录上的锁
- Gap Lock 间隙锁:锁定一个范围,但不包含记录本身
- Next-Key Lock 临键锁 ∶Gap Lock+Record Lock,锁定一个范围,并且锁定记录本身。
Record Lock 总是会去锁住索引记录,如果 InnoDB 存储引擎表在建立的时候没有设置任何一个索引,那么这时 InnoDB 存储引擎会使用隐式的主键来进行锁定。
Gap Lock:锁定是一个范围,但是不包含边界,开开区间.
Next-Key Lock 是结合了 Gap Lock 和 Record Lock 的一种锁定算法,在 Next-Key Lock 算法下,InnoDB 对于行的查询都是采用这种锁定算法。
在 InnoDB 默认的事务隔离级别下,即 REPEATABLE READ 下,InnoDB 存储引擎采用 Next-Key Locking 这种锁定算法。例如一个索引有 10,11,13 和 20 这四个值,那么该索引可能被 Next-Key Locking 的区间为:
(-∞,10] (10,11] (11,13] (13,20] (20,+∞)
DROP TABLE IF EXISTS t;
CREATE TABLE t( a INT PRIMARY KEY);
INSERT INTO t SELECT 1;
INSERT INTO t SELECT 2;
INSERT INTO t SELECT 5;
当查询的索引含有唯一属性
时,InnoDB 存储引擎会对 Next-Key Lock 进行优化,将其降级为 Record Lock
,即仅锁住索引本身,而不是范围。
什么是唯一属性,其实就是我们所说的能够标识该行数据唯一的标识。unique 字段。比如:主键就是唯一的,不重复的。我们也可以自己设计多个字段组合不重复,唯一的。
表 t 共有 1、2、5 三个值。在上面的例子中,在会话 A 中首先对 a=5 进行 X 锁定。而由于 a 是主键且唯一,因此锁定的仅是 5 这个值,而不是(2,5)这个范围,这样在会话 B 中插入值 4 而不会阻塞
,可以立即插入并返回。即锁定由 Next-Key Lock 算法降级为了 Record Lock,从而提高应用的并发性
。
CREATE TABLE z(a INT,b INT,PRIMARY KEY(a),KEY(b));
INSERT INTO z SELECT 1,1;
INSERT INTO z SELECT 3,1;
INSERT INTO z SELECT 5, 3;
INSERT INTO z SELECT 7,6;
INSERT INTO z SELECT 10,8;
#sql1
SELECT * FROM z WHERE a=5 LOCK IN SHARE MODE;
#sql2
INSERT INTO z SELECT 4,2;
#sql3
INSERT INTO z SELECT 6,5;
表 z 的列 b 是辅助索引,若在会话 A 中执行下面的 SQL 语句:
SELECT * FROM z WHERE b=3 FOR UPDATE;
很明显,这时 SQL 语句通过索引列 b 进行查询,该列不是唯一属性,因此其使用传统的 Next-Key Locking 技术加锁,并且由于有两个索引,其需要分别进行锁定。对于聚簇索引(primay-key a),其仅对列 a 等于 5 的索引加上 Record Lock。而对于辅助索引 b,其加上的是 Next-Key Lock,锁定的范围是(1,3)。特别需要注意的是,InnoDB 存储引擎还会对辅助索引下一个键值加上 gap lock
,即还有一个辅助索引范围为(3,6)的锁。
第一个 SQL 语句不能执行,因为在会话 A 中执行的 SQL 语句已经对聚集索引中列 a=5 的值加上 X 锁,因此执行会被阻塞。
第二个 SQL 语句,主键插入 4,没有问题,但是插入的辅助索引值 2 在锁定的范围(1,3)中,因此执行同样会被阻塞。
第三个 SQL 语句,插入的主键 6 没有被锁定,5 也不在范围(1,3)之间。但插入的值 5 在另一个锁定的范围(3,6)中,故同样需要等待。
4.next-key lock 作用?
在默认的事务隔离级别下,即 REPEATABLE READ 下,InnoDB 存储引擎采用 Next-Key Locking 机制来避免 Phantom Problem(幻读问题,也称不可重复读)。Phantom Problem 是指在同一事务下,连续执行两次同样的 SQL 语句可能导致不同的结果
。(在 READ COMMITTED 事务隔离级别下会出现)
CREATE TABLE z(a INT,b INT,PRIMARY KEY(a),KEY(b));
INSERT INTO z SELECT 1,1;
INSERT INTO z SELECT 3,1;
INSERT INTO z SELECT 5, 3;
INSERT INTO z SELECT 7,6;
INSERT INTO z SELECT 10,8;
在同一事务中,若此时执行语句:
SELECT * FROM z WHERE b=3 FOR UPDATE;
执行两次,中间间隔 10 秒时间执行。可以肯定的说,我们会得到第三行数据的结果,即(5,3)。此时我们知道,会有一个 Record Lock 锁定主键 5,还会有一个 gap lock 锁定(1,3)和(3,6)。
假设:我们分析下,若此时没有 gap lock(1,3)和(3,6),如果只有 Record Lock 锁定主键 5 会不会造成幻读。
分析:我们在第一次 select 完成之后,第二次 select 之前,插入一条数据:
INSERT INTO z SELECT 20,3;
这条数据是可以插入成功的,因为我们只有一个 record lock 锁定了主键 5,对于新插入的数据主键为 20,可以插入,且无重复。插入完成后,第二次 select 得到了两个值,(5,3)(20,3)。这就造成了同一事物中,第一次读取和第二次读取的结果不一样,出现幻读。如果是 gap lock,不能锁定记录本身 3,如果有 next-key lock,插入就会被阻塞,不会出现幻读。
Next-Key Locking解决幻读问题整理:
- 幻读是连续读取同一个 sql,出现不同的结果;
- a 是主键,b 是辅助索引;
- 则查询 b=3 时,如果不采用临键锁,会读取到多条数据;
- 记录锁针对的是主键唯一的锁定,gap lock 间隙锁是范围锁,左开右开区间,无法阻止 b 等于其他值的插入;
- 如果是临键锁,既可以防止主键的重复,也可以用左闭右闭范围限定的 gap lock 间隙锁限定 b 的值;
5.自增长锁?
自增长计数器(auto-increment counter):
插入操作会依据这个自增长的计数器值
加 1 赋予自增长列
。这个方式称做 AUTO-INC Locking
。这种锁其实是采用一种特殊的机制,为了提高插入的性能,锁不是在一个事务
完成后才释放,而是在完成对自增长值
插入的 SQL
语句后立即释放。
插入类型:
插入类型 | 说明 |
insert-like | 所有的插入语句,如 INSERT、REPLACE、INSERT…SELECT、REPLACE…SEECT、LOAD DATA 等 |
simple inserts | 能在插入前就确定插入行数的语句,包括 INSERT、REPLACE 等,不包含 INSERT…ON DUPLICATE KEY UPDATE 这类 SQL 语句 |
bulk inserts | 在插入前不能确定得到插入行数的语句,如 INSERT…SELECT、REPLACE…SELECT、LOAD DATA 等 |
mixed-mode inserts | 插入中有一部分的值是自增长的,有一部分是确定的,如 INSERT INTO t1(c1,c2)VALUES(1,'a'),(NULL,'b'),(5,'c'),(NULL,'d'),也可以是指 INSERT…ON DUPLICATE KEY UPDATE 这类 SQL 语句 |
虽然 AUTO-INC Locking
从一定程度上提高了并发插入的效率,但还是存在一些性能上的问题。首先,对于有自增长值的列的并发插入性能较差
,事务必须等待前一个插入
的完成(虽然不用等待事务
的完成)。其次,对于 INSERT…SELECT 的大数据量的插入会影响插入的性能,因为另一个事务
中的插入会被阻塞。
从 MySQL5.1.22 版本开始,InnoDB 存储引擎中提供了一种轻量级互斥量的自增长实现机制,这种机制大大提高了自增长值插入的性能。并且从该版本开始,InnoDB 存储引擎提供了一个参数 innodb_autoinc_lock_mode
来控制自增长的模式,该参数的默认值为 1。
参数innodb_autoinc_lock_mode 的说明:
参数名 | 说明 |
innodb_autoinc_lock_mode |
|
0 | 这是 MySQL5.1.22 版本之前的自增长实现方式,通过表锁的 AUTO-INC Locking 方式,因为有了新的自增长实现方式,0 这个选项不应该是新版用户的首选项 |
1 | 这是该参数的默认值。对于该值会用互斥量(mutex)去对内“simple inserts,存中的计数器进行累加的操作。对于“bulk inserts”,还是使用传统表锁的 AUTO-INC Locking 方式。在这种配置下,如果不考虑回滚操作,对于自增值列的增长还是连续的。并且在这种方式下,statement-based 方式的 replication 还是能很好地工作。需要注意的是,如果已经使用 AUTO-INCLocing 方式去产生自增长的值,而这时需要再进行“simple inserts”的操作时,还是需要等待 AUTO-INC Locking 的释放 |
2 | 在这个模式下,对于所有“INSERT-like”自增长值的产生都是通过互斥量 ,而不是 AUTO-INC Locking 的方式。显然,这是性能最高的方式。然而,这会带来一定的问题。因为并发插入的存在,在每次插入时,自增长的值可能不是连续的。此外,最重要的是,基于 Statement-Base Replication 会出现问题。因此,使用这个模式,任何时候都应该使用 row-base replication 。这样才能保证最大的并发性能 及 replication 主从数据的一致 |
6.lock 和 latch 的区别?
latch 一般称为闩锁(轻量级的锁),因为其要求锁定的时间必须非常短。若持续的时间长,则应用的性能会非常差。在 InnoDB 存储引擎中,latch 又可以分为 mutex(互斥量)和 rwlock(读写锁)
。其目的是用来保证并发线程操作临界资源的正确性,并且通常没有死锁检测的机制。lock 的对象是事务,用来锁定的是数据库中的对象,如表、页、行。并且一般 lock 的对象仅在事务 commit 或 rollback 后进行释放(不同事务隔离级别释放的时间可能不同)。此外,lock,正如在大多数数据库中一样,是有死锁机制的。
7.一致性锁定读?
SELECT 语句支持两种一致性的锁定读(locking read)操作:
- SELECT...FOR UPDATE
- SELECT..LOCKIN SHARE MODE
SELECT...FOR UPDATE 对读取的行记录加一个 X 锁,其他事务不能对已锁定的行加上任何锁。
SELECT..LOCK IN SHARE MODE 对读取的行记录加一个 S 锁,其他事务可以向被锁定的行加 S 锁,但是如果加 X 锁,则会被阻塞。
当事务提交了,锁锁也就释放了。因此在使用上述两句 SELECT 锁定语句时,务必加上 BEGIN,STARTTRANSACTION 或者 SET AUTOCOMMIT=0。
8.什么是一致性非锁定读的?
MVCC 的核心:
- 表的隐藏列:DB_TRX_ID(记录操作当前数据的事务 ID)、DB_ROLL_PTR(记录上个版本数据的地址,指向 undo log)。
- undo log:记录数据各版本的修改历史,即“版本链”。
- Read View:读视图,用于判断哪些数据版本对当前 SELECT 可见。
RC 级别下,事务中每次 SELECT
请求都会重新创建read view
;
RR 级别下,事务中的第一个 SELECT
请求才开始创建read view
;
- DB_TRX_ID:记录插入或者更新该行数据的最后一个
事务 ID
。 - DB_ROW_ID:
隐藏的自增 ID
,当数据库表没有指定主键的时候,会自动生成。 - DB_ROLL_PTR:
回滚指针
,7 字节,指向写入回滚段的 undo log 记录。指向该行的上一个记录。
一致性的非锁定读
(consistent nonlocking read)是指 InnoDB 存储引擎通过行多版本控制
(multi versioning)的方式来读取当前执行时间数据库中行的数据。如果读取的行正在执行 DELETE
或 UPDATE
操作,这时读取操作不会因此去等待行上锁的释放。相反地,InnoDB 存储引擎会去读取行的一个快照数据
。
之所以称其为非锁定读,因为不需要等待访问的行上 X 锁的释放。快照数据是指该行的之前版本的数据,该实现是通过 undo log 来完成。而undo log 用来在事务中回滚数据,因此快照数据本身是没有额外的开销。此外,读取快照数据是不需要上锁的,因为没有事务需要对历史的数据进行修改操作。
快照数据其实就是当前行数据之前的历史版本,每行记录可能有多个版本。如右图显示的,一个行记录可能有不止一个快照数据,一般称这种技术为行多版本技术
。由此带来的并发控制,称之为多版本并发控制
(Multi Version Concurrency Control,MVCC
)。
9.MVCC 实现原理
快照读和当前读:
快照读:
不加锁的非阻塞读,select当前读:
- select...lock in share mode;
- select...for update
- update、insert、delete
在事务隔离级别 READ COMMITTED 和 REPEATABLE READ(InnoDB 存储引擎的默认事务隔离级别)下,InnoDB 存储引擎使用非锁定的一致性读。然而,对于快照数据的定义却不相同。在 READ COMMITTED 事务隔离级别下,对于快照数据,非一致性读总是读取被锁定行的最新一份快照数据。而在 REPEATABLE READ 事务隔离级别下,对于快照数据,非一致性读总是读取事务开始时的行数据版本。
举个例子,a 开启事务,读取 id=1 的数据,未提交事务,b 开启事务,set id=3,b 事务未提交时,在 READ COMMITTED 和 REPEATABLE READ 隔离级别下,读到的都是 id=1,因为只有一个快照,当 b 提交后,再读 id=1 时,READ COMMITTED 会读到空数据,因为读的是最新的行快照,REPEATABLE READ 读到的还是 id=1 的数据,会一直用事务开始读到的快照.
对于 READ COMMITTED 的事务隔离级别而言,从数据库理论的角度来看,其违反了事务 ACID 中的 I 的特性,即隔离性
。
MVCC 具体实现过程?
Read View:
读视图,某一时刻的一个 trx_id
事务快照
class ReadView {
// 省略...
private:
/** 高水位,大于等于这个ID的事务均不可见*/
trx_id_t m_low_limit_id;
/** 低水位:小于这个ID的事务均可见 */
trx_id_t m_up_limit_id;
/** 创建该 Read View 的事务ID*/
trx_id_t m_creator_trx_id;
/** 创建视图时的活跃事务id列表*/
ids_t m_ids;
/** 配合purge,标识该视图不需要小于m_low_limit_no的UNDO LOG,
* 如果其他视图也不需要,则可以删除小于m_low_limit_no的UNDO LOG*/
trx_id_t m_low_limit_no;
/** 标记视图是否被关闭*/
bool m_closed;
// 省略...
};
核心属性:
- m_ids:创建 ReadView 时当前系统中活跃的事务 Id 列表,可以理解为生成 ReadView 那一刻还未执行提交的事务,并且该列表是个升序列表。
- m_up_limit_id:低水位,取 m_ids 列表的第一个节点,因为 m_ids 是升序列表,因此也就是 m_ids 中事务 Id 最小的那个。
- m_low_limit_id:高水位,生成 ReadView 时系统将要分配给下一个事务的 Id 值。
- m_creator_trx_id:创建该 ReadView 的事务的事务 Id。
可见性:说白了,这个读视图的作用就是为了让我们能够得到当前事务该读到什么版本的数据,它遵循以下的算法:
- 如果被访问版本的 trx_id 与 ReadView 中的 m_creator_trx_id 值相同,意味着当前事务在访问它自己修改过的记录,所以该版本可以被当前事务访问。
- 如果被访问版本的 trx_id 小于 ReadView 中的 m_up_limit_id(低水位),表明被访问版本的事务在当前事务生成 ReadView 前已经提交,所以该版本可以被当前事务访问。
- 如果被访问版本的 trx_id 大于等于 ReadView 中的 m_low_limit_id(高水位),表明被访问版本的事务在当前事务生成 ReadView 后才开启,所以该版本不可以被当前事务访问。
- 如果被访问版本的 trx_id 属性值在 ReadView 的 m_up_limit_id 和 m_low_limit_id 之间,那就需要判断 trx_id 属性值是不是在 m_ids 列表中,这边会通过二分法查找。如果在,说明创建 ReadView 时生成该版本的事务还是活跃的,该版本不可以被访问;如果不在,说明创建 ReadView 时生成该版本的事务已经被提交,该版本可以被访问。
10.什么是丢失更新?
丢失更新是锁导致的问题,简单来说就是一个事务的更新操作
会被另一个事务的更新操作
所覆盖,从而导致数据的不一致。例如:
- 事务 T1 将行记录 r 更新为 v1,但是事务 T1 并未提交。
- 与此同时,事务 T2 将行记录 r 更新为 v2,事务 T2 未提交。
- 事务 T1 提交。
- 事务 T2 提交。
但是,在当前数据库的任何隔离级别下,都不会导致数据库理论意义上的丢失更新问题。这是因为,即使是 READ UNCOMMITTED 的事务隔离级别,对于行的 DML 操作(增删改查),需要对行或其他粗粒度级别的对象加锁
。因此在上述步骤 2 中,事务 T2 并不能对行记录 r 进行更新操作,其会被阻塞,直到事务 T1 提交。
虽然数据库能阻止丢失更新问题的产生,但是在生产应用中还有另一个逻辑意义的丢失更新问题,而导致该问题的并不是因为数据库本身的问题。实际上,在所有多用户计算机系统环境下都有可能产生这个问题。简单地说来,出现下面的情况时,就会发生丢失更新:
- 事务 T1 查询一行数据,放入本地内存,并显示给一个终端用户 User1。
- 事务 T2 也查询该行数据,并将取得的数据显示给终端用户 User2。
- User1 修改这行记录,更新数据库并提交。
- User2 修改这行记录,更新数据库并提交。
显然,这个过程中用户 User1 的修改更新操作“丢失”了,而这可能会导致一个“恐怖”的结果。要避免丢失更新发生,需要让事务在这种情况下的操作变成串行化,而不是并行的操作。即在上述四个步骤的 1 中,对用户读取的记录加上一个排他 X 锁。同样,在步骤 2 的操作过程中,用户同样也需要加一个排他 X 锁。通过这种方式,步骤 2 就必须等待一步骤 1 和步骤 3 完成,最后完成步骤 4。
11.什么是脏读?
脏读指的就是在不同的事务下,当前事务可以读到另外事务未提交的数据
,简单来说就是可以读到脏数据。
Time | 回话 A | 回话 B |
1 | set @@tx_isolation='read-uncommitted'; | |
2 | set @@tx_isolation='read-uncommitted'; | |
3 | begin; | |
4 | select * from t //得到一行 | |
5 | insert into t select 2; | |
6 | select * from t //得到二行 |
事务的隔离级别进行了更换,由默认的 REPEATABLE READ 换成了 READ UNCOMMITTED。因此在会话 A 中,在事务并没有提交的前提下,会话 B 中的两次 SELECT 操作取得了不同的结果,并且 2 这条记录是在会话 A 中并未提交的数据,即产生了脏读
,违反了事务的隔离性。脏读现象在生产环境中并不常发生,从上面的例子中就可以发现,脏读发生的条件是需要事务的隔离级别为 READ UNCOMMITTED
,而目前绝大部分的数据库都至少设置成 READ COMMITTED
。
脏读(Dirty read): 当一个事务正在访问数据并且对数据进行了修改,而这种修改还没有提交到数据库中,这时另外一个事务也访问了这个数据
,然后使用了这个数据。因为这个数据是还没有提交的数据,那么另外一个事务读到的这个数据是“脏数据”,依据“脏数据”所做的操作可能是不正确的。
12.什么是不可重复读?
不可重复读(Unrepeatable read):
指在一个事务内多次读同一数据
。在这个事务还没有结束时,另一个事务也访问该数据。那么,在第一个事务中的两次读数据之间,由于第二个事务的修改导致第一个事务两次读取的数据可能不太一样。这就发生了在一个事务内两次读到的数据是不一样的情况,因此称为不可重复读。
13.什么是幻读?
幻读(Phantom read)
:幻读与不可重复读类似。它发生在一个事务(T1)读取了几行数据,接着另一个并发事务(T2)插入了一些数据时。在随后的查询中,第一个事务(T1)就会发现多了一些原本不存在的记录
,就好像发生了幻觉一样,所以称为幻读。
14.如何解决幻读问题?
快照读和当前读:
快照读:
不加锁的非阻塞读,select当前读:
- select...lock in share mode;
- select...for update
- update、insert、delete
InnoDB 存储引擎默认的事务隔离级别是 REPEATABLE READ
,该隔离级别下,其采用 Next-Key Locking
的方式来进行加锁,在隔离级别为 READ COMMITTED
下,其仅采用 Record lock
进行加锁.
- 快照读 :由
MVCC
机制来保证不出现幻读。 - 当前读 : 使用
Next-Key Lock
进行加锁来保证不出现幻读,Next-Key Lock
是行锁(Record Lock)和间隙锁(Gap Lock)的结合,行锁只能锁住已经存在的行,为了避免插入新行,需要依赖间隙锁。
Next-Key Locking解决幻读问题整理:
- 幻读是连续读取同一个 sql,出现不同的结果;
- a 是主键,b 是辅助索引;
- 则查询 b=3 时,如果不采用临键锁,会读取到多条数据;
- 记录锁针对的是主键唯一的锁定,gap lock 间隙锁是范围锁,左开右开区间,无法阻止 b 等于其他值的插入;
- 如果是临键锁,既可以防止主键的重复,也可以用左闭右闭范围限定的 gap lock 间隙锁限定 b 的值;
15.什么是插入意向锁?
插入意向锁(Insert Intention Locks):
我们说一个事务在插入一条记录时需要判断一下插入位置是不是被别的事务加了 gap 锁( next-key 锁也包含 gap 锁),如果有的话,插入操作需要等待,直到拥有 gap 锁的那个事务提交。但是”InnoDB 规定事务在等待的时候也需要在内存中生成一个锁结构,表明有事务想在某个间隙中插入新记录,但是现在在等待。InnoDB 就把这种类型的锁命名为 Insert Intention Locks
,官方的类型名称为: LOCK_INSERT_INTENTION
,我们称为插入意向锁
。插入意向锁是一种 Gap 锁
,不是意向锁,在 insert 操作时产生。
插入意向锁是在插入一条记录行前,由 INSERT 操作产生的一种间隙锁。该锁用以表示插入意向,当多个事务在同一区间(gap) 插入位置不同的多条数据时,事务之间不需要互相等待。假设存在两条值分别为 4 和 7 的记录,两个不同的事务分别试图插入值为 5 和 6 的两条记录,每个事务在获取插入行上独占的(排他)锁前,都会获取(4, 7)之间的间隙锁,但是因为数据行之间并不冲突,所以两个事务之间并不会产生冲突(阻塞等待)。总结来说,插入意向锁的特性可以分成两部分:
- 插入意向锁是一种特殊的间隙锁,间隙锁可以锁定开区间内的部分记录。
- 插入意向锁之间互不排斥,所以即使多个事务在同一区间插入多条记录,只要记录本身(主键、唯一索引)不冲突,那么事务之间就不会出现冲突等待。
注意,虽然插入意向锁中含有意向锁三个字,但是它并不属于意向锁而属于间隙锁,因为意向锁是表锁而插入意向锁是行锁。
插入意向锁的生成时机:
每插入一条新记录,都需要看一下待插入记录的下一条记录上是否已经被加了间隙锁,如果已加间隙锁,那 Insert 语句会被阻塞,并生成一个插入意向锁 。
16.临键锁退化机制?
1.唯一索引的等值查询
- 当查询的记录是存在的,在用「唯一索引进行等值查询」时,next-key lock 会退化成「记录锁」。
- 当查询的记录是不存在的,在用「唯一索引进行等值查询」时,next-key lock 会退化成「间隙锁」。
2.唯一索引的范围查询
- next-key lock 不会退化
3.非唯一索引等值查询
- 当查询的记录存在时,除了会加 next-key lock 外,还额外加间隙锁,也就是会加两把锁。
- 当查询的记录不存在时,只会加 next-key lock,然后会退化为间隙锁,也就是只会加一把锁。
4.非唯一索引范围查询
- 普通索引范围查询,next-key lock 不会退化为间隙锁和记录锁。
17.如何预防数据库死锁?
死锁是指两个或两个以上的事务在执行过程中,因争夺锁资源而造成的一种互相等待的现象。若无外力作用,事务都将无法推进下去。解决死锁问题最简单的方式是不要有等待,将任何的等待都转化为回滚,并且事务重新开始。毫无疑问,这的确可以避免死锁问题的产生。然而在线上环境中,这可能导致并发性能的下降,甚至任何一个事务都不能进行。而这所带来的问题远比死锁问题更为严重,因为这很难被发现并且浪费资源。
解决死锁问题最简单的一种方法是超时,即当两个事务互相等待时,当一个等待时间超过设置的某一阈值时,其中一个事务进行回滚,另一个等待的事务就能继续进行。在 InnoDB 存储引擎中,参数 innodb_lock_wait_timeout
用来设置超时的时间。
超时机制虽然简单,但是其仅通过超时后对事务进行回滚的方式来处理,或者说其是根据 FIFO 的顺序选择回滚对象。但若超时的事务所占权重比较大,如事务操作更新了很多行,占用了较多的 undo log
,这时采用 FIFO 的方式,就显得不合适了,因为回滚这个事务的时间相对另一个事务所占用的时间可能会很多。
因此,除了超时机制,当前数据库还都普遍采用 wait-for graph(等待图)的方式来进行死锁检测。较之超时的解决方案,这是一种更为主动的死锁检测方式
。InnoDB 存储引擎也采用的这种方式。wait-for graph 要求数据库保存以下两种信息:
- 锁的信息链表
- 事务等待链表
在等待图中,事务 T1 指向 T2 边的定义为:
- 事务 T1 等待事务 T2 所占用的资源
- 事务 T1 最终等待 T2 所占用的资源,也就是事务之间在等待相同的资源,而事务 T1 发生在事务 T2 的后面
通过等待图可以发现存在回路(t1,t2),因此存在死锁
。通过上述的介绍,可以发现 wait-for graph 是一种较为主动的死锁检测机制,在每个事务请求锁并发生等待时都会判断是否存在回路,若存在则有死锁,通常来说 InnoDB 存储引擎选择回滚 undo 量最小的事务。
18.Mysql 发生死锁情况
在 MySQL 数据库中,死锁是指两个或多个事务相互等待对方持有的资源,导致它们无法继续执行,并且没有办法通过自动机制解决这种互相等待的情况。这种情况下,MySQL 将选择其中一个事务进行回滚,以解除死锁。
死锁发生的常见情况包括:
- 同时更新多个资源:如果多个事务同时尝试更新相同的数据行,而且更新操作涉及到对数据行的锁定,可能导致死锁。例如,事务 A 锁定了行 X,同时事务 B 锁定了行 Y,然后它们尝试更新对方所持有的资源,就可能出现死锁情况。
- 交叉依赖:如果事务 A 持有资源 X 并等待资源 Y,而事务 B 持有资源 Y 并等待资源 X,就会发生死锁。这种情况下,两个事务互相依赖对方持有的资源,导致死锁。
- 并发控制不当:如果数据库中的并发控制机制(如锁、事务隔离级别等)配置不当或实现有误,可能导致死锁的发生。
- 索引缺失:如果数据库表没有适当的索引,可能导致某些操作涉及大量行的扫描,增加了死锁的风险。
- 长时间的事务:如果某个事务持有锁的时间过长,而其他事务需要等待该锁,就可能出现死锁。
为了避免死锁,可以采取以下措施:
- 合理设计数据库表的索引,以减少锁冲突和提高查询性能。
- 尽量缩短事务的执行时间,减少事务持有锁的时间。
- 选择合适的事务隔离级别,根据应用的需求进行调整。
- 使用 MySQL 的死锁检测和解决机制,例如设置
innodb_deadlock_detect
参数为 ON,MySQL 将自动检测并回滚死锁事务。 - 在代码中使用合理的事务管理,确保事务提交或回滚的顺序不会导致死锁。
19.mysql 出现死锁
锁等待超时 Lock wait timeout exceeded; try restarting transaction,是当前事务在等待其它事务释放锁资源造成的
查看当前数据库的线程情况:
show full PROCESSLIST;
查看事务表:
再到 INNODB_TRX 事务表中查看,看 trx_mysql_thread_id 是否在 show full processlist 里面的 sleep 线程中(INNODB_TRX 表的 trx_mysql_thread_id 字段对应 show full processlist 中的 Id);如果在,就说明这个 sleep 的线程事务一直没有 commit 或者 rollback,而是卡住了,需要我们手动删除。
select * from information_schema.innodb_trx;
trx_mysql_thread_id:
将找到的 trx_mysql_thread_id 手动删除。
20.全局锁和表级锁?
给 mysql 添加全局锁
Flush tables with read lock;
释放
unlock tables;
表级别的共享锁
,也就是读锁;
lock tables t_student read;
表级别的独占锁
,也就是写锁;
lock tables t_stuent wirte;
unlock tables;
21.查看加锁信息?
select * from performance_schema.data_locks\G;
通过执行上述 sql,共加了两个锁,分别是:
- 表锁:X 类型的意向锁;
- 行锁:X 类型的间隙锁;
这里我们重点关注行锁,LOCK_TYPE
中的 RECORD
表示行级锁,而不是记录锁的意思,通过 LOCK_MODE
可以确认是 next-key 锁,还是间隙锁,还是记录锁:
- 如果 LOCK_MODE 为
X
,说明是 next-key 锁; - 如果 LOCK_MODE 为
X, REC_NOT_GAP
,说明是记录锁; - 如果 LOCK_MODE 为
X, GAP
,说明是间隙锁;
注意!插入意向锁名字里虽然有意向锁这三个字,但是它并不是意向锁,它属于行级锁,是一种特殊的间隙锁
。
插入意向锁与间隙锁的另一个非常重要的差别是:尽管「插入意向锁」也属于间隙锁,但两个事务却不能在同一时间内,一个拥有间隙锁,另一个拥有该间隙区间内的插入意向锁(当然,插入意向锁如果不在间隙锁区间内则是可以的)。所以,插入意向锁和间隙锁之间是冲突的。
22.InnoDB 分析表锁定
为了研究行锁,暂时将自动 commit 关闭,set autocommit = 0;
show status like '%innodb_row_lock%';
- Innodb_row_lock_current_waits:当前正在等待锁的数量
- Innodb_row_lock_time:等待总时长。从系统启动到现在一共等待的时间
- Innodb_row_lock_time_avg:平均等待时长。从系统启动到现在一共等待的时间
- Innodb_row_lock_time_max:最大等待时长。从系统启动到现在一共等待的时间
- Innodb_row_lock_waits:等待次数。从系统启动到现在一共等待的时间
23.for update 的加锁过程
#执行普通的sql语句
select * from t_user where age < 20;
select * from performance_schema.data_locks;
可以看到,输出结果是空,说明普通 select 的查询语句, Innodb 存储引擎不会为事务加任何锁。
当我们对数据库表进行 DML 和 DDL 操作的时候,MySQL 会给这个表加上 MDL 锁,即元数据锁,MDL 锁是 server 层实现的表级锁,适用于所有存储引擎。
- 对一张表进行增删查改操作(DML 操作)的时候,加的是 MDL 读锁;
- 对一张表进行表结构变更操作(DDL 操作)的时候,加的是 MDL 写锁;
之所以需要 MDL 锁,就是因为事务执行的时候,不能发生表结构的改变,否则就会导致同一个事务中,出现混乱的现象,如果当前有事务持有 MDL 读锁,DDL 操作就不能申请 MDL 写锁,从而保证表元数据的数据一致性。
我们的事物 A 执行了普通 select 查询语句,如果要看该事务持有的 MDL
锁,可以通过这条命令
select * from performance_schema.metadata_locks;
因此,我们常说的普通查询不加锁,其实指的是不加 Innodb 的行级锁,但实际上是需要持有 MDL 锁的。
总结:在执行 select … for update 语句的时候,会有产生 2 个表级别的锁:
- 一个是 Server 层表级别的锁:MDL 锁。事务在进行增删查改的时候,server 层申请 MDL 锁都是 MDL 读锁,而 MDL 读锁之间是相互兼容的,MDL 读锁只会和 MDL 写锁发生冲突,在对表结构进行变更操作的时候,才会申请 MDL 写锁。
- 一个是 Inoodb 层表级别的锁:意向锁。事务在进行增删改和锁定读的时候,inoodb 层会申请意向锁,意向锁不会和行级锁发生冲突,而且意向锁之间也不会发生冲突,意向锁只会和共享表锁(lock tables ... read)和独占表锁(lock tables ... write)发生冲突。
如果 select … for update 语句的查询条件没有索引字段的话,整张表都无法进行增删改了,从这个现象看,好像是把表锁起来了,但是并不是因为上面这两个表级锁的原因。
而是因为如果锁定读查询语句,没有使用索引列作为查询条件,导致扫描是全表扫描。那么,每一条记录的索引上都会加 next-key 锁(行级锁),这样就相当于锁住的全表,这时如果其他事务对该表进行增、删、改操作的时候,都会被阻塞。
24.加锁规则
加锁规则,包含了两个“原则”、两个“优化”和一个“bug”。
- 原则 1:加锁的基本单位是 next-key lock。希望你还记得,next-key lock 是前开后闭区间。
- 原则 2:查找过程中访问到的对象才会加锁。
- 优化 1:索引上的等值查询,给唯一索引加锁的时候,next-key lock 退化为行锁。
- 优化 2:索引上的等值查询,向右遍历时且最后一个值不满足等值条件的时候,next-key lock 退化为间隙锁。
- 一个 bug:唯一索引上的范围查询会访问到不满足条件的第一个值为止。
对于原则 1 说的:加锁的基本单位是 Next-Key 锁,意思是默认都是先加上 Next-Key,之后根据 2 个优化点选择性退化为行锁或间隙锁。
对于原则 2 说的:访问到的对象才会加锁,意思是如果直接索引覆盖到了,不需要回表,那么就不会对聚簇索引加锁。这样的话,其他事务就可以对聚簇索引进行操作,而不会阻塞。
三.Mysql 事务
1.事务的分类?
从事务理论的角度来说,可以把事务分为以下几种类型:
- 扁平事务(Flat Transactions)
- 带有保存点的扁平事务(Flat Transactions with Savepoints)
- 链事务(Chained Transactions)
- 嵌套事务(Nested Transactions)
- 分布式事务(Distributed Transactions)
2.什么是事务的 ACID?
ACID 属性:MySQL 是一个支持 ACID(原子性、一致性、隔离性、持久性)属性的数据库管理系统。这些属性确保了一致性。具体来说:
- 原子性(Atomicity):一个事务中的所有操作要么全部执行成功,要么全部失败回滚,不会出现部分执行的情况。
- 一致性(Consistency):事务执行前后数据库必须保持一致状态。
- 隔离性(Isolation):多个事务并发执行时,每个事务看起来好像是在独立的环境中执行,不会相互干扰。
- 持久性(Durability):一旦事务提交,其结果将永久保存在数据库中,即使系统故障也不会丢失。
实现方式:
原子性:
通过事务和 bin log 和 redo log 来保障一致性:
通过 undo log 和各种锁和事务来保障隔离性:
通过 undo log 和 mvcc 保障持久性:
通过 redo log 来保障
#查看提交模式
SELECT @@AUTOCOMMIT;
#是否开启自动提交
SHOW VARIABLES LIKE 'autocommit';
在 MySQL 中,AUTOCOMMIT
是一个系统变量,用于确定是否将每个 SQL 语句作为一个单独的事务自动提交。当AUTOCOMMIT
为 1 时,每个 SQL 语句都将作为一个独立的事务自动提交,即执行完即提交。当AUTOCOMMIT
为 0 时,需要手动使用COMMIT
语句提交事务或使用ROLLBACK
语句回滚事务。
3.mysql 事务隔离级别?
SQL 标准定义的四个隔离级别为:
- READ UNCOMMITTED (导致脏读)
- READ COMMITTED (导致幻读)
- REPEATABLE READ (默认使用,避免脏读和幻读)
- SERIALIZABLE (更高级别隔离,避免脏读和幻读)
#查看隔离级别
SELECT @@transaction_isolation;
InnoDB 存储引擎默认支持的隔离级别是 REPEATABLE READ
,但是与标准 SQL 不同的是,InnoDB 存储引擎在 REPEATABLE READ
事务隔离级别下,使用 Next-Key Lock 锁的算法,因此避免幻读的产生。这与其他数据库系统(如 Microsoft SQL Server 数据库)是不同的。所以说,InnoDB 存储引擎在默认的 REPEATABLE READ
的事务隔离级别下已经能完全保证事务的隔离性要求,即达到 SQL 标准的 SERIALIZABLE
隔离级别。
隔离级别越低,事务请求的锁越少或保持锁的时间就越短。这也是为什么大多数数据库系统默认的事务隔离级别是 READ COMMITTED
。
在 InnoDB 存储引擎中,可以使用以下命令来设置当前会话或全局的事务隔离级别:
SET
[GLOBAL|SESSION] TRANSACTION ISOLATION LEVEL
{
READ UNCOMMITTED
|READ COMMITTED
|REPEATABLE READ
|SERIALIZABLE
};
#设置全局
set global transaction isolation level 隔离级别名称;
#设置session
set session transaction isolation level 隔离级别;
#设置单词
set transaction isolation level 隔离级别;
在 SERIALIABLE
的事务隔离级别,InnoDB 存储引擎会对每个 SELECT 语句后自动加上 LOCK IN SHARE MODE
,即为每个读取操作加一个共享锁。因此在这个事务隔离级别下,读占用了锁,对一致性的非锁定读不再予以支持。
4.RR 和 RC 的区别?
"RR"和"RC"是在数据库中用于描述事务隔离级别的缩写:
- RR - Repeatable Read(可重复读): 在 RR 隔离级别下,一个事务在读取数据时会对其加锁,以防止其他事务修改这些数据。这意味着在一个事务内,多次读取同样的数据将得到相同的结果,即使其他事务对数据进行了修改。在 RR 隔离级别下,读取的数据是一致的,但可能导致其他事务的阻塞,因为锁定的数据在事务提交或回滚之前不能被其他事务访问。
- RC - Read Committed(读取已提交): 在 RC 隔离级别下,一个事务在读取数据时不会对其加锁,因此允许其他事务修改这些数据。在 RC 隔离级别下,读取的数据是已提交的数据,即其他事务已经对其进行了提交。这使得在 RC 隔离级别下,读取的数据可能不是一致的,因为其他事务可以在事务执行期间修改数据。RC 隔离级别通常比 RR 隔离级别具有更高的并发性,因为没有锁定数据的操作。
综上所述,RR 隔离级别提供了较高的数据一致性,但可能导致较多的锁冲突和阻塞,从而影响并发性能。而 RC 隔离级别提供了更高的并发性,允许其他事务修改数据,但可能导致读取的数据不一致。选择哪个隔离级别取决于具体的应用需求和对数据一致性和并发性的权衡。在大多数情况下,Read Committed 是一个常见的隔离级别,因为它提供了较好的性能和合理的一致性。
5.mysql 分布式事务?
InnoDB 存储引擎提供了对 XA 事务的支持,并通过 XA 事务来支持分布式事务的实现。分布式事务指的是允许多个独立的事务资源(transactional resources)参与到一个全局的事务中。事务资源通常是关系型数据库系统,但也可以是其他类型的资源。全局事务要求在其中的所有参与的事务要么都提交,要么都回滚,这对于事务原有的 ACID 要求又有了提高。另外,在使用分布式事务时,InnoDB 存储引擎的事务隔离级别必须设置 SERIALIZABLE
。
XA 事务允许不同数据库之间的分布式事务,如一台服务器是 MySQL 数据库的,另一台是 Oracle 数据库的,又可能还有一台服务器是 SQLServer 数据库的,只要参与在全局事务中的每个节点都支持 XA 事务。分布式事务可能在银行系统的转账中比较常见,如用户 David 需要从上海转 10000 元到北京的用户 Mariah 的银行卡中:
#Bank@Shanghai:
UPDATE account SET money=money-10000 WHERE user='David';
#Bank@Beijing
UPDATE account SET money=money+10000 WHERE user='Mariah';
在这种情况下,一定需要使用分布式事务来保证数据的安全。如果发生的操作不能全部提交或回滚,那么任何一个结点出现问题都会导致严重的结果。要么是 David 的账户被扣款,但是 Mariah 没收到,又或者是 David 的账户没有扣款,Mariah 却收到钱了。
XA 事务由一个或多个资源管理器(Resource Managers)、一个事务管理器(Transaction Manager)以及一个应用程序(Application Program)组成。
资源管理器:
提供访问事务资源的方法。通常一个数据库就是一个资源管理器。事务管理器:
协调参与全局事务中的各个事务。需要和参与全局事务的所有资源管理器进行通信。应用程序:
定义事务的边界,指定全局事务中的操作。
在 MySQL 数据库的分布式事务中,资源管理器就是 MySQL 数据库,事务管理器为连接 MySQL 服务器的
客户端。下图显示了一个分布式事务的模型。
分布式事务使用两段式提交(two-phase commit)的方式
。在第一阶段,所有参与全局事务的节点都开始准备(PREPARE),告诉事务管理器它们准备好提交了。在第二阶段,事务管理器告诉资源管理器执行 ROLLBACK 还是 COMMIT。如果任何一个节点显示不能提交,则所有的节点都被告知需要回滚。可见与本地事务不同的是,分布式事务需要多一次的 PREPARE 操作,待收到所有节点的同意信息后,再进行 COMMIT 或是 ROLLBACK 操作。
MySQL 数据库 XA 事务的 SQL 语法如下:
XA{START|BEGIN}xid[JOIN|RESUME]XAENDxid[SUSPEND[FORMIGRATE]]XAPREPARExid
XACOMMITxid[ONEPHASE]
XAROLLBACKxid
XARECOVER
6.mysql 自身有的分布式事务?
最为常见的内部 XA 事务存在于 bin log 与 InnoDB 存储引擎之间。由于复制的需要,因此目前绝大多数的数据库都开启了 bin log 功能。在事务提交时,先写二进制日志,再写 InnoDB 存储引擎的重做日志。对上述两个操作的要求也是原子的,即二进制日志和重做日志必须同时写入。若二进制日志先写了,而在写入 InnoDB 存储引擎时发生了宕机,那么 slave 可能会接收到 master 传过去的二进制日志并执行,最终导致了主从不一致的情况。
如果执行完 ①、② 后在步骤 ③ 之前 MySQL 数据库发生了宕机,则会发生主从不一致的情况。为了解决这个问题,MySQL 数据库在 bin log 与 InnoDB 存储引擎之间采用 XA 事务
。当事务提交时,InnoDB 存储引擎会先做一个 PREPARE 操作,将事务的 xid 写入,接着进行二进制日志的写入。
如果 innodb 存储引擎提交前,MySQL 数据库宕机了,那么 MySQL 数据库在重启后会先检查准备的 UXID 事务是否已经提交,若没有,则在存储引擎层再进行一次提交。
7.隐藏列
在内部,InnoDB 为存储的每行数据,增加了如下 3 个字段:
DB_TRX_ID
(6 字节):称为”事务 ID“,标记insert
或update
该行数据的最后一个事务的事务 ID。此外,delete
操作在 InnoDB 内部被视为update
。InnoDB 通过标记行中的特殊位(bit)来表示”已删除“。DB_ROLL_PTR
(7 字节):称为”回滚指针(roll pointer)“,用于指向 undo tablespace 中回滚段(rollback segment)的一条 undo log 记录。若数据行被更新,则该指针指向的 undo log 中包含重建更新之前该行数据所需的信息。回滚段中包含insert undo logs
和update undo logs
。Insert undo logs
只在事务回滚时需要,一旦事务提交就可以被丢弃(discarded )。update undo logs
除了事务回滚时需要之外,也用于构建 InnoDB 一致性读。在一致性读中,需要update undo logs
中的信息来构建早期版本的数据行。DB_ROW_ID
(6 字节):称为”行 ID“, 是 MySQL 实例中全局(单个表内,可能不连续)分配的单调递增的值。即作为无主键表的隐式主键。当表中存在仅由单个整型列
构成的PRIMARY KEY
或UNIQUE NOT NULL
索引时,则可在 SELECT 语句中使用_rowid
来引用索引列的值。即_rowid
实际为索引列的别名。
以上 3 个隐藏字段,可通过 ibd2sdi(MySQL 8.0 开始提供) 工具来查看。
8.显示_rowid
当表中存在仅由 单个整型列
构成的 PRIMARY KEY
或 UNIQUE NOT NULL
索引时,则 _rowid
隐藏列实际为索引列的引用。可在 SELECT 语句中使用 _rowid
来查询索引列的值。这种 _rowid
称为“显式_rowid”。
_rowid
需要表具有的 3 个必备要素:
1. 单列索引
2. 数据类型为整型
3. 索引类型为 `PRIMARY KEY` 或 `UNIQUE NOT NULL` 索引
以下示例中,可以通过 SELECT 语句直接查询的 _rowid,称为 ”显式 _rowid“。
## 1. 单列整型主键的表中,包含隐藏列 _rowid
mysql> CREATE TABLE t_pk(id INT PRIMARY KEY, name VARCHAR(32)) SELECT id, name FROM (VALUES ROW(1,'one'), ROW(2,'two')) AS v(id, name);
mysql> SELECT id, name, _rowid FROM t_pk;
+----+------+--------+
| id | name | _rowid |
+----+------+--------+
| 1 | one | 1 |
| 2 | two | 2 |
+----+------+--------+
2 rows in set (0.00 sec)
## 2. 单列整型非空唯一索引的表中,包含隐藏列 _rowid
mysql> CREATE TABLE t_unik(id INT NOT NULL, name VARCHAR(32), UNIQUE KEY(id)) SELECT id, name FROM (VALUES ROW(3,'three'), ROW(4,'four')) AS v(id, name);
mysql> SELECT id, name, _rowid FROM t_unik;
+----+-------+--------+
| id | name | _rowid |
+----+-------+--------+
| 3 | three | 3 |
| 4 | four | 4 |
+----+-------+--------+
2 rows in set (0.00 sec)
## 3. 不满足 `单个整型列` 构成的 `主键` 或 `非空唯一索引` 时,表中没有 _rowid 列。
mysql> CREATE TABLE t_c_unik(id VARCHAR(8) NOT NULL, name VARCHAR(32), UNIQUE KEY(id)) SELECT id, name FROM (VALUES ROW('a','three'), ROW('b','four')) AS v(id, name);
Query OK, 2 rows affected (0.02 sec)
Records: 2 Duplicates: 0 Warnings: 0
mysql> SELECT id, name, _rowid FROM t_c_unik;
ERROR 1054 (42S22): Unknown column '_rowid' in 'field list'
9.隐式_rowid
当表中未设置主键时,InnoDB 会为数据行生成一个 6 字节长度(最大为 $2^{48}$-1,即 281474976710655
)的无符号数(dictsys.row_id
)作为 _rowid
列的值,只是这个 _rowid
无法显式通过 SELECT 获取。此种情况的 _rowid
称为 ”隐式 _rowid“。此_rowid
也是表的隐式主键。
分配的无符号数由 InnoDB 变量 dictsys.row_id
在 MySQL 实例中全局分配(由所有无主键的表共享)。当自增到最大值 $2^{48}$-1 后,会重新复位从 0 开始。当表中出现相同的 _rowid
时,新插入的数据会根据 _rowid
覆盖掉原有的旧数据。现象类似于根据 _rowid
进行更新覆盖。
安装 gdb 工具,可用于修改全局变量 dictsys.row_id
的值。
- 当
dictsys.row_id = 1
,向无主键表插入数据时,InnoDB 将dictsys.row_id = 1
的值作为数据行的隐式主键,并逐行自增。因此,第一次插入的 3 行数据的_rowid
值分别为 1、2、3; - 当
dictsys.row_id = 281474976710656
(即 $2^{48}$), 已超过最大值 $2^{48}$-1。InnoDB 在插入数据时将dictsys.row_id
复位为 0。因此,第二次插入的 3 行数据的_rowid
值分别为 0、1、2; - 第二次插入的 3 行数据与第一次插入的 3 行数,
_rowid
出现了重复值(即 1、2)。于是,InnoDB 在第二次插入数据时,根据_rowid
的值覆盖了第一次插入的 2 行数据(图中蓝色箭头部分)。
10.自增 ID 用完怎么办?
指定了自增主键:
可以在创建表的时候,直接声明 AUTO_INCREMENT 的初始值。4294967295 是 2 的 32 次方减去 1。
具体来说:2^32 - 1 = 4294967296 - 1 = 4294967295
create table t1(id int unsigned auto_increment primary key) auto_increment = 4294967295;
当再次插入时,使用的自增 ID 还是 4294967295
,报主键冲突的错误,主键重复了。
insert into t1 values(null);
SQL 错误 [1062] [23000]: Duplicate entry '4294967295' for key 'chatbot_3.PRIMARY'
没有指定主键:
如果是这种情况,InnoDB 会自动帮你创建一个不可见的、长度为 6 字节的 row_id,而且 InnoDB 维护了一个全局的 dictsys.row_id,所以未定义主键的表都共享该 row_id,每次插入一条数据,都把全局 row_id 当成主键 id,然后全局 row_id 加 1
该全局 row_id 在代码实现上使用的是 bigint unsigned 类型,但实际上只给 row_id 留了 6 字节,这种设计就会存在一个问题:如果全局 row_id 一直涨,一直涨,直到 2 的 48 幂次-1 时,这个时候再+1,row_id 的低 48 位都为 0,结果在插入新一行数据时,拿到的 row_id 就为 0,存在主键冲突的可能性。
所以,为了避免这种隐患,每个表都需要定一个主键。
11.Update 语句执行过程
UPDATE 语句是用于修改数据库表中已有数据的 SQL 语句。以下是 UPDATE 语句执行的一般过程,具体细节可能根据数据库管理系统(DBMS)的不同而有所不同:
- 解析 SQL 语句:首先,数据库管理系统会解析 UPDATE 语句,以确定要修改的目标表,要更新的列以及更新条件。解析过程还包括验证表和列的存在以及权限检查,确保用户有权执行这个更新操作。
- 执行 WHERE 条件:如果 UPDATE 语句包含 WHERE 子句,数据库会执行这个子句,以确定哪些行将被更新。只有满足 WHERE 条件的行才会被更新。如果没有指定 WHERE 条件,UPDATE 将会影响表中的所有行,这通常是一个危险的操作,因此要谨慎使用。
- 锁定行:在开始更新之前,数据库通常会锁定满足 WHERE 条件的行,以确保在更新过程中没有其他会话可以修改这些行。这可以防止并发问题,如丢失更新或死锁。
- 执行更新:一旦行被锁定,数据库会执行实际的更新操作。这包括将新数据写入表中,用新值替换旧值。更新可以包括单个列或多个列,具体取决于 UPDATE 语句中的设置。
- 事务处理:更新通常是在事务内执行的,这意味着它们要么全部成功,要么全部失败。如果有任何问题(例如,约束违反、数据类型错误等),事务将回滚,不会更改数据。否则,如果一切正常,事务将提交,数据将永久性地更新。
- 释放锁:在事务完成后,数据库会释放行级锁,允许其他会话访问这些行。
总的来说,UPDATE 语句的执行过程包括解析 SQL 语句、确定要更新的行、锁定行以防止并发问题、执行实际的更新操作,然后通过事务来确保操作的原子性和一致性。这些步骤有助于维护数据库的完整性和数据的一致性。不同的数据库管理系统可能会有不同的优化和实现细节,但这是一般情况下的执行过程。
12.for update 的原理
SELECT ... FOR UPDATE
是一种在 SQL 数据库中常见的查询模式,用于锁定一或多行数据以便进行更新。当你执行一个 SELECT ... FOR UPDATE
查询时,数据库将对选中的行加锁,直到事务结束(提交或回滚)才会释放。这样做的目的是为了防止多个事务并发修改相同的数据,从而保证数据的一致性。
工作原理:
假设有一个简单的 users
表:
CREATE TABLE users (
id INT PRIMARY KEY,
username VARCHAR(50),
balance INT
);
现在假设你想要更新某个用户的 balance
字段。在这种情况下,你可能会使用以下查询:
SELECT balance FROM users WHERE id = 1 FOR UPDATE;
执行这个查询后,数据库将锁定 id = 1
的那一行。其他事务如果也试图对这一行进行 FOR UPDATE
查询或更新,将会被阻塞,直到该锁被释放。
然后,在同一事务中,你可以安全地更新这一行:
UPDATE users SET balance = balance - 100 WHERE id = 1;
最后,你可以提交这个事务,从而释放锁并使得其他事务可以访问这一行。
COMMIT;
注意事项:
- 死锁风险: 如果多个事务试图以不同的顺序锁定多行,可能会出现死锁。解决这个问题的一种方法是总是以相同的顺序锁定行。
- 隔离级别:
SELECT ... FOR UPDATE
的行为可能会因数据库的隔离级别而异。在某些隔离级别下,它可能不会如你所预期的那样工作。 - 数据库支持: 并非所有的数据库都支持
SELECT ... FOR UPDATE
。对于不支持的数据库,你需要使用其他机制来实现相同的效果。 - 锁的范围: 在一些数据库中,你可以通过
NOWAIT
或其他选项来控制锁的行为。例如,SELECT ... FOR UPDATE NOWAIT
将会立即报错,如果所选行已经被另一个事务锁定。 - 索引: 如果可能,使用索引来加速
SELECT ... FOR UPDATE
查询。如果没有合适的索引,数据库可能需要进行全表扫描,这将对性能产生严重影响。 - 只锁定需要的行: 为了提高性能和减少锁冲突,尽量只锁定你确实需要更新的行。
通过合理地使用 SELECT ... FOR UPDATE
,你可以在并发环境中更安全地进行数据修改。
四.性能调优
1.单表优化经验?
- 最佳左前缀法则:带头大哥不能死,中间兄弟不能断;带头大哥可跑路,老二也可跟着跑,其余兄弟只能死。
- like 百分加右边,加左边导致索引失效,解决方法:使用覆盖索引。
- 尽量使用
覆盖索引
,减少 select * - 使用
枚举或整数
代替字符串类型 VARCHAR
的长度只分配真正需要的空间字符串
不加单引号导致索引失效避免使用 NULL字段
,很难查询优化且占用额外索引空间,可以给 NULL 设置默认值- 用整型来存
IP
不做列运算
SELECT id WHERE age+1=10,任何对列的操作都将导致表扫描-对于连续数值
,使用 BETWEEN 不用 IN:SELECT id FROM t WHERE nUm BETWEEN 1 AND 5- 列表数据不要拿全表,要使用 LIMIT 来分页,每页数量也不要太大-
- OR 改写成 IN:OR 的效率是 n 级别,IN 的效率是 log(N)级别 in 的个数建议控制在 200 以内
- 尽量使用 TINYINT、SMALLINT、MEDIUM INT 作为整数类型而非 INT,如果非负则加上 UNSIGNED
2.SQL 优化流程
- 预发跑 sql explain
- 看一下行数对不对 不对可以用 analyze table t 矫正
- 添加索引 索引不一定是最优的 force index 强制走索引 不建议用 关注 type 类型
- 覆盖索引避免回表,不要*
- 最左前缀原则 按照索引定义的字段顺序写 sql
- 合理安排联合索引的顺序
- 5.6 之后 索引下推 减少回表次数
- 索引字段不要做函数操作,会破坏索引值的有序性,优化器会放弃走树结构
- 如果触发隐式转换 那也会走 cast 函数 会放弃走索引
- 可通过开启慢查询日志来找出较慢的 SQL
3.Mysql 在代码层的优化?
在业务代码中进行 MySQL 优化是提高数据库性能和响应时间的关键步骤之一。以下是一些您可以在业务代码中实施的 MySQL 优化方案:
- 合理的查询设计:
- 使用适当的索引:确保数据库表上的关键字段有合适的索引,以加快查询速度。
- 避免全表扫描:确保查询语句能够充分利用索引,以避免全表扫描和性能问题。
- 批量操作:
- 批量插入、更新和删除:在需要插入、更新或删除多行数据时,使用批量操作,减少单个操作的开销。
- 批量提交事务:将多个数据库操作放在一个事务中,然后进行批量提交,以减少事务的开销。
- 分页查询优化:
- 使用分页查询时,避免跳过大量行,可以根据分页条件和索引进行优化。
- 考虑使用游标(Cursor)来处理大量数据的分页查询,而不是一次性取出全部数据。
- 减少网络开销:
- 限制返回数据量:只选择所需的字段,避免不必要的数据传输。
- 避免重复查询:在一个请求内对同一数据进行多次查询,可以考虑合并为一个查询。
- 事务管理:
- 控制事务的范围:尽量缩小事务的范围,以减少锁定的时间和冲突。
- 避免长事务:长时间的事务可能导致锁定问题和资源争用,需要谨慎处理。
- 缓存:
- 缓存常用数据:使用缓存存储频繁访问的数据,减少对数据库的查询压力。
- 连接管理:
- 使用连接池:确保使用连接池来管理数据库连接,避免频繁地创建和关闭连接。
- 异步处理:
- 将一些不需要立即完成的操作异步处理,以减少前端请求的等待时间。
- 避免 N+1 查询问题:
- 在一对多关系中,避免在循环中执行多次查询,可以使用 JOIN 或者批量查询。
- 数据库分片:
- 对于大规模应用,考虑数据库分片以分散负载,但需要在业务代码中处理分片逻辑。
- 使用 Explain 分析:
- 使用 MySQL 的
EXPLAIN
语句来分析查询的执行计划,以识别潜在的性能问题。
- 定期维护:
- 定期清理无用数据、优化表结构、重新建立索引,以保持数据库的良好性能。
MySQL 优化是一个综合性的工作,需要根据具体的业务情况和性能问题来确定优化策略。持续的监控和性能测试可以帮助您了解优化的效果,并做出必要的调整。
4.深分页和浅分页
例如您的订单表数据量达到一定程度,例如 50 万条以上时,如果还是使用常规分页查询(例如:limit 470000,10 这样的查询)(一般页面端的分页控件有最后一页,如果点击这个按钮就会重现),查询速度会非常慢,会长达几秒或十几秒才能返回结果,这就是深分页问题。
MySQL 在执行 limit n,m 时,工作原理就是先读取前面 n 条记录,然后抛弃前 n 条,读后面 m 条想要的,所以 n 越大,偏移量越大,性能就越差。
5.带排序的分页查询优化
- 浅分页可以给 order by 字段添加索引
- 深分页可以给 order by 和 select 字段添加联合索引
- 可以通过手动回表,强制去走索引
- 从业务方着手,去限制他的分页查询或者修改前后端交互(将每页最后一条数据的 id 和分数传递过来)
分页查询
SELECT id FROM t LIMIT 10000, 10;
改为:
SELECT id FROM t WHERE id > 10000 LIMIT 10;
6.表分区优化?
mysql 只支持水平分区,不支持垂直分区,当前 MySQL 数据库支持以下几种类型的分区。
分区的类型:
- RANGE 分区:基于属于一个给定连续区间的列值,把多行分配给分区
- LIST 分区:类似于按 RANGE 分区,区别在于 LIST 分区是基于列值匹配一个离散值集合中的某个值来进行选择
- HASH 分区:基于用户定义的表达式的返回值来进行选择的分区,该表达式使用将要插入到表中的这些行的列值进行计算。这个函数可以包含 MySQL 中有效的、产生非负整数值的任何表达式
- KEY 分区:类似于按 HASH 分区,区别在于 KEY 分区只支持计算一列或多列,且 MySQL 服务器提供其自身的哈希函数。必须有一列或多列包含整数值
不论创建何种类型的分区,如果表中存在主键或唯一索引时,分区列必须是唯一索引的一个组成部分.如果建表时没有指定主键,唯一索引,可以指定任何一个列为分区列。分区中对 NULL 值的处理为,放在最左边,相当于最小。
7.使用函数一定影响性能?
EXPLAIN
SELECT MAX(sales)
FROM sales_amount_02;
#Extra字段显示为Select tables optimized away
表示 innodb 已经在系统表中把 max 存储起来了,不用走索引再查,所以使用函数不一定对性能有坏的影响。
8.count(*)和 count(1)性能?
count(\*)和 count(1)比较:
- myisam 中有表直接存储,汇总 count 的值会存储起来。
- 官方文档,在 innodb 存储引擎中,count(1)与 count(*)性能是一样的
- innodb: count(*) = count(1) > count(主键) > count(col)
- myisam: count(*) >= count(1) > count(col)
9.小表驱动大表?
类似循环嵌套,小的在外层,大的在内层。如果小的循环在外层,对于数据库连接来说就只连接 5 次,进行 5000 次操作,如果 1000 在外,则需要进行 1000 次数据库连接,从而浪费资源,增加消耗。这就是为什么要小表驱动大表。
in 和 exists 的原理也是基于小表驱动大表。优化原则:
小表驱动大表,即小的数据集驱动大的数据集。
#当B表的数据集必须小于A表的数据集时,用in优于exists。
select * from A where id in (select id from B)
等价于:
for select id from B
for select * from A where A.id = B.id
#当A表的数据集系小于B表的数据集时,用exists优于in。
select * from A where exists (select 1 from B where B.id = A.id)
等价于
for select * from A
for select * from B where B.id = A.id
10.Show Profile
Show Profile 是 mysql 提供的可以用来分析当前会话中 sql 语句执行的资源消耗情况的工具,可用于 sql 调优的测量。默认情况下处于关闭状态,并保存最近 15 次的运行结果。
开启 Show Profile 功能,默认该功能是关闭的,使用前需开启。
select *from tb_emp_bigdata group by id%10 limit 150000;
select *from tb_emp_bigdata group by id%20 order by 5;
-- 使用show profile对sql语句进行诊断。
-- Query_ID为#3步骤中show profiles列表中的Query_ID
show profile cpu,block io for query Query_ID;
show profile 的常用查询参数。
- ①ALL:显示所有的开销信息。
- ②BLOCK IO:显示块 IO 开销。
- ③CONTEXT SWITCHES:上下文切换开销。
- ④CPU:显示 CPU 开销信息。
- ⑤IPC:显示发送和接收开销信息。
- ⑥MEMORY:显示内存开销信息。
- ⑦PAGE FAULTS:显示页面错误开销信息。
- ⑧SOURCE:显示和 Source_function,Source_file,Source_line 相关的开销信息。
- ⑨SWAPS:显示交换次数开销信息。
日常开发需注意的结论。
- ①converting HEAP to MyISAM:查询结果太大,内存不够,数据往磁盘上搬了。
- ②Creating tmp table:创建临时表。先拷贝数据到临时表,用完后再删除临时表。
- ③Copying to tmp table on disk:把内存中临时表复制到磁盘上,危险!!!
- ④locked。
如果在 show profile 诊断结果中出现了以上 4 条结果中的任何一条,则 sql 语句需要优化。
11.什么是 idel conn?
在 MySQL 中,"idel conn"是指空闲连接(idle connections),也被称为闲置连接或空闲会话。这是指已经建立的与 MySQL 数据库服务器的连接,但目前没有进行任何数据库操作或查询的连接。
当应用程序与 MySQL 数据库建立连接后,连接会一直保持打开状态,即使在一段时间内没有进行任何数据库操作。这种情况下,连接就会被认为是空闲连接。
空闲连接可能会对数据库服务器的性能产生负面影响,因为每个连接都会占用一定的资源,包括内存和处理器资源。如果有大量的空闲连接积累,它们将占用宝贵的资源,并可能导致数据库性能下降。
为了管理空闲连接,通常会采取以下措施:
- 连接池管理:使用连接池来管理数据库连接,连接池可以在需要时分配连接,并在连接不再使用时将其放回池中。这样可以避免频繁地打开和关闭连接,提高性能并减少空闲连接的数量。
- 超时设置:通过设置连接的超时时间,可以确保空闲连接在一段时间内没有被使用后自动关闭。这样可以释放资源并减少空闲连接的数量。
- 监控和优化:定期监控数据库服务器的连接数和性能指标,识别并优化可能导致空闲连接过多的瓶颈或性能问题。
通过合理管理和优化空闲连接,可以提高数据库服务器的性能和资源利用率,并确保连接数与实际需求相匹配,从而提供更好的数据库服务。
12.索引负优化
SELECT * from student s where age < 17 and name ='zhangsan12' and create_time < '2023-01-17 10:23:08' order by age LIMIT 2
在MySQL
中LIMIT
与ORDER BY
是特殊的组合,尤其是当ORDER BY
中的存在BTREE
索引的情况下。
普通的查询是根据条件进行筛选,然后在结果集中排序,然后获取LIMIT
条数的数据,但是在具备上述条件的特殊 sql 中执行逻辑是这样的,根据ORDER BY
字段的 B+树索引来查找满足条件的数据,直到凑满LIMIT
设定的数值为止,这就存在一个问题,在结果集中的数据大于LIMIT
的场景下,这个性能固然是非常棒的,但是如果最后的结果集中的数据小于LIMIT
,就会存在永远凑不满的情况,所以最终这个MySQL
的性能优化就会变成全表扫描的“负优化”。
13.内存低但 cpu 高的原因?
内存使用比较低,cpu使用比较高:
MySQL 产生较高 CPU 负载可能是由于大量查询请求
的产生导致的,一些复杂的查询语句可能会导致 SQL 优化失败,导致服务器需要耗费较长时间处理查询请求,从而导致 CPU 占用率较高。因此,对查询语句进行优化是减少 MySQL CPU 占用率的首要措施。
不恰当的MySQL配置
也可能导致 CPU 占用率的上升,例如将缓存池
设得过小
,每次查询都要从硬盘
读取数据,这样就容易导致CPU
占用率增加。而如果将缓存池
设得太大,虽然查询速度会更快,但也会增加内存负载,产生其他问题。
14.如何存储 IP 地址?
可以将 IP 地址转换成整形数据存储,性能更好,占用空间也更小。
MySQL 提供了两个方法来处理 ip 地址
INET_ATON()
: 把 ip 转为无符号整型 (4-8 位)INET_NTOA()
:把整型的 ip 转为地址
插入数据前,先用 INET_ATON()
把 ip 地址转为整型,显示数据时,使用 INET_NTOA()
把整型的 ip 地址转为地址显示即可。
15.对身份证做前缀索引?
- 前面 6 位是区号,重复的概率是很大的,因此如果要在做前缀索引的话,至少是要 12 位的。但是这样的浪费了太多空间,一个数据页存放的数据就变少了。
- 存储身份证的时候倒过来,这样后 6 位的区分度就很高了。
- 数据类型选择:身份证号码是一个固定长度的字符串,通常为 18 位,所以可以选择适当的数据类型来存储。推荐使用 CHAR(18)或 VARCHAR(18)来存储身份证号码。
- 索引:如果身份证号码是用于查询和检索的字段,可以为该字段创建索引。索引可以大大提高查询效率,尤其是在大数据量的情况下。
- 唯一性约束:考虑将身份证号码设为唯一性约束,这样可以确保数据库中不会存在重复的身份证号码。
- 数据校验:在应用层对输入的身份证号码进行校验,确保只有合法的身份证号码才能进入数据库。这可以防止无效或错误的数据污染数据库。
- 数据加密:如果安全性要求较高,可以考虑对身份证号码进行加密存储。这样即使数据库被未经授权的访问,也不会泄露敏感信息。
- 数据分区:如果数据库中的数据量很大,可以考虑将数据分区。将身份证号码的相关数据放在单独的分区中,可以提高查询效率和维护性。
- 压缩存储:如果身份证号码的数据量很大,可以考虑使用压缩算法来存储数据,减少数据库占用空间。
- 有限长度字段:如果你知道身份证号码的前几位是有规律的,可以将其拆分为两个字段,一个存储前几位,一个存储后几位,这样可以节省空间并提高查询效率。
16.批量插入优化?
问 MySQL 多条记录插入,不准拼接成一条记录,不准工具 orm 啥的批量插入,让设计方案?
使用 Java 中的 PreparedStatement 和 addBatch 方法批量插入多条记录到 MySQL 数据库,而不使用拼接 SQL 字符串,可以按照以下步骤进行操作:
- 创建连接和 PreparedStatement: 首先,创建与数据库的连接并准备一个 PreparedStatement 对象,该对象包含插入语句,并使用占位符代替实际的值。
Connection connection = DriverManager.getConnection("jdbc:mysql://your_database_url", "username", "password");
String insertQuery = "INSERT INTO your_table_name (column1, column2, column3) VALUES (?, ?, ?)";
PreparedStatement preparedStatement = connection.prepareStatement(insertQuery);
- 为多条记录设置参数并添加到批处理: 然后,为每条记录设置参数并将它们添加到 PreparedStatement 的批处理中,而不是执行单独的 SQL 语句。
preparedStatement.setString(1, value1_1);
preparedStatement.setString(2, value1_2);
preparedStatement.setString(3, value1_3);
preparedStatement.addBatch();
preparedStatement.setString(1, value2_1);
preparedStatement.setString(2, value2_2);
preparedStatement.setString(3, value2_3);
preparedStatement.addBatch();
// 添加更多记录...
- 执行批处理: 一旦您添加了所有记录到批处理中,就可以执行批处理操作。
preparedStatement.executeBatch();
- 关闭资源: 最后,记得关闭 PreparedStatement 和数据库连接。
preparedStatement.close();
connection.close();
这种方法允许您批量插入多条记录,而不必手动拼接 SQL 字符串,从而提高了性能和安全性。此外,使用占位符可以防止 SQL 注入攻击。