InnoDB索引允许NULL对性能有影响吗(1)

简介: InnoDB索引允许NULL对性能有影响吗

阅读目录

0. 初始化测试表、数据1. 问题1:索引列允许为NULL,对性能影响有多少 结论1,存储大量的NULL值,除了计算更复杂之外,数据扫描的代价也会更高一些2. 问题2:辅助索引需要MVCC多版本读的时候,为什么需要依赖聚集索引 结论2,辅助索引中不存储DB_TRX_ID,需要依托聚集索引实现MVCC3. 问题3:为什么查找数据时,一定要读取叶子节点,只读非叶子节点不行吗 结论3,在索引树中查找数据时,最终一定是要读取叶子节点才行4. 问题4:索引列允许为NULL,会额外存储更多字节吗 结论4,定义列值允许为NULL并不会增加物理存储代价,但对索引效率的影响要另外考虑5. 几点总结6. 延伸阅读

本文开始之前,有几篇文章建议先复习一下

接下来,我们一起测试验证关于辅助索引的几个特点。

0. 初始化测试表、数据

测试表结构如下:

[root@yejr.run]> CREATE TABLE `t_sk` (
  `id` int(10) unsigned NOT NULL AUTO_INCREMENT,
  `c1` int(10) unsigned NOT NULL,
  `c2` int(10) unsigned NOT NULL,
  `c3` int(10) unsigned NOT NULL,
  `c4` int(10) unsigned NOT NULL,
  `c5` datetime NOT NULL,
  `c6` char(20) NOT NULL,
  `c7` varchar(30) NOT NULL,
  `c8` varchar(30) NOT NULL,
  `c9` varchar(30) NOT NULL,
  PRIMARY KEY (`id`),
  KEY `k1` (`c1`)
) ENGINE=InnoDB;

除了主键索引外,还有个 c1 列上的辅助索引。

mysql_random_data_load 灌入50万测试数据。

1. 问题1:索引列允许为NULL,对性能影响有多少



把辅助索引列 c1 修改为允许NULL,并且随机更新5万条数据,将 c1 列设置为NULL

[root@yejr.run]> alter table t_sk modify c1 int unsigned;


[root@yejr.run]> update t_sk set c1 = NULL order by rand() limit 50000;
Query OK, 50000 rows affected (2.83 sec)
Rows matched: 50000 Changed: 50000 Warnings: 0

#随机1/10为null
[root@yejr.run]> select count(*) from t_sk where c1 is null;
+----------+
| count(*) |
+----------+
| 50000 |
+----------+



好,现在观察辅助索引的索引数据页结构。

[root@yejr.run]# innblock test/t_sk.ibd scan 16
...
Datafile Total Size:100663296
===INDEX_ID:46 --聚集索引(主键索引)
level2 total block is (1) --根节点,层高2(共3层),共1个page
block_no: 3,level: 2|*|
level1 total block is (5) --中间节点,层高1,共5个page
block_no: 261,level: 1||block_no: 262,level: 1||block_no: 263,level: 1|*|
block_no: 264,level: 1||block_no: 265,level: 1||
level0 total block is (5020) --叶子节点,层高0,共5020个page
block_no: 5,level: 0||block_no: 6,level: 0||block_no: 7,level: 0|*|
...
===INDEX_ID:47 --辅助索引
level1 total block is (1) --根节点,层高1(共2层),共1个page
block_no: 4,level: 1|*|
level0 total block is (509) --叶子节点,层高0,共509个page
block_no: 18,level: 0||block_no: 19,level: 0||block_no: 31,level: 0|*|
...



观察辅助索引的根节点里的数据

[root@yejr.run]# innodb_space -s ibdata1 -T test/t_sk -p 4 page-dump
...
records:
{:format=>:compact,
:offset=>126, --第一条记录
:header=>
{:next=>428,
:type=>:node_pointer,
:heap_number=>2,
:n_owned=>0,
:min_rec=>true, --min_rec表示最小记录
:deleted=>false,
:nulls=>["c1"],
:lengths=>{},
:externs=>[],
:length=>6},
:next=>428,
:type=>:secondary,
:key=>[{:name=>"c1", :type=>"INT UNSIGNED", :value=>:NULL}], --对应c1列值为NULL
:row=>[{:name=>"id", :type=>"INT UNSIGNED", :value=>9}], --对应id=9
:sys=>[],
:child_page_number=>18, --指向叶子节点 pageno = 18
:length=>8}
...
{:format=>:compact,
:offset=>6246, --最后一条记录(next=>112,指向supremum)
:header=>
{:next=>112,
:type=>:node_pointer,
:heap_number=>346,
:n_owned=>0,
:min_rec=>false,
:deleted=>false,
:nulls=>[],
:lengths=>{},
:externs=>[],
:length=>6},
:next=>112,
:type=>:secondary,
:key=>[{:name=>"c1", :type=>"INT UNSIGNED", :value=>2142714688}], --对应c1=2142714688
:row=>[{:name=>"id", :type=>"INT UNSIGNED", :value=>73652}], --对应id=73652
:sys=>[],
:child_page_number=>2935, --指向叶子节点2935
:length=>12}



经过统计,根节点中c1列值为NULL的记录共有33条,其余476条是c1列值为非NULL,共509条记录。

叶子节点中,每个page大约可以存储1547条记录,共有5万条记录值为NULL,因此需要至少33个page来保存(ceiling(50000/1547) = 33)。

看下这个SQL的查询计划

[root@yejr.run]> desc select count(*) from t_sk where c1 is null\G
1. row **
id: 1
select_type: SIMPLE
table: t_sk
partitions: NULL
type: ref
possible_keys: k1
key: k1
key_len: 5
ref: const
rows: 99112
filtered: 100.00
Extra: Using where; Using index



从上面的输出中,我们能看到,当索引列设置允许为NULL时,是会对其纳入索引统计信息,并且值为NULL的记录,都是存储在索引树的最左边。

接下来,跑几个SQL查询。



SQL1,统计所有NULL值数量

[root@yejr.run]> select count(*) from t_sk where c1 is null;
+----------+
| count(*) |
+----------+
| 50000 |
+----------+



查看slow log

InnoDB_pages_distinct: 34
...
select count(*) from t_sk where c1 is null;

共需要扫描34个page,根节点(1)+叶子节点(33),正好34个page。

备注:需要用Percona版本才能在slow query log中有InnoDB_pages_distinct信息。



SQL2, 查询 c1 is null

[root@yejr.run]> select id,c1 from t_sk where c1 is null limit 1;
+------+------+
| id | c1 |
+------+------+
| 9607 | NULL |
+------+------+

查看slow log

InnoDB_pages_distinct: 12
...
select id,c1 from t_sk where c1 is null limit 1;




            </div>
相关文章
|
存储 关系型数据库 MySQL
InnoDB索引允许NULL对性能有影响吗(3)
InnoDB索引允许NULL对性能有影响吗
|
存储 SQL 关系型数据库
InnoDB索引允许NULL对性能有影响吗(1)
InnoDB索引允许NULL对性能有影响吗
101 0
|
存储 SQL 关系型数据库
InnoDB索引允许NULL对性能有影响吗(2)
InnoDB索引允许NULL对性能有影响吗
|
3天前
|
关系型数据库 Serverless 分布式数据库
高峰无忧,探索PolarDB PG版Serverless的弹性魅力
在数字经济时代,数据库成为企业命脉,面对爆炸式增长的数据,企业面临管理挑战。云原生和Serverless技术革新数据库领域,PolarDB PG Serverless作为阿里云的云原生数据库解决方案,融合Serverless与PostgreSQL,实现自动弹性扩展,按需计费,降低运维成本。它通过计算与存储分离技术,提供高可用性、灾备策略和简化运维。PolarDB PG Serverless智能应变业务峰值,实时监控与调整资源,确保性能稳定。通过免费体验,用户可观察其弹性性能和价格力,感受技术优势。
|
12天前
|
Kubernetes 安全 Devops
【云效流水线 Flow 测评】驾驭云海:五大场景下的云效Flow实战部署评测
云效是一款企业级持续集成和持续交付工具,提供免费、高可用的服务,集成阿里云多种服务,支持蓝绿、分批、金丝雀等发布策略。其亮点包括快速定位问题、节省维护成本、丰富的企业级特性及与团队协作的契合。基础版和高级版分别针对小型企业和大规模团队,提供不同功能和服务。此外,云效对比Jenkins在集成阿里云服务和易用性上有优势。通过实战演示了云效在ECS和K8s上的快速部署流程,以及代码质量检测和AI智能排查功能,展示了其在DevOps流程中的高效和便捷,适合不同规模的企业使用。本文撰写用时5小时,请各位看官帮忙多多支持,如有建议也请一并给出,您的建议能帮助我下一篇更加出色。
136105 16
|
13天前
|
存储 缓存 监控
你的Redis真的变慢了吗?性能优化如何做
本文先讲述了Redis变慢的判别方法,后面讲述了如何提升性能。
102160 2
|
13天前
|
机器学习/深度学习 并行计算 算法
Transformer 一起动手编码学原理
学习Transformer,快来跟着作者动手写一个。
94232 2
|
12天前
|
存储 SQL Apache
阿里云数据库内核 Apache Doris 基于 Workload Group 的负载隔离能力解读
阿里云数据库内核 Apache Doris 基于 Workload Group 的负载隔离能力解读
阿里云数据库内核 Apache Doris 基于 Workload Group 的负载隔离能力解读
|
17天前
|
人工智能 弹性计算 算法
一文解读:阿里云AI基础设施的演进与挑战
对于如何更好地释放云上性能助力AIGC应用创新?“阿里云弹性计算为云上客户提供了ECS GPU DeepGPU增强工具包,帮助用户在云上高效地构建AI训练和AI推理基础设施,从而提高算力利用效率。”李鹏介绍到。目前,阿里云ECS DeepGPU已经帮助众多客户实现性能的大幅提升。其中,LLM微调训练场景下性能最高可提升80%,Stable Difussion推理场景下性能最高可提升60%。
|
13天前
|
存储 弹性计算 Cloud Native
1 名工程师轻松管理 20 个工作流,创业企业用 Serverless 让数据处理流程提效
为应对挑战,语势科技采用云工作流CloudFlow和函数计算FC,实现数据处理流程的高效管理与弹性伸缩,提升整体研发效能。
64686 2