10个索引失效的坑,你踩中几个

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
云数据库 RDS PostgreSQL,高可用系列 2核4GB
简介: 10个索引失效的坑,你踩中几个

前言


索引可以用来提高查询性能,这个大家都知道。但是很多时候,明明有索引了,但查询还是很慢,用执行计划一看发现没有走索引,这时候你可能懵逼了。 其实关键,你对使用索引的细节不够了解,本文将带你深入分析索引失效的底层原理,然后通过几个索引失效的场景进行加强,相信再也不用担心为什么你的SQL慢了。

1671198812662.jpg


索引失效原理


可能大家多多少少都听过,查询没遵循最左前缀法则、范围查询的右边会导致索引失效等等,但是有想过为什么吗?


基于索引查询流程


谈到索引失效的原理前,我们需要先弄明白MySQL是怎么利用索引去查询数据的。

索引的底层数据结构是B+树,如果对于这块内容不了解的,强烈建议大家先阅读:一步步带你设计MySQL索引数据结构

数据准备:

一张用户表user, 数据如下:

id name age sex
1 a 18
2 b 8
3 a 16
4 b 8
5 c 5
6 e 6
  • id是主键,建立聚簇索引
  • 在name和age上建立了联合索引,idx_name_age

最终得到的索引如下图所示:

1671198829347.jpg

  • 聚簇索引中的叶子节点存放整行数据,同时数据根据id是从小到大排序。
  • 联合索引中的叶子节点存放了name, age,id的数据,其中数据是按照name和age组合生成的结果从小到大排序。
  • 注意我这里的B+树只有两层,实际情况一般会有3~4层。

现在如果要执行select * from user where name='a' and age = 8语句,它的整个查询执行流程是怎么样的?

  1. MySQL会把根目录节点所在页加载到内存中,因为是排好序了,根据'(a,8)'通过二分法快速找到它的下一层目录节点所在的页。
  2. MySQL再次把下一层目录节点所在的页加载到内存中,通过二分法找到对应的页。
  3. 最终找到叶子节点,得到的它的主键id。
  4. 然后根据主键id回到聚簇索引的B+树种,按照上面类似的流程再次定位到具体的行数据。这个过程也叫做回表。


失效原因分析


前面分析了一个基于索引进行查询的执行流程,简单来说,它是拿着你索引字段的查询值去B+树中匹配,快速的定位它所在的数据行。

那如果我们的查询值,不是按照B+树中存储的顺序去查,那MySQL显然就无法通过索引去快速查找了,直接上例子。

例子: 查找select * from user where age = 8

因为联合索引B+树中的顺序是根据先对name排序,其次在name确定的情况下,在name下对age排序,所以age=8可能出现在任何一个目录节点中。现在name都没有,MySQL就无法快速通过二分法查找了,难不成让它对B+树中的每个节点,那我还不如直接全表查询呢。

同理,like 'aaaa%' 支持索引, like '%aaaa'不支持,因为like 'aaaa%' 前面部分是确定的,可以利用B+树去搜索。

这也就是我们通常说的 “最左前缀法则”


其他注意点


是不是用上索引,最终都是优化器说了箅。优化器是基于什么的优化器?基于cost开销(CostBaseOptimizer),它不是基于规则(Rule_BasedOptimizer),也不是基于语义。怎么样开销小就怎么来。另外,SQL语句是否使用索引,跟数据库版本、数据量、数据选择度都有关系。


索引失效情况


准备数据:

CREATE TABLE `student` (
    `id` INT(11) NOT NULL AUTO_INCREMENT,
    `stuno` INT NOT NULL ,
    `name` VARCHAR(20) DEFAULT NULL,
    `age` INT(3) DEFAULT NULL,
    `classId` INT(11) DEFAULT NULL,
    PRIMARY KEY (`id`)
    #CONSTRAINT `fk_class_id` FOREIGN KEY (`classId`) REFERENCES `t_class` (`id`)
) ENGINE=INNODB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8;


1. 不遵守最左前缀法则索引失效


存在联合索引:

CREATE INDEX idx_age_classid_name ON student(age,classId,name);

例子:没有走索引

网络异常,图片无法展示
|

  • 联合索引的顺序是age, classId, name, where条件中没有calssId, 不满足最左前缀法则,不走索引。
  • 注意一点,这里的最左前缀匹配是只要在where中有对应的索引查询,和顺序无关,因为MySQL优化器会优化顺序。


2. 范围条件右边的列索引失效


存在联合索引:

CREATE INDEX idx_age_classid_name ON student(age,classId,name);

例子:

正常情况下:

1671198861391.jpg

范围查询> :

1671198867706.jpg

  • 范围查询右边的列不能使用索引,比如上图的name。针对的范围索引有>,<等, 主要是因为classId无法确定,所以name字段在B+树中的查找无法确定导致无法走索引。
  • 实践发现,使用>=, <=, between等范围查找不会导致索引失效,如果谁知道,可以在评论区留言下。

1671198874593.jpg


3. 函数、计算导致索引失效


存在索引:

CREATE INDEX idx_name ON student(NAME);

例子:

1671198884174.jpg

  • 原因也很简单,因为对字段用了函数以后得到的值无法确定,就无法和B+树种的索引结构比较,同理对索引字段进行计算。


4. 类型转换导致索引失效


存在索引:

CREATE INDEX idx_name ON student(NAME);

例子:

1671198896715.jpg


  • name是varchar类型,和数值类型123比较,实际上MySQL会通过函数进行隐式处理,相当于转换成where CAST(name AS signed int) = 123


5. 不等于可能导致索引失效


存在索引:

CREATE INDEX idx_name ON student(NAME);

例子:

1671198908973.jpg

  • B+树中判断不等于的情况,时间复杂度是O(n),如果查找的列不在索引树上,也就是不满足覆盖索引的情况,MySQL会不走索引,直接全表扫描。


6. is not null可能导致索引失效


存在索引:

CREATE INDEX idx_name ON student(NAME);

例子:

1671198927542.jpg


  • 原理类似前面的不等于情况,所以在平时的开发过程中,我们尽量设置字段为Not Null,比如可以用0等特殊值表示null 的情况。
  • 当然,is null的情况是走索引的。


7. like以通配符%开头导致索引失效


存在索引:

CREATE INDEX idx_name ON student(NAME);

例子:

1671198940071.jpg


  • 因为查询值的前面部分无法确定,无法在B+树中匹配


8. OR 前后存在非索引的列,索引失效


存在索引:

CREATE INDEX idx_name ON student(NAME);

例子:

1671198957339.jpg


  • 因为age没有建立索引,有因为用or连接,需要全表扫描,所有name字段走索引没有任何意义了。


9. 数据分布导致索引失效


表中的字段很集中,比如性别,这时候MySQL评估使用索引比全表更慢,则不使用索引。有一种说法是当查询的数据量超过全表的30%,就不再走索引,而直接全表扫描。


10. 隐式字符编码转换导致索引失效


统一使用utf8mb4兼容性更好,统一字符集可以避免由于字符集转换产生的乱码。不同的字符集进行比较前需要进行转换会造成索引失效。


总结


本文讲解了索引失效的深层次原因,以及常见的一些索引失效的情况,大家可以反查下项目中的SQL, 是否有踩雷的。如果本文对你有帮助的话,请留下一个赞吧。

相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。 &nbsp; 相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情:&nbsp;https://www.aliyun.com/product/rds/mysql&nbsp;
目录
相关文章
|
存储 前端开发 安全
GET 和 POST 请求:理解它们之间的区别和适用场景
GET 和 POST 请求:理解它们之间的区别和适用场景
|
SQL 缓存 NoSQL
接口的幂等性设计和防重保证,详细分析幂等性的几种实现方法
本篇文章详细说明了幂等性,解释了什么是幂等性,幂等性的使用场景,讨论了幂等和防重的概念。分析了幂等性的情况以及如何设计幂等性服务。阐述了幂等性实现防重的几种策略,包括乐关锁,防重表,分布式锁,token令牌以及支付缓冲区。
8446 0
接口的幂等性设计和防重保证,详细分析幂等性的几种实现方法
|
关系型数据库 MySQL Java
Java 最常见的面试题:mysql 的内连接、左连接、右连接有什么区别?
Java 最常见的面试题:mysql 的内连接、左连接、右连接有什么区别?
|
Linux API 内存技术
Linux Kernel中AEP的现状和发展
AEP简介AEP是Intel推出的一种新型的非易失Optane Memory设备,又被称作Apache Pass,所以一般习惯称作AEP。在这之前也有类似的设备称作NVDIMM或PMEM,目前Linux创建的AEP设备节点也是叫做pmem(如/dev/pmem0),所以本文中NVDIMM或PMEM都指AEP。
4802 0
抖音直播间刷屏打字发言脚本,全自动弹幕插件发广告插件,按键精灵智能防风控版
这是一款用于直播间批量发送弹幕信息的插件源码,可实现自动刷屏、虚拟欢迎与持续点赞功能。通过预设广告文字和随机话术,模拟真实用户行为以规避风控
|
存储 分布式计算 关系型数据库
Dataphin中如何使用Hologres外表查询MaxCompute
Hologres支持通过创建外部表来加速MaxCompute数据的查询,此方法用户直接在Hologres环境中访问和分析存储在MaxCompute中的数据,从而提高查询效率并简化数据处理流程。本文将介绍在 Dataphin 产品中如何实现这一操作。
517 1
|
人工智能 数据安全/隐私保护
如何实现AI检测与反检测原理
AI检测器用于识别AI生成的文本,如ChatGPT,通过困惑度和爆发性指标评估文本。低困惑度和低爆发性可能指示AI创作。OpenAI正研发AI文本水印系统,但尚处早期阶段。现有检测器对长文本较准确,但非100%可靠,最高准确率约84%。工具如AIUNDETECT和AI Humanizer提供AI检测解决方案,适用于学生、研究人员和内容创作者。
|
11月前
|
供应链 搜索推荐 数据挖掘
API接口对电商的深远影响
在数字化商业时代,电子商务竞争激烈,创新和效率成为企业成功的关键。API(应用程序编程接口)在电商领域的应用正逐渐改变企业的运营模式,带来诸多机遇和显著收益。API 接口通过数据共享和功能集成,实现了多平台商品同步、个性化推荐、订单管理、支付结算、物流跟踪等,提升了运营效率,增强了用户体验,拓展了市场覆盖,促进了数据驱动的决策。未来,API 在电商领域的应用将更加广泛,助力企业在竞争中保持领先。
275 4
|
11月前
|
机器学习/深度学习 自然语言处理 计算机视觉
【YOLOv11改进 - 注意力机制】 MHSA:多头自注意力(Multi-Head Self-Attention)
【YOLOv11改进 - 注意力机制】 MHSA:多头自注意力(Multi-Head Self-Attention)BoTNet是一种将自注意力机制引入ResNet的创新架构,通过在最后三个瓶颈块中用全局自注意力替换空间卷积,显著提升了图像分类、物体检测和实例分割的性能,同时减少了参数量和计算开销。在COCO实例分割和ImageNet分类任务中,BoTNet分别达到了44.4%的Mask AP和84.7%的Top-1准确率,超越了现有模型。
【YOLOv11改进 - 注意力机制】 MHSA:多头自注意力(Multi-Head Self-Attention)
|
网络协议 物联网 数据处理
【C 言专栏】C 语言实现网络通信程序
【5月更文挑战第4天】本文探讨了使用C语言实现网络通信程序的方法,包括理解网络通信基本概念如协议和套接字,以及TCP/UDP通信的实现步骤。通过创建套接字、绑定端口、监听连接、数据传输和错误处理等关键环节,阐述了C语言在网络通信中的优势。文中还提到了实际应用案例、程序优化策略及未来发展趋势,旨在帮助读者掌握C语言在网络通信领域的应用技巧。
383 4
【C 言专栏】C 语言实现网络通信程序