B+树索引的使用

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
云数据库 RDS PostgreSQL,高可用系列 2核4GB
简介:

什么时候使用B+树索引

   并不是在所有的查询条件下出现的列都需要添加索引。对于什么时候添加B+树索引,我的经验是访问表中很少一部分时,使用B+树索引才有意义。对于性别字段,地区字段,类型字段,它们可取值的范围很小,即低选着性。如:

   select * from student WHERE sex = 'M'

对于性别,可取值的范围只有'M','F'。对上述SQL语句得到的结果可能是该表的50%的数据,这时添加B+树索引时完全没有必要的。相反,如果某个字段的取值范围很广,几乎没有重复,即高选择性,即此时使用B+树索引时做合适的,例如姓名字段,基本上在一个应用中都不允许重名的出现。

   因此,当访问高选择性字段并从表中取出很少一部分时,对这个字段添加B+树索引是非常有必要的。但是如果出现了访问字段是高选择性的,但是取出的行数据占用表中大部分的数据时,这时MySQL数据库就不会使用B+树索引了,我们先来看一个例子:

mysql> show index from info\G;

*************************** 1. row ***************************

        Table: info

   Non_unique: 0

     Key_name: PRIMARY

 Seq_in_index: 1

  Column_name: id

    Collation: A

  Cardinality: 356639

     Sub_part: NULL

       Packed: NULL

         Null: 

   Index_type: BTREE

      Comment: 

Index_comment: 

*************************** 2. row ***************************

        Table: info

   Non_unique: 1

     Key_name: index_link_family

 Seq_in_index: 1

  Column_name: link_family

    Collation: A

  Cardinality: 9385

     Sub_part: 255

       Packed: NULL

         Null: YES

   Index_type: BTREE

      Comment: 

Index_comment: 

*************************** 3. row ***************************

        Table: info

   Non_unique: 1

     Key_name: index_date

 Seq_in_index: 1

  Column_name: date

    Collation: A

  Cardinality: 356639

     Sub_part: NULL

       Packed: NULL

         Null: 

   Index_type: BTREE

      Comment: 

Index_comment: 

      表info大约有50万行数据。info表上的date字段,该字段是日期类型,字段上有一个index_date的非唯一索引。我们来看下面两条SQL的执行:

 

mysql> explain  select * from info where date = '2006-07-26 15:56:01'\G;

*************************** 1. row ***************************

           id: 1

  select_type: SIMPLE

        table: info

         type: ref

possible_keys: index_date

          key: index_date

      key_len: 8

          ref: const

         rows: 2

        Extra: 

1 row in set (0.00 sec)

 

ERROR: 

No query specified

可以看到使用了index_date这个索引,这也符合我们前面提到的高选择性,选取表中很少行的原则。但是如果执行下面这条语句:

 

 

mysql> explain  select * from info where date > '2006-07-26 15:56:01'\G;

*************************** 1. row ***************************

           id: 1

  select_type: SIMPLE

        table: info

         type: ALL

possible_keys: index_date

          key: NULL

      key_len: NULL

          ref: NULL

         rows: 356639

        Extra: Using where

1 row in set (0.00 sec)

可以看到possible_keys依然是index_date,但是实际优化器使用的索引key显示的是NULL。为什么?因为这不符合我们前面说的原则,虽然date这个字段的值是高选择性的,但是我们取出的行占用了表中很大一部分。

 

mysql>   select @a:=count(id) from info where date > '2006-07-26 15:56:01';

+---------------+

| @a:=count(id) |

+---------------+

|        452549 |

+---------------+

1 row in set (0.18 sec)

 

mysql> select @b:=count(id) from info ;

+---------------+

| @b:=count(id) |

+---------------+

|        452554 |

+---------------+

1 row in set (0.11 sec)

 

mysql> select @a/@b;

+--------+

| @a/@b  |

+--------+

| 1.0000 |

+--------+

1 row in set (0.00 sec)

可以看到我们将取出行的数大概是表的100%的行,因此优化器没有选择使用索引。Mysql数据库的优化器会通过EXPLAIN的rows字段预估查询可能得到的行,如果大于某一个值,则B+树会选择全表的扫描。至于这个值,根据我的经验一般在20%。即当取出的数据量超过表中数据的20%,优化器就不会使用索引,而是进行全表的扫表。

但是预估的返回行数的值是不准确的,可以看到优化器判断日期小于2006-07-26的行为356639,而实际的是452549 。

有时优化器的选择并不完全是正确的,有时你更应该相信自己的判断(可以通过force index(index_name)来执行判断两条语句执行的时间差别)。










本文转自 kuchuli 51CTO博客,原文链接:http://blog.51cto.com/lgdvsehome/1174516,如需转载请自行联系原作者
相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。   相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情: https://www.aliyun.com/product/rds/mysql 
目录
相关文章
|
3天前
|
搜索推荐 编译器 Linux
一个可用于企业开发及通用跨平台的Makefile文件
一款适用于企业级开发的通用跨平台Makefile,支持C/C++混合编译、多目标输出(可执行文件、静态/动态库)、Release/Debug版本管理。配置简洁,仅需修改带`MF_CONFIGURE_`前缀的变量,支持脚本化配置与子Makefile管理,具备完善日志、错误提示和跨平台兼容性,附详细文档与示例,便于学习与集成。
271 116
|
18天前
|
域名解析 人工智能
【实操攻略】手把手教学,免费领取.CN域名
即日起至2025年12月31日,购买万小智AI建站或云·企业官网,每单可免费领1个.CN域名首年!跟我了解领取攻略吧~
|
12天前
|
安全 Java Android开发
深度解析 Android 崩溃捕获原理及从崩溃到归因的闭环实践
崩溃堆栈全是 a.b.c?Native 错误查不到行号?本文详解 Android 崩溃采集全链路原理,教你如何把“天书”变“说明书”。RUM SDK 已支持一键接入。
663 219
|
5天前
|
数据采集 人工智能 自然语言处理
Meta SAM3开源:让图像分割,听懂你的话
Meta发布并开源SAM 3,首个支持文本或视觉提示的统一图像视频分割模型,可精准分割“红色条纹伞”等开放词汇概念,覆盖400万独特概念,性能达人类水平75%–80%,推动视觉分割新突破。
349 34
Meta SAM3开源:让图像分割,听懂你的话
|
10天前
|
人工智能 移动开发 自然语言处理
2025最新HTML静态网页制作工具推荐:10款免费在线生成器小白也能5分钟上手
晓猛团队精选2025年10款真正免费、无需编程的在线HTML建站工具,涵盖AI生成、拖拽编辑、设计稿转代码等多种类型,均支持浏览器直接使用、快速出图与文件导出,特别适合零基础用户快速搭建个人网站、落地页或企业官网。
1575 157
|
存储 人工智能 监控
从代码生成到自主决策:打造一个Coding驱动的“自我编程”Agent
本文介绍了一种基于LLM的“自我编程”Agent系统,通过代码驱动实现复杂逻辑。该Agent以Python为执行引擎,结合Py4j实现Java与Python交互,支持多工具调用、记忆分层与上下文工程,具备感知、认知、表达、自我评估等能力模块,目标是打造可进化的“1.5线”智能助手。
897 61
|
7天前
|
编解码 Linux 数据安全/隐私保护
教程分享免费视频压缩软件,免费视频压缩,视频压缩免费,附压缩方法及学习教程
教程分享免费视频压缩软件,免费视频压缩,视频压缩免费,附压缩方法及学习教程
295 140