MySQL索引特性(一)

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
云数据库 RDS PostgreSQL,高可用系列 2核4GB
简介: MySQL索引特性

一、认识索引

1.1 索引的概念

数据库表中存储的数据都是以记录为单位的,若在查询数据时直接一条条遍历表中的数据记录,查询的时间复杂度为O(N)

索引的价值在于提高海量数据的检索速度,只要执行了正确的创建索引的操作,查询速度就可能提高成百上千倍。当一张表创建索引后,在数据库底层就会为表中的数据记录构建特定的数据结构,后续在查询表中数据时就能通过查询该数据结构快速定位到目标数据

索引虽然提高了数据的查询速度,但在一定程度上也会降低数据增删改的效率,因为这时在对表中的数据进行增删改操作时,除了需要进行对应的增删改操作之外,可能还需要对底层建立的数据结构进行调整维护

常见的索引分为:


主键索引(primary key)

唯一索引(unique)

普通索引(index)

全文索引(fulltext)

1.2 索引的价值

使用如下SQL创建一个海量数据表

drop database if exists `index_demon`;
create database if not exists `index_demon` default character set utf8;
use `index_demon`;
-- 构建一个8000000条记录的数据
-- 构建的海量表数据需要有差异性,所以使用存储过程来创建
-- 产生随机字符串
delimiter $$
create function rand_string(n INT)
returns varchar(255)
begin
declare chars_str varchar(100) default
'abcdefghijklmnopqrstuvwxyzABCDEFJHIJKLMNOPQRSTUVWXYZ';
declare return_str varchar(255) default '';
declare i int default 0;
while i < n do
set return_str =concat(return_str,substring(chars_str,floor(1+rand()*52),1));
set i = i + 1;
end while;
return return_str;
end $$
delimiter ;
-- 产生随机数字
delimiter $$
create function rand_num( )
returns int(5)
begin
declare i int default 0;
set i = floor(10+rand()*500);
return i;
end $$
delimiter ;
-- 创建存储过程,向雇员表添加海量数据
delimiter $$
create procedure insert_emp(in start int(10),in max_num int(10))
begin
declare i int default 0;
set autocommit = 0;
repeat
set i = i + 1;
insert into EMP values ((start+i)
,rand_string(6),'SALESMAN',0001,curdate(),2000,400,rand_num());
until i = max_num
end repeat;
commit;
end $$
delimiter ;
-- 雇员表
CREATE TABLE `EMP` (
  `empno` int(6) unsigned zerofill NOT NULL COMMENT '雇员编号',
  `ename` varchar(10) DEFAULT NULL COMMENT '雇员姓名',
  `job` varchar(9) DEFAULT NULL COMMENT '雇员职位',
  `mgr` int(4) unsigned zerofill DEFAULT NULL COMMENT '雇员领导编号',
  `hiredate` datetime DEFAULT NULL COMMENT '雇佣时间',
  `sal` decimal(7,2) DEFAULT NULL COMMENT '工资月薪',
  `comm` decimal(7,2) DEFAULT NULL COMMENT '奖金',
  `deptno` int(2) unsigned zerofill DEFAULT NULL COMMENT '部门编号'
);
-- 执行存储过程,添加8000000条记录
call insert_emp(100001, 8000000);


上述SQL中创建了一个名为index_demon的数据库,在该数据库中创建了一个名为EMP的员工表,并向表中插入了八百万条记录


将上述SQL保存到文件中,然后在MySQL中使用source命令依次执行文件中的SQL即可


ff57eb1c982b47609e71b6957c27e4e0.png


SQL执行完毕后查看数据库即可看到一个名为index_demon的数据库。进入该数据库,在数据库中可以看到一个名为EMP的员工表


e7c64142a2a44c92be53cb64d3cacdf8.png


通过desc命令可以发现,目前EMP员工表中没有建立任何索引


8e0bf7195d634370a151d568beb6ed61.png


指定员工号查询EMP表中的员工信息,每次都需要大概4.8秒的时间



982c1c17ebdf45ff92420535cf2a88a0.png

当给员工表中的工号建立索引后,数据库底层就会为员工表中的数据记录构建特定的数据结构。但由于当前员工表中的数据量较大,因此建立索引时也需花费较长时间


8e8b23e3aaa7409a979588b5d4e0ded4.png


此时再查询EMP表中指定工号的员工信息,可以看到几乎检测不到查询时耗费的时间


d0a426b25a974c1bb352afb4b41b8f75.png


给员工工号创建索引后再根据员工工号查询数据,此时就可直接通过底层建立的数据结构来快速定位到目标数据,从而提高数据的检索速度


二、认识磁盘

MySQL给用户提供存储服务,存储的数据在外设磁盘中

磁盘是计算机中的一个机械设备,相比于计算机的其他电子元件(内存),磁盘IO的效率是比较低的

2.1 磁盘结构

50d7d6fb941144a89ba3aca14ee371d9.png


永磁铁: 机械硬盘的存储方式与磁带比较类似,磁体具有记忆的功能,永磁铁用于保证磁性的稳定

音圈马达: 硬盘读取数据的关键部位,主要作用是将存储在磁盘上的信息转换为电信号向外传输

主轴: 保证电机稳定的转动,磁盘转动才能读取数据

空气滤波片: 过滤空气硬盘透气孔中进入的空气,保证硬盘内部清洁,同时还可防止硬盘内部的零件氧化,确保硬盘安全使用

磁盘: 一般由铝合金制作,主要是用来存储文件的

磁头: 用来读取盘片上的信息

串行接口: 用来连接电脑与硬盘的接口,起到传输的作用

盘片


一个磁盘由多个盘片叠加而成,盘片的表面涂有磁性物质,磁性物质用于记录二进制数据。盘片的正反两面都可涂上磁性物质,因此一个盘片有两个盘面


a31d099bd00940a78984784f5d2766e4.png


磁道: 磁盘表面被分为许多同心圆,每个同心圆称为一个磁道,每个磁道都有一个编号,最外面的是0磁道

扇区: 每个磁道被划分成若干个扇区,每个扇区的存储容量为512字节,每个扇区都有一个编号

由于每个扇区的存储容量相同,因此最内侧磁道上的扇区数据密度最大,而最外侧磁道上的扇区数据密度最小。近三十年来,扇区大小一直是512字节,但最近几年正在迁移到更大、更高效的4096字节扇区,通常称为4K扇区。数据库文件就是保存在磁盘中的一个个扇区中的,因此找到一个文件本质,即在磁盘上找到保存该文件的所有扇区


扇区的定位方式


磁头(Heads): 每个盘面都有一个对应的磁头,因此确定了磁头也就确定了数据在哪一个盘面

柱面(Cylinder): 所有盘面中半径相同的同心磁道构成柱面,在确定了数据在哪一个盘面的基础上,再确定柱面也就确定了数据在该盘面上的哪一个磁道

扇区(Sector): 每个磁道被划分成若干个扇区,因此在确定了数据在哪一个磁道的基础上,再确定扇区也就确定了数据在该磁道上的哪个扇区


e7b9cca6b8ac4c27a4dc16ec8e7b8408.png

定位扇区时采用CHS寻址方式,即先通过H确定数据所在的盘面,再通过C确定数据所在的磁道,最后通过S定位到目标扇区


CHS寻址方式是磁盘定位扇区的方式,但实际CHS寻址方式对磁盘以外的设备来说没什么作用,因此系统软件在定位磁盘上的数据时采用的是LBA(Logical Block Address,逻辑区块地址)

LBA是描述计算机存储设备上数据所在区块的通用机制,LBA和CHS之间可以通过计算公式进行相互转换,LBA存在的意义就是对底层逻辑器件进行虚拟化,让系统软件可以不用关心底层硬件具体的寻址方式,而实际底层硬件采用的还是CHS寻址方式

2.2 操作系统与磁盘交互的基本单位

操作系统与磁盘进行IO交互的基本单位是4KB,而不是扇区的大小512字节,原因如下:


物理内存实际是被划分成一个个4KB大小的页框的,磁盘上的数据也会被划分成一个个4KB大小的页帧,因此操作系统与磁盘以4KB为单位进行IO交互,就能提高数据加载和保存的效率

操作系统与磁盘进行IO交互时,若直接以扇区的大小作为IO的基本单位,那么这时系统的IO代码和硬件就是强相关的,将来当硬件的扇区大小发生变化时就需要对应修改操作系统的IO代码

以扇区的大小作为IO的基本单位太小了,意味着读取同样的数据内容,需要更多次的磁盘访问,而磁盘IO的效率较低,整体IO效率就降低了

因此操作系统与磁盘以4KB作为IO交互的基本单位,一方面是为了提高IO效率,另一方面是为了实现硬件和系统的解耦


2.3 磁盘的随机访问(Random Access)与连续访问(Sequential Access)

随机访问: 本次IO所给出的扇区地址与上次IO给出的扇区地址不连续,磁头在两次IO操作之间需做比较大的移动动作才能找到目标扇区

连续访问: 本次IO所给出的扇区地址与上次IO给出的扇区地址是连续的,磁头很快就能找到目标扇区进行IO

若两次IO是在同一时刻发出的,但其请求的扇区地址相差很大,那也只能称为随机访问,因为连续访问中的连续指的是访问的扇区地址的连续,而不是访问时间的连续,由于连续访问不需要过多的定位,因此效率较高


2.4 MySQL与磁盘交互

MySQL作为一款应用软件,可以想象成是一种特殊的文件系统,其有着更高频的IO场景,因此为了提高基本的IO效率,MySQL与磁盘交互的基本单位是16KB,这个基本数据单元在MySQL中也叫作Page


通过show命令查看系统中的全局变量,可以看到InnoDB存储引擎交互的基本单位是16KB

8871eee590b74a9eb2c7a8ff16682543.png



说明:本篇博客中没有做特殊说明的地方,都以InnoDB存储引擎为例进行讲解


Buffer Pool


在MySQL中进行的各种CRUD操作时,都需先通过计算找到对应的操作位置,只要涉及计算就需CPU参与,而冯诺依曼体系结构决定了CPU只能与内存交互,因此就需先将数据加载到内存中

在特定的时间内,MySQL中的数据一定是同时存在于磁盘和内存中的,当操作完内存数据后,再以特定的刷新策略将内存中的数据刷新到磁盘中,这时MySQL和磁盘进行数据交互的基本单位就是Page

为了更好的支持上述操作,MySQL服务器在启动的时候会预先申请一块内存空间来进行各种缓存,这块内存空间即Buffer Pool,后续磁盘中加载的数据就会保存在Buffer Pool中,刷新数据即将Buffer Pool中的数据刷新到磁盘

由于内核中是有内核缓冲区的,因此MySQL从磁盘读取数据时,需先将数据从磁盘读取到内核缓冲区,再将数据从内核缓冲区读取到Buffer Pool,MySQL将数据刷新到磁盘时,同样需先将数据从Buffer Pool刷新到内核缓冲区,再将数据从内核缓冲区刷新到磁盘

因此所谓的操作系统和磁盘交互的基本单位是4KB,是指内核缓冲区与磁盘之间是以4KB为单位进行交互的。而MySQL的Buffer Pool和磁盘实际并不是直接交互的,所谓的MySQL与磁盘交互的基本单位是16KB,指的是MySQL的Buffer Pool与内核缓冲区之间是以16KB为单位进行交互的。只不过说的时候更关注的是MySQL和磁盘之间的关系,所以直接说MySQL与磁盘交互的基本单位是16KB,相当于忽略了中间的内核缓冲区


3b90fafd8e174922948fc63b0739342f.png


为什么MySQL与磁盘交互的基本单位是Page


MySQL与磁盘进行交互时为什么不是按需交互,而是以Page为基本单位进行交互的?


当查询表中的某一条记录时,若MySQL只从磁盘中将这一条记录加载到内存中,那么当继续查询表中的其他记录时,MySQL就一定需要再次与磁盘进行IO交互

而若查询表中的某一条记录时,MySQL直接将这条记录所在的整个Page都加载到内存中,那么继续查询表中的其他记录时,MySQL很可能就不再需要与磁盘进行IO交互了,因为这条记录很可能也在被加载进来的Page中,直接在内存中进行查询即可,减少了IO的次数

但不能保证用户下一次要访问的数据一定就在本次加载进来的Page中,但是根据统计学原理,当一个数据正在被访问时,那么下一次有很大可能会访问其周围的数据(局部性原理),因此有较大概率保证用户下一次要访问的数据和本次访问的数据在同一个Page中,若局部性原理没有起作用,那就再把对应的Page加载到内存中即可

即,MySQL与磁盘进行交互时以Page为基本单位,可以减少与磁盘IO交互的次数,进而提高IO的效率


相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。 &nbsp; 相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情:&nbsp;https://www.aliyun.com/product/rds/mysql&nbsp;
目录
相关文章
|
23天前
|
SQL 监控 关系型数据库
MySQL事务处理:ACID特性与实战应用
本文深入解析了MySQL事务处理机制及ACID特性,通过银行转账、批量操作等实际案例展示了事务的应用技巧,并提供了性能优化方案。内容涵盖事务操作、一致性保障、并发控制、持久性机制、分布式事务及最佳实践,助力开发者构建高可靠数据库系统。
|
2月前
|
存储 SQL 关系型数据库
mysql底层原理:索引、慢查询、 sql优化、事务、隔离级别、MVCC、redolog、undolog(图解+秒懂+史上最全)
mysql底层原理:索引、慢查询、 sql优化、事务、隔离级别、MVCC、redolog、undolog(图解+秒懂+史上最全)
mysql底层原理:索引、慢查询、 sql优化、事务、隔离级别、MVCC、redolog、undolog(图解+秒懂+史上最全)
|
2月前
|
存储 关系型数据库 MySQL
MySQL数据库索引的数据结构?
MySQL中默认使用B+tree索引,它是一种多路平衡搜索树,具有树高较低、检索速度快的特点。所有数据存储在叶子节点,非叶子节点仅作索引,且叶子节点形成双向链表,便于区间查询。
92 4
|
4月前
|
存储 关系型数据库 MySQL
阿里面试:MySQL 一个表最多 加几个索引? 6个?64个?还是多少?
阿里面试:MySQL 一个表最多 加几个索引? 6个?64个?还是多少?
阿里面试:MySQL 一个表最多 加几个索引? 6个?64个?还是多少?
|
13天前
|
存储 关系型数据库 MySQL
介绍MySQL的InnoDB引擎特性
总结而言 , Inno DB 引搞 是 MySQL 中 高 性 能 , 高 可靠 的 存 储选项 , 宽泛 应用于要求强 复杂交易处理场景 。
53 15
|
7天前
|
关系型数据库 MySQL 数据库
MySql事务以及事务的四大特性
事务是数据库操作的基本单元,具有ACID四大特性:原子性、一致性、隔离性、持久性。它确保数据的正确性与完整性。并发事务可能引发脏读、不可重复读、幻读等问题,数据库通过不同隔离级别(如读未提交、读已提交、可重复读、串行化)加以解决。MySQL默认使用可重复读级别。高隔离级别虽能更好处理并发问题,但会降低性能。
|
6月前
|
关系型数据库 MySQL 数据库
Mysql的索引
MYSQL索引主要有 : 单列索引 , 组合索引和空间索引 , 用的比较多的就是单列索引和组合索引 , 空间索引我这边没有用到过 单列索引 : 在MYSQL数据库表的某一列上面创建的索引叫单列索引 , 单列索引又分为 ● 普通索引:MySQL中基本索引类型,没有什么限制,允许在定义索引的列中插入重复值和空值,纯粹为了查询数据更快一点。 ● 唯一索引:索引列中的值必须是唯一的,但是允许为空值 ● 主键索引:是一种特殊的唯一索引,不允许有空值 ● 全文索引: 只有在MyISAM引擎、InnoDB(5.6以后)上才能使⽤用,而且只能在CHAR,VARCHAR,TEXT类型字段上使⽤用全⽂文索引。
|
2月前
|
存储 SQL 关系型数据库
MySQL 核心知识与索引优化全解析
本文系统梳理了 MySQL 的核心知识与索引优化策略。在基础概念部分,阐述了 char 与 varchar 在存储方式和性能上的差异,以及事务的 ACID 特性、并发事务问题及对应的隔离级别(MySQL 默认 REPEATABLE READ)。 索引基础部分,详解了 InnoDB 默认的 B+tree 索引结构(多路平衡树、叶子节点存数据、双向链表支持区间查询),区分了聚簇索引(数据与索引共存,唯一)和二级索引(数据与索引分离,多个),解释了回表查询的概念及优化方法,并分析了 B+tree 作为索引结构的优势(树高低、效率稳、支持区间查询)。 索引优化部分,列出了索引创建的六大原则
|
3月前
|
存储 关系型数据库 MySQL
MySQL覆盖索引解释
总之,覆盖索引就像是图书馆中那些使得搜索变得极为迅速和简单的工具,一旦正确使用,就会让你的数据库查询飞快而轻便。让数据检索就像是读者在图书目录中以最快速度找到所需信息一样简便。这样的效率和速度,让覆盖索引成为数据库优化师傅们手中的尚方宝剑,既能够提升性能,又能够保持系统的整洁高效。
112 9
|
4月前
|
机器学习/深度学习 关系型数据库 MySQL
对比MySQL全文索引与常规索引的互异性
现在,你或许明白了这两种索引的差异,但任何技术决策都不应仅仅基于理论之上。你可以创建你的数据库实验环境,尝试不同类型的索引,看看它们如何影响性能,感受它们真实的力量。只有这样,你才能熟悉它们,掌握什么时候使用全文索引,什么时候使用常规索引,以适应复杂多变的业务需求。
103 12

推荐镜像

更多