MySQL基础架构和执行流程分析

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云数据库 RDS MySQL,高可用系列 2核4GB
简介: MySQL基础架构和执行流程分析

一、索引的实现模型

MySQL索引类似于书籍的目录,其设计目的是为了提高数据查询的效率。索引的本质是一个数据结构,那么自然有多种不同的数据结构设计,所以有不同的索引实现模型,典型的实现模型有哈希表、有序数组和搜索树。

1、哈希表

哈希表是一种键-值(key-value)的存储结构,只要确定了待查询的key,就可以很快速地查询到对应的value。设置一个合适离散度的哈希函数,将key值通过哈希函数映射成一个数值作为在数组中的位置下标,将对应的数据对象放在这个数组中。

当然不同的key有可能存在经过哈希函数映射以后的值是一样的情况,针对这种场景,可以在对应的数组存放一个链表,key映射后值一样的数据对象根据先后顺序存放在链表中,当进行查询时,则遍历此列表进行比对查询,这与Java中HashMap数据结构的实现十分类似。

以下是哈希表形式的示意图:

通过以上的描述可知,哈希表特别适合等值查询的场景,例如Redis,数据插入的效率也比较高,其时间复杂度为O(1)。但是,对于范围查询等场景,由于数据在哈希表中的存放是无序的,所以范围查询会造成全表的扫描,因此查询的效率会严重下降,时间复杂度为O(n)。

2、有序数组

有序数组的形式是将数据存放在一个大型数组当中,并且数据在数组当中存放是按照数据是进行有序存放的,这样子的场景下,等值查询和范围查询的速度都非常快。例如,可以使用二分法根据key值实现快速查询,针对范围查询则转化为根据等值查询查到第一个元素以后往后进行遍历即可,时间复杂度为O(log(N))。

以下是有序数组形式的示意图:

虽然在查询的场景下有序数组的效率很高,但是一旦要插入一条数据记录就需要挪动后面所有的数据,这个成本就非常的高,所以有序数组在数据插入的场景下效率比较低,时间复杂度为O(n)+O(log(N))。有序数组适用于那些数据基本不会变化的静态存储引擎。

3、搜索树

搜索树是经典的数据结构,最基础的有二叉搜索树。二叉搜索树的特点是:父节点左子树所有结点的值小于父节点的值,右子树所有结点的值大于父节点的值。

以下是搜索树形式的示意图:

如图所示,如果要查询User_9,则搜索路径为User_1>User_3>User_8>User_9,在平衡二叉树的情况下,其查询的时间复杂度为O(log(N)),当插入新的数据记录的时候,需要对树结构进行调节,维持树结构是一棵平衡二叉树,这个时间复杂度也为O(log(N))。

从以上分析来看,平衡二叉树的结构维持了数据查询和数据更新的时间复杂度都为O(log(N)),相比较有序数据和哈希表,其达到了一个数据插入和数据更新的一个平衡。

二、InnoDB存储引擎的索引模型

在第一节,我们提到使用平衡二叉树是一个实现索引组织的较好的方案,那么MySQL中实际的索引是否就可以采用平衡二叉树实现呢?

要回答这个问题,首先要了解MySQL数据的交互形式。

MySQL中数据数据最终存储在磁盘中,真正的数据处理其实是在内存中执行,由于磁盘读写的速度非常慢,特别是传统的机械磁盘,寻址时间较长,如果每个操作都直接读写磁盘,那么性能会很差。为了解决这个问题,InnoDB将数据分成了若干数据页,以页作为磁盘与内存交互的基本单位,每次读写至少都是以1页作为基本单位,这样子一来减少了与磁盘的交互次数,提升了性能。

既然InnoDB基于数据页进行读取,而数据的组织形式是二叉树,那么为了方便在内存中以二叉树的形式进行数据的查找和更新,就应该一次性读取整个二叉树,所以将每个二叉树节点作为一个数据页是合理的设计。这样子一来,当表中的数据增加,二叉树的高度就会变得很大,而每次访问一个节点都需要读取一个数据页,想象一棵  100 万节点的平衡二叉树,树高 20,一次查询可能需要访问 20 个数据页,在机械硬盘时代,从磁盘随机读一个数据页需要 10 ms  左右的寻址时间,也就是说,对于一个 100 万行的表,如果使用二叉树来存储,单独访问一个行可能需要 20 个 10 ms  的时间,这样的效率是不可接受的。

为了让一个查询尽量少地读磁盘,就必须让查询过程访问尽量少的数据页,于是应该减少树的高度,故应该采用N叉树,而不是二叉树,这里,“N 叉”树中的“N”取决于数据页的大小,数据页越大,则可以存放的索引值越多,则N越大。

以  InnoDB 的一个整数字段索引为例,这个 N 差不多是 1200。这棵树高是 4  的时候,除根节点外,每个节点都可以存放1200个值,总共就可以存 1200 的 3 次方个值,这已经 17  亿了。考虑到树根的数据块总是在内存中的,一个 10 亿行的表上一个整数字段的索引,查找一个值最多只需要访问 3  次磁盘。其实,树的第二层也有很大概率在内存中,那么访问磁盘的平均次数就更少了。

在 InnoDB 中,表都是根据主键顺序以索引的形式存放的,这种存储方式的表称为索引组织表。结合以上提到的N叉树结合其他的存储特点,InnoDB选择了使用了 B+ 树索引模型,数据存储在 B+ 树中,表中每一个索引在Innodb中就对应一棵B+树。

注:本文总结自林晓斌老师的MySQL教程。

相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
6天前
|
SQL 存储 缓存
MySQL执行流程
本文介绍了MySQL的执行流程,分为server层和引擎层。server层包含连接器、查询缓存、解析器、预处理器、优化器等组件,负责SQL的接收、解析、优化及执行;引擎层负责数据的存储与读取。文章详细解释了各组件的功能,如连接器负责用户身份认证,查询缓存提高查询效率,解析器进行SQL的词法和语法分析,预处理器验证表和字段的存在性,优化器选择最优执行计划,最终由查询执行引擎完成查询并将结果返回给客户端。
MySQL执行流程
|
1月前
|
存储 SQL 关系型数据库
Mysql高可用架构方案
本文阐述了Mysql高可用架构方案,介绍了 主从模式,MHA模式,MMM模式,MGR模式 方案的实现方式,没有哪个方案是完美的,开发人员在选择何种方案应用到项目中也没有标准答案,合适的才是最好的。
139 3
Mysql高可用架构方案
|
2月前
|
JSON JavaScript 前端开发
Vue3源码架构简析及Monorepo流程构建
【10月更文挑战第12天】Vue3源码架构简析及Monorepo流程构建
Vue3源码架构简析及Monorepo流程构建
|
22小时前
|
SQL 关系型数据库 MySQL
MySQL 窗口函数详解:分析性查询的强大工具
MySQL 窗口函数从 8.0 版本开始支持,提供了一种灵活的方式处理 SQL 查询中的数据。无需分组即可对行集进行分析,常用于计算排名、累计和、移动平均值等。基本语法包括 `function_name([arguments]) OVER ([PARTITION BY columns] [ORDER BY columns] [frame_clause])`,常见函数有 `ROW_NUMBER()`, `RANK()`, `DENSE_RANK()`, `SUM()`, `AVG()` 等。窗口框架定义了计算聚合值时应包含的行。适用于复杂数据操作和分析报告。
26 11
|
2天前
|
存储 SQL 关系型数据库
MySQL进阶突击系列(03) MySQL架构原理solo九魂17环连问 | 给大厂面试官的一封信
本文介绍了MySQL架构原理、存储引擎和索引的相关知识点,涵盖查询和更新SQL的执行过程、MySQL各组件的作用、存储引擎的类型及特性、索引的建立和使用原则,以及二叉树、平衡二叉树和B树的区别。通过这些内容,帮助读者深入了解MySQL的工作机制,提高数据库管理和优化能力。
|
1月前
|
SQL 存储 缓存
【赵渝强老师】MySQL的体系架构
本文介绍了MySQL的体系架构,包括Server层的7个主要组件(Connectors、Connection Pool、Management Service & Utilities、SQL Interface、Parser、Optimizer、Query Caches & Buffers)及其作用,以及存储引擎层的支持情况,重点介绍了InnoDB存储引擎。文中还提供了相关图片和视频讲解。
【赵渝强老师】MySQL的体系架构
|
15天前
|
SQL 存储 关系型数据库
MySQL进阶突击系列(01)一条简单SQL搞懂MySQL架构原理 | 含实用命令参数集
本文从MySQL的架构原理出发,详细介绍其SQL查询的全过程,涵盖客户端发起SQL查询、服务端SQL接口、解析器、优化器、存储引擎及日志数据等内容。同时提供了MySQL常用的管理命令参数集,帮助读者深入了解MySQL的技术细节和优化方法。
|
1月前
|
存储 SQL Apache
Apache Doris 开源最顶级基于MPP架构的高性能实时分析数据库
Apache Doris 是一个基于 MPP 架构的高性能实时分析数据库,以其极高的速度和易用性著称。它支持高并发点查询和复杂分析场景,适用于报表分析、即席查询、数据仓库和数据湖查询加速等。最新发布的 2.0.2 版本在性能、稳定性和多租户支持方面有显著提升。社区活跃,已广泛应用于电商、广告、用户行为分析等领域。
Apache Doris 开源最顶级基于MPP架构的高性能实时分析数据库
|
1月前
|
运维 NoSQL Java
后端架构演进:微服务架构的优缺点与实战案例分析
【10月更文挑战第28天】本文探讨了微服务架构与单体架构的优缺点,并通过实战案例分析了微服务架构在实际应用中的表现。微服务架构具有高内聚、低耦合、独立部署等优势,但也面临分布式系统的复杂性和较高的运维成本。通过某电商平台的实际案例,展示了微服务架构在提升系统性能和团队协作效率方面的显著效果,同时也指出了其带来的挑战。
77 4
|
1月前
|
存储 SQL NoSQL