Mysql数据库order by实现原理

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS PostgreSQL,集群系列 2核4GB
简介: Mysql数据库order by实现原理

业务背景

在应用开发过程中,业务场景可能需要根据某个字段进行排序,并返回指定结果集,就需要用到order by,今天我们来聊聊 order by 的执行流程。

假设你要查询城市是“北京”的所有人的名字,并且按照名字进行排序返回前1000个人的姓名和年龄。建表语句如下:

mysql> create table `user` (
  `id` int(11),
  `name` varchar(16) NOT NULL,
  `age` int(11) NOT NULL,
  `city` varchar(16) NOT NULL,
  PRIMARY KEY(`id`),
  KEY `city` (`city`)
)ENGINE=InnoDB;

SQL语句如下:

mysql> select name, age from user where city = "北京" order by name limit 1000;

全字段排序

为了避免全表扫描,我们需要在city字段上创建索引,用explain命令查看这条语句的执行情况:

mysql> explain select name, age from user where city = "北京" order by name limit 1000;

可以看到 key 为 city,确实走了索引,扫描行数rows为4000,表示city为北京的记录有4000条,Extra字段中的“Using filesort”,表示需要排序,Mysql 会给每个线程分配一段内存用于排序,这段内存称为sort_buffer。

执行流程:

  1. 初始化sort_buffer;
  2. 从city索引找到第一个满足city=“北京”条件的主键Id,也就是途中的ID-x;
  3. 到主键ID-x索引找到这条记录,拿到name、city、age三个字段的值放入sort_buffer;
  4. 从city索引找下一条记录,取到主键id;
  5. 重复步骤3、4 直到city不满足条件为止,也就是到途中的ID-y为止;
  6. 对sort_buffer中的数据按照name做快速排序;
  7. 返回排序结果的前1000条记录;

说明:

步骤6中,按照name字段排序的动作,可能在内存中完成,也可能需要使用外部排序,取决于排序数据所需要的内存和参数sort_buffer_size。sort_buffer_size就是Mysql为排序分配的内存。如果排序的数据量小于sort_buffer_size,排序就在内存中完成,否则就需要利用磁盘的临时文件进行辅助排序。

rowid排序

上面讲到的全字段排序,我们在拿到主键id后,取了结果集的所需全部字段(name、city、age)放入sort_buffer,按照name排序完可以直接返回。这个算法有个问题,就是sort_buffer放入的字段太多,导致内存中放入的行数很少,可能分成很多个临时文件,排序的性能会很差。

rowid排序思路:只把要排序的name字段和主键id放入sort_buffer,也就是尽可能多的放入更多的行。但是,因为sort_buffer中少了city和age字段,不能直接返回了,执行流程如下:

  1. 初始化sort_buffer,确认放入两个字段(name、id);
  2. 从city索引找到第一个city=“北京”的主键id,也就是图中的ID-x;
  3. 根据主键id索引,拿到name、id两个字段放入sort_buffer;
  4. 从city索引找下一条记录,取到主键id;
  5. 重复步骤3、4 直到city不满足条件为止,也就是到途中的ID-y为止;
  6. 对sort_buffer中的数据按照name做快速排序;
  7. 遍历排序结果,取前1000行的id,再回到原表中,拿到city、age、name三个字段,返回结果。

全字段排序 和 rowid排序比较

Msyql的设计思想:如果内存够,尽量使用内存,尽量减少磁盘访问。

如果Mysql认为内存太小,就会使用rowid排序,好处是可以放入更多行的数据,缺点需要再回原表查询数据。

思考:order by是否一定需要排序?

答案是:不一定。可以利用覆盖索引,优化order by语句,比如,可以创建city_name_age的联合索引,该联合索引树的叶子结点的值就已经包含了我们需要的结果,这样的话就不需要回表了哦。

笔记参考于极客时间《MySQL实战45讲》


相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
2月前
|
消息中间件 Kafka 数据库
深入理解Kafka的数据一致性原理及其与传统数据库的对比
【8月更文挑战第24天】在分布式系统中,确保数据一致性至关重要。传统数据库利用ACID原则保障事务完整性;相比之下,Kafka作为高性能消息队列,采用副本机制与日志结构确保数据一致性。通过同步所有副本上的数据、维护消息顺序以及支持生产者的幂等性操作,Kafka在不牺牲性能的前提下实现了高可用性和数据可靠性。这些特性使Kafka成为处理大规模数据流的理想工具。
47 6
|
2月前
|
SQL 关系型数据库 MySQL
说一下MySQL主从复制的原理?
【8月更文挑战第24天】说一下MySQL主从复制的原理?
51 0
|
2月前
|
关系型数据库 MySQL 数据处理
Mysql关于同时使用Group by和Order by问题
总的来说,`GROUP BY`和 `ORDER BY`的合理使用和优化,可以在满足数据处理需求的同时,保证查询的性能。在实际应用中,应根据数据的特性和查询需求,合理设计索引和查询结构,以实现高效的数据处理。
247 1
|
2月前
|
SQL 关系型数据库 MySQL
Mysql原理与调优-事务与MVCC
【8月更文挑战第19天】
|
2月前
|
存储 SQL 关系型数据库
深入MySQL锁机制:原理、死锁解决及Java防范技巧
深入MySQL锁机制:原理、死锁解决及Java防范技巧
|
3月前
|
存储 SQL 关系型数据库
(六)MySQL索引原理篇:深入数据库底层揭开索引机制的神秘面纱!
《索引原理篇》它现在终于来了!但对于索引原理及底层实现,相信大家多多少少都有了解过,毕竟这也是面试过程中出现次数较为频繁的一个技术点。在本文中就来一窥`MySQL`索引底层的神秘面纱!
237 5
|
2月前
|
SQL canal 关系型数据库
(二十四)全解MySQL之主从篇:死磕主从复制中数据同步原理与优化
兜兜转转,经过《全解MySQL专栏》前面二十多篇的内容讲解后,基本对MySQL单机模式下的各方面进阶知识做了详细阐述,同时在前面的《分库分表概念篇》、《分库分表隐患篇》两章中也首次提到了数据库的一些高可用方案,但前两章大多属于方法论,并未涵盖真正的实操过程。接下来的内容,会以目前这章作为分割点,开启MySQL高可用方案的落地实践分享的新章程!
791 1
|
3月前
|
SQL 关系型数据库 MySQL
(七)MySQL事务篇:ACID原则、事务隔离级别及事务机制原理剖析
众所周知,MySQL数据库的核心功能就是存储数据,通常是整个业务系统中最重要的一层,可谓是整个系统的“大本营”,因此只要MySQL存在些许隐患问题,对于整个系统而言都是致命的。
|
3月前
|
SQL 算法 关系型数据库
(十)全解MySQL之死锁问题分析、事务隔离与锁机制的底层原理剖析
经过《MySQL锁机制》、《MySQL-MVCC机制》两篇后,咱们已经大致了解MySQL中处理并发事务的手段,不过对于锁机制、MVCC机制都并未与之前说到的《MySQL事务机制》产生关联关系,同时对于MySQL锁机制的实现原理也未曾剖析,因此本篇作为事务、锁、MVCC这三者的汇总篇,会在本章中补全之前空缺的一些细节,同时也会将锁、MVCC机制与事务机制之间的关系彻底理清楚。
|
2月前
|
canal 关系型数据库 MySQL
"揭秘阿里数据同步黑科技Canal:从原理到实战,手把手教你玩转MySQL数据秒级同步,让你的数据处理能力瞬间飙升,成为技术界的新晋网红!"
【8月更文挑战第18天】Canal是一款由阿里巴巴开源的高性能数据同步系统,它通过解析MySQL的增量日志(Binlog),提供低延迟、可靠的数据订阅和消费功能。Canal模拟MySQL Slave与Master间的交互协议来接收并解析Binary Log,支持数据的增量同步。配置简单直观,包括Server和Instance两层配置。在实战中,Canal可用于数据库镜像、实时备份等多种场景,通过集成Canal Client可实现数据的消费和处理,如更新缓存或写入消息队列。
374 0
下一篇
无影云桌面