MySQL单表千万级数据查询优化大家怎么说(评论有亮点)

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群版 2核4GB 100GB
推荐场景:
搭建个人博客
云数据库 RDS MySQL,高可用版 2核4GB 50GB
简介: 单表千万级数据是MySQL查询的一个坎,可能还不是天花板。“一个人走的慢,一群人走的快”,通过讨论可以发现MySQL千万数据的全貌大概是怎样的。

CerroTololoTrails_ap161022.jpg

题图来自APOD

上次写了一篇MySQL优化实战的文章“MySQL千万级数据从190秒优化到1秒全过程”。

这篇文章主要还是在实战MySQL优化,所以从造数据到查询SQL优化SQL都没有业务或者其它依赖,优化的技巧也不涉及软件架构就是纯SQL优化。

由于笔者经验有限和篇幅限制没有展开讲很多细节,其中有很多争议的地方也在原帖进行了回复。

通过大家的讨论学习到很多东西。有句话在技术学习这块说的挺好,“一个人走的慢,一群人走的快”。通过讨论可以发现MySQL千万数据的全貌大概是怎样的。

以下enjoy~

千万数据的信息

原帖中实际产生的数据量有1500W行数据,以下基于此说明。

名称 说明
行数 1500W
磁盘大小 字段少,接近2GB
单表查询时间 查询快
关联查询时间 查询很慢

《阿里巴巴Java开发手册》有这么一条规约:

【推荐】单表行数超过 500 万行或者单表容量超过 2GB,才推荐进行分库分表。
说明:如果预计三年后的数据量根本达不到这个级别,请不要在创建表时就分库分表。

千万级数据在互联网公司是推荐分表的。笔者从事的传统行业千万级的大表还是很常见的~

笔者由此得出“千万级数据对于MySQL来说就是不太合理的一个存在”,至于是否合理也是仁者见仁智者见智了~

怎么优化的

  • 怼索引
  • 怼覆盖索引
  • 小表驱动大表
  • 强制索引
  • 减少数据量

优化技巧中,其中有的有效、有的没效果。

尤其是很多优化技巧涉及到千万级才会出现,也就是隐藏技巧,比如强制索引。最实用的还是覆盖索引。

有些技巧只是提及没有实际操作。以后会按照这种方式展展开写,欢迎关注。

大家怎么说

反向逻辑的

方向操作主要就是反PUA了,虽然写的文章水平一般,但是这波方向操作我是佩服的~
虽然技术确实能实现需求,但常在职场主打的一个就是身心愉悦~

  • 软件层面优化不了,那就交给硬件,硬件层面优化不了,那就交给人力

  • 你记住代码和人有一个能跑就行

  • 老板说,优化不了代码我们就优化需求,优化不了需求我们就优化客户

  • 千辛万苦优化到1秒,领导来了一句:“谁让你这么改的?给我改回去!”

  • 哈哈哈,甲方还没提需求,你就给我优化了,谁给钱啊

  • 迟早都是Oracle收割的韭菜

  • 我有5亿钱包数据,怎么优化都打不到秒出!

反对的

这个意见没毛病,千万数据在MySQL也很常见。
但是笔者在阿里云做过验证,配置是8核心16G内存,同样的脚本在阿里云MYSQL中验证最少还是需要3s+
单机MYSQL千万数据看来确实是很多业务无法允许的瓶颈了~

  • 哈哈,需求从“统计每个用户的订单总额”,变成“统计某几个用户的订单总额”,你小子是懂优化的

  • 优化不了就改需求是吧?优化思路是不对的,最后输出结果都不一样了

  • 抛开需求谈设计就是耍流氓...

  • 最后一部分,真 到了一秒

  • 单表千万数据量没什么不合理的,一次group by出所有的用户不分页才不合理。

  • 那是你们家的mysql支持不了单表1000w。我们家的可以,而且速度还很好。

支持的

主打的就是实战优化技巧,希望多多输出~学习输出实战才能闭环增长呢~

  • 本身这种全量查询大量数据的需求就不合理,当然是要优化业务了

  • 虽然但是哈哈哈哈 但是你这个文章给出的SQL和存储过程都可以直接使用并且调试步骤都有,拿来试试玩玩涨涨操作知识也挺好的呀~ 支持~

技术类的

这部分讨论主要停留在技术层面,软件硬件优化还是有很多的,可以看出平台里面还是很多潜水大牛的~

  • 我记得mysql的join缓冲区,有个设置,调大点,join效率会有明显提升
  • 是的 但是一般都有自适应

  • 数据库级别优化本来就是有极限的,最终都得靠应用级别优化

  • 个人习惯先用小表驱动大表, 添加索引和减少数据量进行优化。因为覆盖索引添加了查询的列很多时候只优化了当下的查询,但如果有很多相类似的sql要查询就很容易创建越来越多列,查询时间又没有减少

  • 千万级的数据量得用分库分表,还要用缓存,光索引是没有用的,在想啥呢

  • mysql适合互联网科技服务的业务场景,就是用户只看自己的数据,联表业务场景不多的情况。要是来一个传统企业级数据场景就难搞了,比如银行流水数据,企业内部财务订单数据,几个千万级的大表级联就很慢很慢了,这时候还是推荐上oracle和sqlserver商业数据库了,再不济也得来个pg。免费mysql存储海量数据的代价是人员成本高,硬件授权虽贵,但现在开发人员工资也不低。

  • 之前测试过阿里云的mysql,8c16g ssd 配置,1.2亿条数据 查询 23 毫秒,感觉阿里云有点厉害

  • 同样的脚本在阿里云MYSQL中验证最少还是需要3s+~配置是8核心16G内存,单机MYSQL千万数据看来确实是很多业务无法允许的瓶颈了~

  • 首先,MySQL千万数据,在MySQL8.0以上的版本默认配置下轻松驾驭。除非你是7年以上的老服务器,或者是虚拟机,或者你本地点测试。分区优化后,2000万性能损失也不大。隔壁部门单表5000万了,还在叠加。另外,文章整体不错,点赞!还有,分表慎用,切勿只为数据分流而分表。

  • 还有物理配置也算一个

  • MySQL没碰到,二十多年前,在Oracle上遇到,新系统,全系统初始化库存的时候,同事写的脚本,要执行六个小时,调整了下,大概不到二十分钟。

他山之石

文章确实还有很多完善的地方,比如硬件配置是性能测试的基准没有体现出来。

MySQL千万数据究竟大吗?结论是大但不是天花板。

不是关系型数据库的天花板也不是软件优化的天花板。

但是怎么说,MySQL作为被Oracle收购的一个开源软件,更像是一个弃子一样,所以各大云服务厂商都优化和迭代了MySQL,性能好很多~

软件的分层设计很重要,缓存、软件、代理、持久化每个环节的综合设计可以让软件很能打,平摊各个环节的取舍也就降低了风险~

关于作者

来自一线全栈程序员nine的探索与实践,持续迭代中。

欢迎评论、点赞、收藏、关注。

相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
2天前
|
关系型数据库 MySQL 数据库
MySQL 复制A的表结构和数据到表B
在MySQL中复制表A至表B可通过不同方法实现。一种是先用`CREATE TABLE B LIKE A;`复制结构,再用`INSERT INTO B SELECT * FROM A;`填充数据。另一种更简便的方法是直接使用`CREATE TABLE B AS SELECT * FROM A;`一次性完成结构和数据的复制。还有一种高级方法是通过`SHOW CREATE TABLE A;`获取表A的创建语句,手动调整后创建表B,如有需要再用`INSERT INTO ... SELECT`复制数据。注意权限问题、跨数据库复制时需指定数据库名,以及大表复制时可能影响性能。
|
5天前
|
消息中间件 数据采集 关系型数据库
大数据-业务数据采集-FlinkCDC 读取 MySQL 数据存入 Kafka
大数据-业务数据采集-FlinkCDC 读取 MySQL 数据存入 Kafka
20 1
|
5天前
|
数据采集 关系型数据库 MySQL
大数据-业务数据采集-FlinkCDC The MySQL server is not configured to use a ROW binlog_format
大数据-业务数据采集-FlinkCDC The MySQL server is not configured to use a ROW binlog_format
15 1
|
8天前
|
固态存储 关系型数据库 MySQL
"惊!20亿数据秒速入MySQL,揭秘数据库极速插入的黑科技,你不可不知的绝密技巧!"
【8月更文挑战第11天】面对20亿级数据量,高效插入MySQL成为挑战。本文探讨优化策略:合理设计数据库减少不必要的字段和索引;使用批量插入减少网络往返;优化硬件如SSD和内存及调整MySQL配置;并行处理加速插入;附Python示例代码实现分批导入。这些方法将有效提升大规模数据处理能力。
23 2
|
8天前
|
存储 关系型数据库 MySQL
MySQL 上亿大表,如何深度优化?
【8月更文挑战第11天】随着大数据时代的到来,MySQL 作为广泛使用的关系型数据库管理系统,经常需要处理上亿级别的数据。当数据量如此庞大时,如何确保数据库的查询效率、稳定性和可扩展性,成为了一个亟待解决的问题。本文将围绕 MySQL 上亿大表的深度优化,分享一系列实用的技术干货,帮助你在工作和学习中应对挑战。
23 1
|
1天前
|
canal 关系型数据库 MySQL
"揭秘阿里数据同步黑科技Canal:从原理到实战,手把手教你玩转MySQL数据秒级同步,让你的数据处理能力瞬间飙升,成为技术界的新晋网红!"
【8月更文挑战第18天】Canal是一款由阿里巴巴开源的高性能数据同步系统,它通过解析MySQL的增量日志(Binlog),提供低延迟、可靠的数据订阅和消费功能。Canal模拟MySQL Slave与Master间的交互协议来接收并解析Binary Log,支持数据的增量同步。配置简单直观,包括Server和Instance两层配置。在实战中,Canal可用于数据库镜像、实时备份等多种场景,通过集成Canal Client可实现数据的消费和处理,如更新缓存或写入消息队列。
8 0
|
2天前
|
存储 SQL 关系型数据库
探索MySQL的执行奥秘:从查询执行到数据存储与优化的深入解析
探索MySQL的执行奥秘:从查询执行到数据存储与优化的深入解析
|
6天前
|
关系型数据库 MySQL
MySQL——删除重复数据
MySQL——删除重复数据
12 0
|
10天前
|
运维 关系型数据库 MySQL
"MySQL运维精髓:深入解析数据库及表的高效创建、管理、优化与备份恢复策略"
【8月更文挑战第9天】MySQL是最流行的开源数据库之一,其运维对数据安全与性能至关重要。本文通过最佳实践介绍数据库及表的创建、管理与优化,包括示例代码。涵盖创建/删除数据库、表结构定义/调整、索引优化和查询分析,以及数据备份与恢复等关键操作,助您高效管理MySQL,确保数据完整性和系统稳定运行。
24 0
|
12天前
|
SQL 缓存 关系型数据库
MySQL配置简单优化与读写测试
MySQL配置简单优化与读写测试