MySQL · 捉虫动态 · UK 包含 NULL 值备库延迟分析

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,高可用系列 2核4GB
简介:

前言

在之前的月报 RDS 只读实例延迟分析 中,我们介绍了一些常见的备库延迟的场景,今天给大家分享一个比较少见的特殊场景。

简单的来说,就是在 UK 索引中存在大量 NULL 值情况下,如果备库选用这个 UK 来同步更新,会导致非常大的延迟。

背景知识

UK 中有大量 NULL 值,第一次看到这个可能会觉得有点奇怪,但是这确实是允许的,官方文档写的非常清楚:

A UNIQUE index creates a constraint such that all values in the index must be distinct. An error occurs if you try to add a new row with a key value that matches an existing row. For all engines, a UNIQUE index permits multiple NULL values for columns that can contain NULL.

同时这个也是SQL92标准定义的:

A unique constraint is satisfied if and only if no two rows in a table have the same non-null values in the unique columns. In addition, if the unique constraint was defined with PRIMARY KEY, then it requires that none of the values in the specified column or columns be the null value.

关于这个问题,官方bug list 也有激烈的讨论: Bug #8173 unique index allows duplicates with null values,有的人认为是 feature,有的人认为是 bug。

NULL 和 NULL 是不一样的,我们可以将 NULL 理解为未知,虽然现在不知道,但它未来有很多可能性,只是我们现在还不知道而已。

MySQL 对于 NULL 也有专门的处理,例如比较运算符,以及一些函数在 NULL 上是失效的,结果可能出乎意料,详细情况可以参考官方文档 Working with NULL Values 和 Problems with NULL Values。

问题描述

介绍完背景知识,我们来看下具体问题吧。问题来源于真实用户 case,下面的表结结构和数据是为了说明方便特殊构造的。

表结构如下:

ds_logs_uk
Create Table: CREATE TABLE `rds_logs_uk` (
  `id` bigint(20) NOT NULL,
  `ins_name` varchar(32) NOT NULL DEFAULT 'ins',
  `ins_uuid` varchar(36) DEFAULT NULL,
  UNIQUE KEY `idx_uuid` (`ins_uuid`),
  KEY `idx_name` (`ins_name`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8

可以看到 UK 的 column 是允许 NULL的,我们看下数据分布情况:

mysql> select count(*) from rds_logs_uk where ins_uuid is NULL;
+----------+
| count(*) |
+----------+
| 24549655 |
+----------+

mysql>  select count(ins_uuid) from rds_logs_uk where ins_uuid is not NULL;
+-----------------+
| count(ins_uuid) |
+-----------------+
|        20505406 |
+-----------------+

可以看到 NULL 基本占了一半多。

我们用脚本在主库上,每隔 1s 执行下面的 SQL:

delete from rds_logs_uk where ins_name >= '888' and ins_name <= '899' and ins_uuid is NULL limit 1;

然后监控主备的 InnoDB rows 统计信息:

7


可以看到备库在做大量的查询,还没有删到一条记录,这就导致了备库延迟。

问题分析

为什么会差别这么大呢,我们在主库只删除一条记录,扫了317行,但是到了备库后,扫了很多行,连一条匹配的记录都没找到,一个比较可能的解释是走的索引不一样了。主库上 explain 的结果如下:

8


主库用了 idx_name 这个普通二级索引,而没有用UK,因为主库优化器算出来,走 UK 的代价更大。

9


从上面的现象,我们可以大致推出,备库跑的更慢,是因为备库在同步更新时,用错了索引,用 UK 来更新。
为什么会选错索引呢,在 ROW 格式下,备库在同步更新时,索引的选择是基于简单规则的,没有走优化器的代价模型,规则如下:
  1. PK
  2. UK without NULL
  3. other keys(include UK with NULL)
  4. table_scan

从1到4,优先级依次递减,在选择时,只要有索引满足规则,就选择这个索引,并不再往下找了。具体的逻辑在 sql/log_event.cc:search_key_in_table() 中,大家可以自己看下代码,这里就不在贴了。

按照我们的表结构,是会用第3条规则来选出索引的,按索引的先后顺序,遍历一遍,找到第一个可用的。什么样的索引是可用呢,只要索引对应的字段,在 event row 中存在,就是可用的,而我们的 binlog_row_image = FULL,这样每一个索引都是用到的,而 UK 是排在普通二级索引前面的,所以就选了 UK。做删除时,需要先查到和 delete image 匹配的记录,然后再删除。用NULL值在UK上扫描,虽然 NULL 和 NULL 值是不一样的,但是在实现表示上都是一样的,也就是说所有的 NULL 在索引在是排列在一起的,这样通过在 UK 查找很多 NULL 然后回表拿到全字段记录,发现和 delete image 中记录不匹配,最终导致在找到匹配记录前,扫描了大量的NULL。

为什么这里没用优化器的代码计算呢,小编认为有正面的原因,也有反面的原因:

正面来看,因为在 row 格式 full image 下,相当于 where 条件所有字段都有的,PK/UK 这种索引如果有是肯定能用上的,而通常都会有PK的。

反面来看,因为每个 row 都做一次代价评估,太不划算了。。。主库上一条 SQL 可能更新了 n 条记录,只需要做一次代价计算,而备库在同步row binlog 时,每个 row 都要做一次代价计算,这样代价计算的成本,就会非常高。

问题解决

如果遇到这种情况,怎么解呢?解法有多种,目的都是一样,让备库不选择 UK 来做同步。

  1. 加法:在备库加一个比当前 UK 更好的索引,需要更好的UK和PK,不能是普通二级索引,因为普通二级索引,是排在UK后面的,不会被选择。
  2. 减法:直接 drop 掉 UK,在做读写分离的备库上,不建议这么做,因为可能影响业务的查询。
  3. 比 2 轻量一点,用 Invisible Index 特性。MySQL 官方 8.0 和 AliSQL 都支持 Invisible Index,我们可以在备库上把 UK 临时改成 Invisible,等备库同步完后,再改回 Visible。不过我们在实际测试中,发现这个方法不起作用,因为备库应用 row 时,根本不认 invisible 属性,这个已经跟官方提 bug#88847,AliSQL 在即将发布的新版本中,会 fix 掉这个问题,欢迎大家使用。
相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
1月前
|
SQL 关系型数据库 MySQL
MySQL事务日志-Undo Log工作原理分析
事务的持久性是交由Redo Log来保证,原子性则是交由Undo Log来保证。如果事务中的SQL执行到一半出现错误,需要把前面已经执行过的SQL撤销以达到原子性的目的,这个过程也叫做"回滚",所以Undo Log也叫回滚日志。
MySQL事务日志-Undo Log工作原理分析
|
28天前
|
关系型数据库 MySQL 数据库
mysql慢查询每日汇报与分析
通过启用慢查询日志、提取和分析慢查询日志,可以有效识别和优化数据库中的性能瓶颈。结合适当的自动化工具和优化措施,可以显著提高MySQL数据库的性能和稳定性。希望本文的详解和示例能够为数据库管理人员提供有价值的参考,帮助实现高效的数据库管理。
39 11
|
9天前
|
缓存 NoSQL 关系型数据库
MySQL原理简介—4.深入分析Buffer Pool
本文介绍了MySQL的Buffer Pool机制,包括其作用、配置方法及内部结构。Buffer Pool是MySQL用于缓存磁盘数据页的关键组件,能显著提升数据库读写性能。默认大小为128MB,可根据服务器配置调整(如32GB内存可设为2GB)。它通过free链表管理空闲缓存页,flush链表记录脏页,并用LRU链表区分冷热数据以优化淘汰策略。此外,还探讨了多Buffer Pool实例、chunk动态调整等优化并发性能的方法,以及如何通过`show engine innodb status`查看Buffer Pool状态。关键词:MySQL内存数据更新机制。
|
2月前
|
SQL 关系型数据库 MySQL
MySQL 窗口函数详解:分析性查询的强大工具
MySQL 窗口函数从 8.0 版本开始支持,提供了一种灵活的方式处理 SQL 查询中的数据。无需分组即可对行集进行分析,常用于计算排名、累计和、移动平均值等。基本语法包括 `function_name([arguments]) OVER ([PARTITION BY columns] [ORDER BY columns] [frame_clause])`,常见函数有 `ROW_NUMBER()`, `RANK()`, `DENSE_RANK()`, `SUM()`, `AVG()` 等。窗口框架定义了计算聚合值时应包含的行。适用于复杂数据操作和分析报告。
124 11
|
3月前
|
关系型数据库 MySQL
mysql 5.7.x版本查看某张表、库的大小 思路方案说明
mysql 5.7.x版本查看某张表、库的大小 思路方案说明
115 5
|
3月前
|
SQL DataWorks 关系型数据库
阿里云 DataWorks 正式支持 SelectDB & Apache Doris 数据源,实现 MySQL 整库实时同步
阿里云数据库 SelectDB 版是阿里云与飞轮科技联合基于 Apache Doris 内核打造的现代化数据仓库,支持大规模实时数据上的极速查询分析。通过实时、统一、弹性、开放的核心能力,能够为企业提供高性价比、简单易用、安全稳定、低成本的实时大数据分析支持。SelectDB 具备世界领先的实时分析能力,能够实现秒级的数据实时导入与同步,在宽表、复杂多表关联、高并发点查等不同场景下,提供超越一众国际知名的同类产品的优秀性能,多次登顶 ClickBench 全球数据库分析性能排行榜。
|
3月前
|
关系型数据库 MySQL
mysql 5.7.x版本查看某张表、库的大小 思路方案说明
mysql 5.7.x版本查看某张表、库的大小 思路方案说明
79 1
|
4月前
|
存储 关系型数据库 MySQL
基于案例分析 MySQL 权限认证中的具体优先原则
【10月更文挑战第26天】本文通过具体案例分析了MySQL权限认证中的优先原则,包括全局权限、数据库级别权限和表级别权限的设置与优先级。全局权限优先于数据库级别权限,后者又优先于表级别权限。在权限冲突时,更严格的权限将被优先执行,确保数据库的安全性与资源合理分配。
|
4月前
|
存储 关系型数据库 MySQL
PACS系统 中 dicom 文件在mysql 8.0 数据库中的 存储和读取(pydicom 库使用)
PACS系统 中 dicom 文件在mysql 8.0 数据库中的 存储和读取(pydicom 库使用)
84 2
|
24天前
|
关系型数据库 MySQL 数据库连接
数据库连接工具连接mysql提示:“Host ‘172.23.0.1‘ is not allowed to connect to this MySQL server“
docker-compose部署mysql8服务后,连接时提示不允许连接问题解决

热门文章

最新文章