MySQL · 捉虫动态 · show binary logs 灵异事件

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云数据库 RDS PostgreSQL,集群系列 2核4GB
简介:

问题背景

最近在运维 MySQL 中遇到一个神奇的问题,分享给大家。现象是这样的,show binary logs 没有返回结果,flush binary logs 后也不行, 但是 binlog 是正常工作的,show master staus 是有输出的。

mysql> show binary logs;
Empty set (0.00 sec)

mysql> show master status\G
*************************** 1. row ***************************
 File: master-bin.000004
 Position: 120
 Binlog_Do_DB:
 Binlog_Ignore_DB:
Executed_Gtid_Set:
1 row in set (0.00 sec)

mysql> show binary logs;
Empty set (0.00 sec)

mysql> show master status\G
*************************** 1. row ***************************
 File: master-bin.000004
 Position: 120
 Binlog_Do_DB:
 Binlog_Ignore_DB:
Executed_Gtid_Set:
1 row in set (0.00 sec)

mysql> flush binary logs;
Query OK, 0 rows affected (0.01 sec)

mysql> show binary logs;
Empty set (0.00 sec)

mysql> show master status\G
*************************** 1. row ***************************
 File: master-bin.000005
 Position: 120
 Binlog_Do_DB:
 Binlog_Ignore_DB:
Executed_Gtid_Set:
1 row in set (0.00 sec)

mysql>

问题排查

这个问题是笔者第一次遇到,从问题的现象看,binlog 是没有问题的,可以正常写入和切换,只是 show 命令看不到 binlog 文件列表,我们知道 MySQL 是用一个 index 元文件来维护当前使用的 binlog 的,而 show binary logs 也是读这个文件来展示的,因此问题应该出在 index 文件上。

我们首先检查 index 文件的权限,发现也是没问题的,mysqld 进程用户是有读写权限的,然后我们用 tail -f 命令监控 index 文件,另一个窗口连接mysql,执行 flush binary logs,发现新产生的 binlog 文件也是会追加到 index 里。越排查越觉得诡异,并且没有排查下去的思路了,难道是 show binary logs 逻辑有问题,翻开代码确认了下,主体逻辑非常简单,就是从 index 文件头开始遍历,一行对应一个 binlog 文件,每一个 binlog 文件都获取下文件size,然后把结果发给客户端,详见 rpl_master.cc:show_binlogs():

 reinit_io_cache(index_file, READ_CACHE, (my_off_t) 0, 0, 0);

 /* The file ends with EOF or empty line */ while ((length=my_b_gets(index_file, fname, sizeof(fname))) > 1)
 {
 int dir_len;
 ulonglong file_length= 0; // Length if open fails
 fname[--length] = '\0'; // remove the newline

 protocol->prepare_for_resend();
 dir_len= dirname_length(fname);
 length-= dir_len;
 protocol->store(fname + dir_len, length, &my_charset_bin);

 if (!(strncmp(fname+dir_len, cur.log_file_name+cur_dir_len, length)))
 file_length= cur.pos; /* The active log, use the active position */ else
 {
 /* this is an old log, open it and find the size */ if ((file= mysql_file_open(key_file_binlog,
 fname, O_RDONLY | O_SHARE | O_BINARY,
 MYF(0))) >= 0)
 {
 file_length= (ulonglong) mysql_file_seek(file, 0L, MY_SEEK_END, MYF(0));
 mysql_file_close(file, MYF(0));
 }
 }
 protocol->store(file_length);
 if (protocol->write())
 {
 DBUG_PRINT("info", ("stopping dump thread because protocol->write failed at line %d", __LINE__));
 goto err;
 }
 }

代码逻辑看起来没毛病,心想这问题真是神奇了。。。笔者都准备掏出 gdb 一步一步跟代码看了,在此之前抱着试试看的心态,用 vim 打开了 index 文件,准备人肉看一遍,一打开就发现了可疑的地方,文件内容如下:

./master-bin.000001
./master-bin.000002
./master-bin.000003
./master-bin.000004
./master-bin.000005

有没有看出什么?

细心的读者可能已经发现,第一行是空行,再看下刚的代码,有这么一个判断逻辑:

 /* The file ends with EOF or empty line */ while ((length=my_b_gets(index_file, fname, sizeof(fname))) > 1)

空行被认为是文件结束,WTF!心中万头羊驼奔腾。

解法很简单,删了第一行的空行,然后 flush binary logs 生成新的 index 文件把 cache 失效掉,就可以了。

mysql> flush binary logs;
Query OK, 0 rows affected (0.00 sec)

mysql> show binary logs;
+-------------------+-----------+
| Log_name | File_size |
+-------------------+-----------+
| master-bin.000001 | 467 |
| master-bin.000002 | 168 |
| master-bin.000003 | 168 |
| master-bin.000004 | 168 |
| master-bin.000005 | 168 |
| master-bin.000006 | 120 |
+-------------------+-----------+
6 rows in set (0.00 sec)

那么下一个问题来了,为什么第一行会是个空行呢,因为之前主机磁盘被堆满,为了快速清出空间,运维同学把一些老的 binlog 清理掉了,同时 “贴心的” 的把 index 文件也同步手动编辑了,但是因为手残留下了一个空行。。。

问题总结

这个问题是比较简单的,遇到过一次的话,后面就不会被坑了。。。

从这个问题我们也可以看出,MySQL 在有些时候的逻辑处理非常粗糙简单,对于文件格式没有适当地检测机制,像这种诡异问题就被隐藏吞没掉。如果翻看 commit 历史的话,可以看到“空行就认为是文件结束”的逻辑,在2002年之后就一直是这样的了:-(

相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
5月前
|
SQL 运维 关系型数据库
|
4月前
|
运维 关系型数据库 MySQL
实时计算 Flink版产品使用问题之在处理MySQL表新增数据记录时,没有正确触发变更事件,该如何解决
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
4月前
|
SQL 关系型数据库 MySQL
实时计算 Flink版产品使用问题之如何进行MySQL到MySQL的动态同步
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
5月前
|
消息中间件 关系型数据库 MySQL
实时计算 Flink版操作报错合集之同步MySQL数据并EP(复杂事件处理)时,编译报错,如何解决
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
120 1
|
5月前
|
关系型数据库 MySQL Serverless
实时计算 Flink版产品使用问题之使用cdas语法同步mysql数据到sr serverless是否支持动态加表
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
5月前
|
存储 关系型数据库 MySQL
21. Mysql 事件或定时任务,解放双手,轻松实现自动化
21. Mysql 事件或定时任务,解放双手,轻松实现自动化
173 1
|
5月前
|
SQL 存储 关系型数据库
17. Mysql 动态SQL
17. Mysql 动态SQL
85 1
|
5月前
|
关系型数据库 MySQL
mysql动态查列(case when then else end)
mysql动态查列(case when then else end)
|
6月前
|
监控 安全 关系型数据库
基于vue2 + element +mysql医院不良事件上报系统源码
不良事件管理系统从时间上报、PDCA分析、事件整改、评估效果实行闭环管理和分析,满足医院追根溯源,全流程闭环管理,提高不良事件上报率,减少同类不良事件发生,提高医疗安全。通过报告不良事件,及时发现潜在的不安全因素
45 1
|
6月前
|
关系型数据库 MySQL
mysql 动态变量,可以在线修改
7.1.9.2 Dynamic System Variables
43 0