MySQL · 捉虫动态 · show binary logs 灵异事件

本文涉及的产品
云数据库 RDS SQL Server,基础系列 2核4GB
RDS PostgreSQL Serverless,0.5-4RCU 50GB 3个月
推荐场景:
对影评进行热评分析
云原生数据库 PolarDB 分布式版,标准版 2核8GB
简介: 问题背景最近在运维 MySQL 中遇到一个神奇的问题,分享给大家。现象是这样的,show binary logs 没有返回结果,flush binary logs 后也不行,但是 binlog 是正常工作的,show master staus 是有输出的。mysql> show binary logs;Empty set (0.00 sec)mysql> show ma

问题背景

最近在运维 MySQL 中遇到一个神奇的问题,分享给大家。现象是这样的,show binary logs 没有返回结果,flush binary logs 后也不行,
但是 binlog 是正常工作的,show master staus 是有输出的。

mysql> show binary logs;
Empty set (0.00 sec)

mysql> show master status\G
*************************** 1. row ***************************
             File: master-bin.000004
         Position: 120
     Binlog_Do_DB:
 Binlog_Ignore_DB:
Executed_Gtid_Set:
1 row in set (0.00 sec)

mysql> show binary logs;
Empty set (0.00 sec)

mysql> show master status\G
*************************** 1. row ***************************
             File: master-bin.000004
         Position: 120
     Binlog_Do_DB:
 Binlog_Ignore_DB:
Executed_Gtid_Set:
1 row in set (0.00 sec)

mysql> flush binary logs;
Query OK, 0 rows affected (0.01 sec)

mysql> show binary logs;
Empty set (0.00 sec)

mysql> show master status\G
*************************** 1. row ***************************
             File: master-bin.000005
         Position: 120
     Binlog_Do_DB:
 Binlog_Ignore_DB:
Executed_Gtid_Set:
1 row in set (0.00 sec)

mysql>

问题排查

这个问题是笔者第一次遇到,从问题的现象看,binlog 是没有问题的,可以正常写入和切换,只是 show 命令看不到 binlog 文件列表,我们知道 MySQL 是用一个 index 元文件来维护当前使用的 binlog 的,而 show binary logs 也是读这个文件来展示的,因此问题应该出在 index 文件上。

我们首先检查 index 文件的权限,发现也是没问题的,mysqld 进程用户是有读写权限的,然后我们用 tail -f 命令监控 index 文件,另一个窗口连接mysql,执行 flush binary logs,发现新产生的 binlog 文件也是会追加到 index 里。越排查越觉得诡异,并且没有排查下去的思路了,难道是 show binary logs 逻辑有问题,翻开代码确认了下,主体逻辑非常简单,就是从 index 文件头开始遍历,一行对应一个 binlog 文件,每一个 binlog 文件都获取下文件size,然后把结果发给客户端,详见 rpl_master.cc:show_binlogs():

  reinit_io_cache(index_file, READ_CACHE, (my_off_t) 0, 0, 0);

  /* The file ends with EOF or empty line */
  while ((length=my_b_gets(index_file, fname, sizeof(fname))) > 1)
  {
    int dir_len;
    ulonglong file_length= 0;                   // Length if open fails
    fname[--length] = '\0';                     // remove the newline

    protocol->prepare_for_resend();
    dir_len= dirname_length(fname);
    length-= dir_len;
    protocol->store(fname + dir_len, length, &my_charset_bin);

    if (!(strncmp(fname+dir_len, cur.log_file_name+cur_dir_len, length)))
      file_length= cur.pos;  /* The active log, use the active position */
    else
    {
      /* this is an old log, open it and find the size */
      if ((file= mysql_file_open(key_file_binlog,
                                 fname, O_RDONLY | O_SHARE | O_BINARY,
                                 MYF(0))) >= 0)
      {
        file_length= (ulonglong) mysql_file_seek(file, 0L, MY_SEEK_END, MYF(0));
        mysql_file_close(file, MYF(0));
      }
    }
    protocol->store(file_length);
    if (protocol->write())
    {
      DBUG_PRINT("info", ("stopping dump thread because protocol->write failed at line %d", __LINE__));
      goto err;
    }
  }

代码逻辑看起来没毛病,心想这问题真是神奇了。。。笔者都准备掏出 gdb 一步一步跟代码看了,在此之前抱着试试看的心态,用 vim 打开了 index 文件,准备人肉看一遍,一打开就发现了可疑的地方,文件内容如下:


./master-bin.000001
./master-bin.000002
./master-bin.000003
./master-bin.000004
./master-bin.000005

有没有看出什么?

细心的读者可能已经发现,第一行是空行,再看下刚的代码,有这么一个判断逻辑:

  /* The file ends with EOF or empty line */
  while ((length=my_b_gets(index_file, fname, sizeof(fname))) > 1)

空行被认为是文件结束,WTF!心中万头羊驼奔腾。

解法很简单,删了第一行的空行,然后 flush binary logs 生成新的 index 文件把 cache 失效掉,就可以了。

mysql> flush binary logs;
Query OK, 0 rows affected (0.00 sec)

mysql> show binary logs;
+-------------------+-----------+
| Log_name          | File_size |
+-------------------+-----------+
| master-bin.000001 |       467 |
| master-bin.000002 |       168 |
| master-bin.000003 |       168 |
| master-bin.000004 |       168 |
| master-bin.000005 |       168 |
| master-bin.000006 |       120 |
+-------------------+-----------+
6 rows in set (0.00 sec)

那么下一个问题来了,为什么第一行会是个空行呢,因为之前主机磁盘被堆满,为了快速清出空间,运维同学把一些老的 binlog 清理掉了,同时 “贴心的” 的把 index 文件也同步手动编辑了,但是因为手残留下了一个空行。。。

问题总结

这个问题是比较简单的,遇到过一次的话,后面就不会被坑了。。。

从这个问题我们也可以看出,MySQL 在有些时候的逻辑处理非常粗糙简单,对于文件格式没有适当地检测机制,像这种诡异问题就被隐藏吞没掉。如果翻看 commit 历史的话,可以看到“空行就认为是文件结束”的逻辑,在2002年之后就一直是这样的了:-(

相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。   相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情: https://www.aliyun.com/product/rds/mysql 
目录
相关文章
|
存储 关系型数据库 MySQL
MySQL 8 OCP备考--Understand how InnoDB stores data and logs
这个是mysql官方文档上的一个InnoDB的架构图
216 0
|
SQL 关系型数据库
MySQL案例-GTID同步失败:master has purged binary logs
GTID工具联动:http://blog.itpub.net/29510932/viewspace-1736132/ ---------------------------------------------------------------------------...
1796 0
|
11天前
|
存储 人工智能 OLAP
AI Agent越用越笨?阿里云AnalyticDB「AI上下文工程」一招破解!
AI 上下文工程是管理大模型输入信息的系统化框架,解决提示工程中的幻觉、上下文溢出与信息冲突等问题。通过上下文的采集、存储、加工与调度,提升AI推理准确性与交互体验。AnalyticDB PostgreSQL 版提供增强 RAG、长记忆、Supabase 等能力,助力企业构建高效、稳定的 AI 应用。
|
4月前
|
运维 算法 机器人
阿里云AnalyticDB具身智能方案:破解机器人仿真数据、算力与运维之困
本文将介绍阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL推出的全托管云上仿真解决方案,方案采用云原生架构,为开发者提供从开发环境、仿真计算到数据管理的全链路支持。
|
9天前
|
存储 人工智能 OLAP
AI Agent越用越笨?阿里云AnalyticDB「AI上下文工程」一招破解!
AI上下文工程是优化大模型交互的系统化框架,通过管理指令、记忆、知识库等上下文要素,解决信息缺失、长度溢出与上下文失效等问题。依托AnalyticDB等技术,实现上下文的采集、存储、组装与调度,提升AI Agent的准确性与协同效率,助力企业构建高效、稳定的智能应用。
|
2月前
|
存储 人工智能 关系型数据库
阿里云AnalyticDB for PostgreSQL 入选VLDB 2025:统一架构破局HTAP,Beam+Laser引擎赋能Data+AI融合新范式
在数据驱动与人工智能深度融合的时代,企业对数据仓库的需求早已超越“查得快”这一基础能力。面对传统数仓挑战,阿里云瑶池数据库AnalyticDB for PostgreSQL(简称ADB-PG)创新性地构建了统一架构下的Shared-Nothing与Shared-Storage双模融合体系,并自主研发Beam混合存储引擎与Laser向量化执行引擎,全面解决HTAP场景下性能、弹性、成本与实时性的矛盾。 近日,相关研究成果发表于在英国伦敦召开的数据库领域顶级会议 VLDB 2025,标志着中国自研云数仓技术再次登上国际舞台。
247 0
|
3月前
|
存储 人工智能 分布式计算
数据不用搬,AI直接炼!阿里云AnalyticDB AI数据湖仓一站式融合AI+BI
阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL版(以下简称ADB)诞生于高性能实时数仓时代,实现了PB级结构化数据的高效处理和分析。在前几年,为拥抱大数据的浪潮,ADB从传统数仓拓展到数据湖仓,支持Paimon/Iceberg/Delta Lake/Hudi湖格式,为开放的数据湖提供数据库级别的性能、可靠性和管理能力,从而更好地服务以SQL为核心的大规模数据处理和BI分析,奠定了坚实的湖仓一体基础。
|
4月前
|
存储 人工智能 关系型数据库
从“听指令”到“当参谋”,阿里云AnalyticDB GraphRAG如何让AI开窍
阿里云瑶池旗下的云原生数据仓库 AnalyticDB PostgreSQL 版 GraphRAG 技术,创新融合知识图谱动态推理+向量语义检索,通过实体关系映射与多跳路径优化,构建可应对复杂场景的决策引擎。本文将通过家电故障诊断和医疗预问诊两大高价值场景,解析其如何实现从“被动应答”到“主动决策”的跨越。

相关产品

  • 云数据库 RDS MySQL 版
  • 推荐镜像

    更多
    下一篇
    开通oss服务