[缺陷分析]半同步下多从库复制异常

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
容器服务 Serverless 版 ACK Serverless,952元额度 多规格
简介: 本文分析的缺陷是MySQL bug#89370,其主要的现象是:配置半同步(复制)到多个从库,部分从库在一段时间内无法复制数据,但所有复制状态均正常。

作者:黄炎、王悦、周海鸣

本文分析的缺陷是MySQL bug#89370,其主要的现象是:配置半同步(复制)到多个从库,部分从库在一段时间内无法复制数据,但所有复制状态均正常。

缺陷的复现

MySQL版本:5.7.16,5.7.17,5.7.21

  • 配置半同步一个master两个slave,设置master的
    rpl_semi_sync_master_wait_for_slave_count=2,保持一定数据压力
  • 检查master的
    rpl_semi_sync_master_status状态为ON,确保半同步没有退化为异步
  • 设置master的
    rpl_semi_sync_master_wait_for_slave_count=1
  • 重启一个slave “stop slave; start slave”

可以观察到步骤4中重启的那个slave长达数分钟不会有master的复制数据流入,但查看复制状态均正常。

缺陷的原理图解

图一:描述了半同步复制的大致流程

1

上图中按序解析了MySQL半同步插件在binlog group commit中扮演的角色:

binlog group commit分为三个阶段:

  • Flush Phase(图中序号2): 将一组事务写入binlog缓存区,向半同步插件注册事务(图中序号2.1),更新binlog文件位置信息(图中序号2.2)
  • Sync Phase(图中序号4): 对binlog做fsync操作,将一组事务一起刷入磁盘
  • Commit Phase(图中序号5): 等待半同步完成,在引擎层提交事务

半同步插件:

1.图中序号3:在binlog完成位置信息更新后,开始通过复制线程读取binlog文件,将其中的event发送给slave
2.图中序号5.1:将事务复制完成信息返回master,master根据该信息确定是否可以提交事务

  • MySQL从5.5版本后引入了半同步插件,以解决传统异步复制在master节点宕机时可能出现的数据丢失。
  • 开启半同步能够保证master接收到的事务,在得到至少一个slave接收确认之后再返回给客户端。
  • MySQL 5.6版本之前存在一个著名的bug#13669,在开启binlog时为了保证引擎层与binlog的提交顺序一致,使得group commit机制失效。从5.6版本后才真正引入了binlog的group commit,在保证引擎层和binlog事务最终一致的情况下,大幅提高了高并发场景下的处理性能。

图二:描述了MySQL 5.6版本中的ACK接收机制

2

在MySQL 5.6版本的实现里,master的复制线程同时负责发送事务和接收slave返回的ACK消息,当没有接收到上一个事务的ACK消息之前,无法发送下一个事务。如此串行化的机制成为了半同步的性能瓶颈。

图三:描述了MySQL 5.7版本中的ACK接收机制

3

在MySQL 5.7版本的实现里,将接收ACK这部分任务从master的复制线程中拆分出来,由半同步插件的ACK接收线程单独处理,使得事务发送和接收ACK得以并行,极大提高了半同步性能。

图四:描述了本文缺陷的发生原因

4

本文所要描述的缺陷就出现在ACK接收线程中,ACK线程(图中序号1)和复制线程(图中序号2)在抢占互斥锁时产生了竞争。
master在监听slave的ACK消息时,无限的while循环使得ACK线程基本时刻占有互斥锁。当启动另一个slave时,master的新复制线程无法在短时间内抢占该互斥锁,导致复制线程无法启动成功,造成了slave的slave_io_thread 停滞,无法复制数据的现象。

扩展阅读

https://bugs.mysql.com/bug.php?id=89370
https://bugs.mysql.com/bug.php?id=13669
[1]https://kristiannielsen.livejournal.com/12254.html

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
1月前
|
运维 监控 安全
自动恢复机制在哪些情况下可能无法正常工作
自动恢复机制在哪些情况下可能无法正常工作
|
4月前
|
弹性计算 关系型数据库 MySQL
检查MySQL主从同步状态
【4月更文挑战第30天】
22 0
|
4月前
|
SQL 关系型数据库 MySQL
mysql主从同步出错解决办法
mysql主从同步出错解决办法
50 0
|
10月前
|
SQL 关系型数据库 数据库
记一次程序 Bug 导致数据删除的恢复过程
使用RDS、DMS进行数据恢复实践
980 0
|
12月前
从堆里找回“丢失”的代码相关命令简介
从堆里找回“丢失”的代码相关命令简介
|
安全 关系型数据库 MySQL
为什么延迟复制适用于备库数据的紧急恢复?底层原理是什么?
为什么延迟复制适用于备库数据的紧急恢复?底层原理是什么?
109 0
|
SQL NoSQL 关系型数据库
二十五:从库的关闭和恢复流程(笔记)
一、stop slave流程 用户线程: stop_slave -> terminate_slave_threads ->带入参数rpl_stop_slave_timeout设置,作为等待SQL线程退出的超时时间。
836 0
|
SQL 存储 关系型数据库
MYSQL主从同步异常解决方案
理论上讲,mysql的主从同步无法保证100%不出现异常,mysql本身并不能保证主从的稳定性,当前较流行的MHA等mysql主从同步解决方案也是尽最大努力保证数据的一致性,出现异常还是要进行人工干预。对于MYSQL加快主从同步的方式,经历了库间并发 - 组提交 - WriteSet等一系列减缓复制延迟的问题,但是很遗憾,主从复制做的在快,也解决不了中途出现异常的情况,本文基于MYSQL采用 binlog和利用组提交方式的前提,探讨在主从复制期间产生异常后,应如何解决,达到防止数据丢失,最终恢复主从关系的目的。
|
开发工具 git
pull错代码起冲突,恢复到pull之前,切换历史版本 ---本地代码回退
pull错代码起冲突,恢复到pull之前,切换历史版本 ---本地代码回退
347 0
|
程序员
当你无法发现问题所在时,不要简单地把代码或者数据还原
这几天有一位同事需要做与我一样的功能,而这个功能是我已经开发好了的,他只需直接把我的代码拿去修改就可以。结果,我的代码可以正常运行,他的代码在开启服务之后,控制台就不断有日志输出,开发环境进入了死机状态。
1641 0