5.7新特性之多线程复制

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
日志服务 SLS,月写入数据量 50GB 1个月
简介: MySQL5.7 多线程复制

一、背景

1.1传统主从复制存在的问题

  众所周知,MySQL的从库可以做业务的线性扩展、实现读写分离、数据备份等功能。但是当主库压力比较大的时候,就会产生一个让人头疼的问题,那就是主从复制延迟。主从复制延迟会导致从库数据落后于主库,产生诸多问题。

1.2降低复制延迟的方法

·增大从库innodb_buffer_pool_size的值,使从库可以缓存更多数据,降低IO压力。
·增大innodb_log_file_size、innodb_log_files_in_group的值,降低刷盘IO,提升写入性能。
·将innodb_flush_method设置为O_DIRECT,提升写入性能。
·如果没有特殊需求,关闭从库binlog。
·将参数master_info_repository和relay_log_info_repository设置为TABLE,降低IO压力。
  上文这些方法虽然可以降低复制延迟,但是这始终无法真正解决复制延迟问题。


二、MySQL5.6的多线程复制

  除了上文的优化方法,其实MySQL还有一种自带的手段,就是开启MySQL的多线程复制。

2.1MySQL5.6多线程复制的实现

  对于某一个库来说,它会被绑定到第一个执行它的线程上,这里的绑定不是说以后该数据库的事件都会由该线程执行,还受制于另一个条件:coordinator线程分配事件时以事务为单位,一个事务会分配给该事务中第一个库所绑定worker线程,不会被拆分。如果遇到一个新的库,不能按照上面的规则决定执行的数据库的(即没有绑定线程,而且是该事务中第一个库)则会寻找绑定库最少的worker线程来执行它。
  涉及多库操作的语句,在分配这个语句时,coordinator线程会等待这些库的绑定线程都执行完毕,然后再分配这个语句。而如何涉及到的库太多(大于254)或者是一个ddl语句,则会触发一次同步操作,即等待所有线程执行完毕,然后将它分配给0号worker线程。

2.2MySQL5.6的多线程复制的缺点

  MySQL5.6的多线程复制要求数据库数量比较多,并且各个库的数据要分布均匀。换句话说,MySQL5.6的多线程复制是基于库级别的,如果binlog row event操作的是不同的schema的对象,在没有DDL的情况下,就可以实现多线程复制。
  但是在实际业务场景中,一库多表很常见,多库少表却很少见。这个原因导致MySQL5.6的多线程复制并不适合在实际环境应用,但是不得不承认这的确一个解决复制延迟问题很好的手段。


三、MySQL5.7的多线程复制

  MySQL5.6的多线程复制在实际应用起到的作用却很小。直到MySQL5.7版本,MySQL才“真正”支持多线程复制功能,官方称为为enhanced multi-threaded slave(简称MTS)。

3.1MySQL的组提交

  在介绍MySQL5.7的多线程复制前,我要先介绍一下组提交。MySQL5.7相对于MySQL5.6在GTID中增加了两个事件(last_committed和sequence_number),根据这两个事件就可以明白什么是组提交:

#190528  9:50:18 server id 330601  end_log_pos 971 CRC32 0x0d6b7893     GTID    last_committed=2    sequence_number=3    rbr_only=yes
#190528  9:50:23 server id 330601  end_log_pos 1288 CRC32 0x02f70237     GTID    last_committed=3    sequence_number=4    rbr_only=yes
#190528  9:50:24 server id 330601  end_log_pos 1605 CRC32 0xd613b4bf     GTID    last_committed=4    sequence_number=5    rbr_only=yes        

  可以看到以往binlog中下一个事务的last_committed永远都和上一个事务的sequence_number是相等的。

#190629 21:21:07 server id 330601  end_log_pos 1420595 CRC32 0xee9fca87     GTID    last_committed=3460    sequence_number=3506    rbr_only=yes
#190629 21:21:07 server id 330601  end_log_pos 1420998 CRC32 0x64a67854     GTID    last_committed=3460    sequence_number=3507    rbr_only=yes
#190629 21:21:07 server id 330601  end_log_pos 1421401 CRC32 0x89930386     GTID    last_committed=3460    sequence_number=3508    rbr_only=yes

  在MySQL5.7开启组提交的binlog中各事务的last_committed是相同的,这意味着多个事务是作为一个组提交的,这些事务在perpare阶段获取相同的last_committed而且相互不影响,最终是会作为一个组进行提交。这就是所谓的组提交。
  MySQL5.7的组提交通过参数group_commit设置。

mysql> show variables like '%group_commit%';
+-----------------------------------------+-------+
| Variable_name                           | Value |
+-----------------------------------------+-------+
| binlog_group_commit_sync_delay          | 0     |
| binlog_group_commit_sync_no_delay_count | 0     |
+-----------------------------------------+-------+
2 rows in set (0.00 sec)
binlog_group_commit_sync_delay控制着日志在刷盘前日志提交要等待的时间,0代表提交后立即刷盘,当设置为N(大于0)的时候,就允许多个事务的日志同时间一起提交刷盘,也就是我们说的组提交。组提交是多线程复制的基础。
binlog_group_commit_sync_no_delay_count ,这个参数优先于binlog_group_commit_sync_delay,在等待时间内,如果事务数达到binlog_group_commit_sync_no_delay_count的值,就会触动一次组提交。

3.2MySQL5.7多线程复制的实现

  MySQL期望最大化的还原主库的并行度,实现方式是在binlog event中增加必要的信息(last_committed和sequence_number),以便slave节点根据这些信息实现多线程复制。
  MySQL5.7使用参数slave_parallel_type来兼容5.6的多线程复制;通过参数slave_parallel_workers指定多线程复制的线程数。

mysql> show variables like '%slave_parallel_type%';
+---------------------+---------------+
| Variable_name       | Value         |
+---------------------+---------------+
| slave_parallel_type | LOGICAL_CLOCK |
+---------------------+---------------+
1 row in set (0.01 sec)
mysql> show variables like '%slave_parallel_workers%';
+------------------------+-------+
| Variable_name          | Value |
+------------------------+-------+
| slave_parallel_workers | 8     |
+------------------------+-------+
1 row in set (0.01 sec)

  MySQL5.7的多线程复制建立在group commit的基础上,所有在主库上能够完成prepared的语句表示没有数据冲突,就可以在slave节点多线程复制。


四、MySQL事务提交方式及多线程复制分发

4.1MySQL5.7中事务提交方式

  binlog的组提交是通过 Stage_manager 管理,其中比较核心内容如下:

class Stage_manager {
  public:
    enum StageID {         // binlog的组提交包括了三个阶段
      FLUSH_STAGE,
      SYNC_STAGE,
      COMMIT_STAGE,
      STAGE_COUNTER
    };
  private:
    Mutex_queue m_queue[STAGE_COUNTER];
};

  binlog的组提交的三个阶段主要执行的工作内容为:

InnoDB, Prepare
    SQL已经成功执行并生成了相应的redo和undo内存日志;
Binlog, Flush Stage
    所有已经注册线程都将写入binlog缓存;
Binlog, Sync Stage
    binlog缓存将sync到磁盘,sync_binlog=1时该队列中所有事务的binlog将永久写入磁盘;
InnoDB, Commit stage
    leader根据顺序调用存储引擎提交事务;

  每个阶段都有各自的队列,从而使每个会话的事务进行排队,提高并发性能。如果当一个线程注册到一个空队列时,该线程就做为该队列的leader,后注册到该队列的线程均为follower,后续的操作都由leader控制队列中follower行为。
  leader同时会带领当前队列的所有follower到下一个阶段 去执行,当遇到下一个阶段为非空队列时,leader会变成follower注册到此队列中。

4.2多线程复制分发原理

  当slave_parallel_workers参数设置成n时,会有n个worker线程,由它来执行event,原来的sql线程变成coordinator线程,由它来读取relay log,并按照一定规则将读到的event分配给worker线程执行。从库是以事务为单位进行APPLY的,每一个事务有一个GTID事件,都有一个last_committed和sequence_number,多线程复制分发原理如下:

1、从库SQL线程读取一个新事务,拿出last_committed和sequence_number的值。
2、判断当前last_committed是否大于当前已经执行的sequence_number的最小值。如果大于,则说明上一组事务还没有完成,需要等待last_committed等于sequence_number后继续;否则说明当前事务和正在执行在同一组,直接继续。
3、SQL线程寻找worker线程,将当前事务交给worker,worker线程去APPLY这个事务。


五、总结

  多线程复制从MySQL5.6到MySQL5.7的发展,真正地实现多线程复制,解决了复制延迟问题!

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
算法 安全 Java
【Java】JDK 21中的虚拟线程以及其他新特性
【Java】JDK 21中的虚拟线程以及其他新特性
236 0
|
3月前
|
算法 NoSQL Java
Springboot3新特性:GraalVM Native Image Support和虚拟线程(从入门到精通)
这篇文章介绍了Spring Boot 3中GraalVM Native Image Support的新特性,提供了将Spring Boot Web项目转换为可执行文件的步骤,并探讨了虚拟线程在Spring Boot中的使用,包括如何配置和启动虚拟线程支持。
150 9
Springboot3新特性:GraalVM Native Image Support和虚拟线程(从入门到精通)
|
8月前
|
安全 Java 编译器
深入理解PHP 8.0新特性及其对开发的影响Java中的多线程编程:从理论到实践
【5月更文挑战第27天】在这篇文章中,我们将详细探讨PHP 8.0的新特性以及它们如何影响开发者的工作流程。我们将深入研究这些新特性,包括JIT编译器,联合类型,命名参数,以及更多的错误处理机制。我们还将讨论这些新特性如何提高代码的可读性和性能,以及它们如何改变我们编写和维护PHP应用程序的方式。 【5月更文挑战第27天】在现代计算机科学中,多线程编程是一个重要的概念,它允许多个线程在同一时间内运行,从而提高了程序的效率和性能。本文将深入探讨Java中的多线程编程,包括其理论基础,实现方法,以及一些常见的问题和解决方案。我们将通过实例来理解如何创建和管理线程,以及如何使用Java的并发工具来
|
3月前
|
设计模式 监控 安全
Python多线程编程:特性、挑战与最佳实践
Python多线程编程:特性、挑战与最佳实践
46 0
|
3月前
|
设计模式 监控 安全
Python多线程编程:特性、挑战与最佳实践【1】
Python多线程编程:特性、挑战与最佳实践【1】
38 0
|
5月前
|
NoSQL 安全 Java
Lettuce的特性和内部实现问题之Lettuce连接与Jedis连接在线程安全性的问题如何解决
Lettuce的特性和内部实现问题之Lettuce连接与Jedis连接在线程安全性的问题如何解决
|
6月前
|
消息中间件 缓存 NoSQL
Redis快速度特性及为什么支持多线程及应用场景
Redis快速度特性及为什么支持多线程及应用场景
131 11
|
5月前
|
NoSQL Redis
Lettuce的特性和内部实现问题之在同步调用模式下,业务线程是如何拿到结果数据的
Lettuce的特性和内部实现问题之在同步调用模式下,业务线程是如何拿到结果数据的
|
5月前
|
算法 Java
JDK版本特性问题之想控制 G1 垃圾回收器的并行工作线程数量,如何解决
JDK版本特性问题之想控制 G1 垃圾回收器的并行工作线程数量,如何解决
|
6月前
|
设计模式 并行计算 安全
Java面试题:如何使用设计模式优化多线程环境下的资源管理?Java内存模型与并发工具类的协同工作,描述ForkJoinPool的工作机制,并解释其在并行计算中的优势。如何根据任务特性调整线程池参数
Java面试题:如何使用设计模式优化多线程环境下的资源管理?Java内存模型与并发工具类的协同工作,描述ForkJoinPool的工作机制,并解释其在并行计算中的优势。如何根据任务特性调整线程池参数
59 0