MySQL 5.6 全局事务 ID(GTID)实现原理(二)

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云数据库 RDS MySQL,高可用系列 2核4GB
简介: 前文 MySQL 5.6 全局事务 ID(GTID)实现原理(一)​ 介绍了 MySQL 5.6 全局事务 ID 的定义和相关的数据结构 Gtid_set 与 Sid_map。接下来,这一篇的主要目标是深入了解文章最后提到的全局事务状态 Gtid_state。
前文  ​ 介绍了 MySQL 5.6 全局事务 ID 的定义和相关的数据结构 Gtid_set 与 Sid_map。接下来,这一篇的主要目标是深入了解文章最后提到的全局事务状态 Gtid_state。并且,如果可能 —— 顺便介绍下这些 Gtid_state 在主备复制中的功能:
 
全局事务状态 Gtid_state
 
Gtid_state 是 MySQL 5.6 内的一个全局对象,它的数据结构如下: 
(mysql-5.6.9-rc\sql\rpl_gtid.h,line 2043)
 
Gtid_state := (logged_gtids, lost_gtids, owned_gtids)
 
创建 Gtid_state 的代码可以在 mysqld.cc 的 gtid_server_init 方法里找到。
(代码路径:mysql-5.6.9-rc\sql\mysqld.cc, 1719 line)
 
Gtid_state 的重要性是,它维护三个与全局事务 ID 有关的 MySQL global variables:
 
logged_gtids / `gtid_executed`
 
存储已经执行过,并且记录到 binlog 的全局事务 ID 集合。它对应的 MySQL variable 是  gtid_executed,可以用命令:
 
SHOW GLOBAL VARIABLES LIKE 'gtid_executed'
 
查看数据库上已经执行的全局事务 ID。
 
MySQL 5.6 在开启  --gtid_mode​=ON 后,每当执行完一个事务,就会调用 Gtid_state 的 update_on_flush() 方法,把事务对应的 GTID 写入 logged_gtids。
 
详细一点的过程是这样的:
 
为了防止写入 binlog 的是一组不完整的事务,MySQL 会缓存整个事务的 binlog 内容在 binlog_cache_data 中。如果事务提交,MySQL 会执行一个叫 ordered_commit() 的三阶段提交操作:
(源代码:mysql-5.6.9-rc\sql\binlog.cc,line 6245)
 
第一步:调用 process_flush_stage_queue() 和 flush_io_cache() 将缓存在 binlog_cache_data 中的内容刷出到 binlog 文件。此时,Gtid_state 的 update_on_flush() 调用到,事务对应的 GTID 写入 logged_gtids。
 
第二步:调用 sync_binlog_file() 在 binlog 文件上执行 fsync() 保证内容更新到磁盘。 
 
第三步:调用 process_commit_stage_queue() 执行所有事务提交,在存储引擎上调用 ha_commit_low()。
 
结束后,MySQL 调用 Gtid_state 的 update_on_commit(),从 owned_gtids 里删除完成  commit 的全局事务 ID。
 
与名字相同,logged_gtids 用来判断 MySQL 有没有执行某个事务。例如,在 Master 发送 binlog 时,MySQL 5.6 能够根据 Slave 提供的 logged_gtids 记录,自动过滤 binlog 中不需要执行的事务(请参考新增 COM_BINLOG_DUMP_GTID 协议)。 
 
另外,MySQL 5.6 支持在 START SLAVE 时指定 UNTIL_SQL_BEFORE_GTIDS / UNTIL_SQL_AFTER_GTIDS 条件,让 Slave 执行完所需要的事务后就自动停止复制。这个功能也依赖于 Slave 的 logged_gtids 记录来检查作为条件的 GTIDs 是否满足。
 
lost_gtids / `gtid_purged`
 
记录从 binlog 删除的全局事务 ID 集合。它对应的 MySQL Global variable 是: gtid_purged​ 。
 
每当 MySQL 5.6 调用 purge_logs 删除 binlog 时,会顺带更新 lost_gtids 的内容。这是通过读剩下的 binlog 文件实现的,我会在介绍 GTID 在 binlog 的存储方式时描述。
(源代码:mysql-5.6.9-rc\sql\binlog.cc,line 3754)
 
它的作用是检查 Slave 请求的 Gtids 是否已经被 Master 删除。如果 Master 的 lost_gtids 记录已经不是 Slave 的 logged_gtids 记录的子集,请求的 Slave 会收到代码为 ER_MASTER_HAS_PURGED_REQUIRED_GTIDS 的错误。
 
owned_gtids / `gtid_owned`
 
正在由线程执行的全局事务 ID 集合。它对应的 MySQL variable 是: gtid_owned,而对应​的类型是 Owned_gtids,基本上可以看作一个 Gtid 到 owner_thread_id 的 hash_map 映射:
 
Owned_gtids := array(sidno => hash_map(Node))
 
Node := (gno, owner_thread_id) 
 
其中 gno 是 Gtid 中的事务 ID。
 
在 MySQL 5.6 中,owned_gtids 提供了一个正在执行的事务纪录(以及执行它们的线程 ID)。这份记录是怎么维护的? —— 这与 MySQL 产生 GTID 的过程有关:
 
每个数据库更新都会产生一条 binlog,当一条 binlog 写入 binlog_cache_data 之前,MySQL Master 会调用 generate_automatic_gno() 产生一个 gno —— 事务 ID,详细过程是这样的:
 
首先,generate_automatic_gno  会检查 Gtid_state 中的 logged_gtids 和 owned_gtids,找到一个当前最大的而且没有使用的 gno(Gtid_state 的 get_automatic_gno() 方法),创建出新的 Gtid。
 
然后,MySQL 调用 Gtid_state 的 acquire_ownership(),把新的 Gtid 写入全局的 owned_gtids,并记录到线程的 owned_gtid 变量(注意:NDB 集群的处理有不同,这里我不一一介绍了)。
 
当事务结束时,MySQL 会调用 Gtid_state 的 update_on_commit / update_on_rollback 方法,把线程执行的 owned_gtid 从全局 owned_gtids 中删除。
 
全局 owned_gtids 常常用来反向查找执行事务的线程。有个需要关注的点,在 Gtid_state 的 acquire_ownership() 方法中,如果所给的 Gtid 在全局 owned_gtids 已经被标记成另一个线程执行,那么 MySQL 会尝试等待并检查这个线程是否被 kill。
 
Gtid_state 回顾
 
从上面 Gtid_state 的实现逻辑中,大家可以看到,在 MySQL 5.6 里一个全局事务 ID 的生命周期是这样的:
 
首先,执行数据库操作时,产生一个全局事务 ID,立即记录到全局和当前线程的  gtid_owned (owned_gtids)状态。
 
接着,提交数据库事务时,新产生的全局事务 ID 被写入 binlog,接着记录到  gtid_executed(logged_gtids)状态,然后从全局与线程区域的  gtid_owned (owned_gtids)状态中清除。
 
如果 DBA 执行了 purge 操作删除 binlog,被删除的全局事务 ID 会记录到  gtid_lost(lost_gtids)。但是,这些全局事务 ID 仍然包含在  gtid_executed(logged_gtids)全局状态里。
 
最后。
 
在上面的介绍中,我刻意没有提到 MySQL 是怎么保持这些全局事务状态的持久化的。因为这些和 5.6 新增的 binlog 事件 Gdit_log_event / Previous_gtid_log_event 有关。下一篇,我会先介绍一下 MySQL 5.6 对 binlog 格式的扩展,然后再介绍全局事务 ID 是如何作用于新的主备复制流程的。
 
(未完待续)
相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
27天前
|
自然语言处理 搜索推荐 关系型数据库
MySQL实现文档全文搜索,分词匹配多段落重排展示,知识库搜索原理分享
本文介绍了在文档管理系统中实现高效全文搜索的方案。为解决原有ES搜索引擎私有化部署复杂、运维成本高的问题,我们转而使用MySQL实现搜索功能。通过对用户输入预处理、数据库模糊匹配、结果分段与关键字标红等步骤,实现了精准且高效的搜索效果。目前方案适用于中小企业,未来将根据需求优化并可能重新引入专业搜索引擎以提升性能。
|
1月前
|
存储 缓存 关系型数据库
MySQL底层概述—9.ACID与事务
本文介绍了数据库事务的ACID特性(原子性、一致性、隔离性、持久性),以及事务控制的演进过程,包括排队、排它锁、读写锁和MVCC(多版本并发控制)。文章详细解释了每个特性的含义及其在MySQL中的实现方式,并探讨了事务隔离级别的类型及其实现机制。重点内容包括:ACID特性(原子性、持久性、隔离性和一致性的定义及其实现方式)、事务控制演进(从简单的全局排队到复杂的MVCC,逐步提升并发性能)、MVCC机制(通过undo log多版本链和Read View实现高效并发控制)、事务隔离级别(析了四种隔离级别(读未提交、读已提交、可重复读、可串行化)的特点及适用场景)、隔离级别与锁的关系。
|
2天前
|
人工智能 关系型数据库 MySQL
解决MySQL自增id用尽的问题
本文介绍了解决文章点击记录表(`article_click_record`)数据量激增问题的方案。由于用户量大,每天新增约400万条记录,导致表id接近溢出(2,100,000,000),且占用空间超320G。解决方案包括:1) 新建`article_click_record_new`表,将id类型改为BIGINT以避免溢出;2) 过渡阶段同时写入新旧表,待旧表id溢出后切换至新表;3) 定时清理过期数据或转移旧表内容。实现方式涉及修改相关接口和服务逻辑,确保业务平稳过渡。
|
1月前
|
关系型数据库 MySQL 数据库
RDS用多了,你还知道MySQL主从复制底层原理和实现方案吗?
随着数据量增长和业务扩展,单个数据库难以满足需求,需调整为集群模式以实现负载均衡和读写分离。MySQL主从复制是常见的高可用架构,通过binlog日志同步数据,确保主从数据一致性。本文详细介绍MySQL主从复制原理及配置步骤,包括一主二从集群的搭建过程,帮助读者实现稳定可靠的数据库高可用架构。
108 9
RDS用多了,你还知道MySQL主从复制底层原理和实现方案吗?
|
1月前
|
SQL 存储 关系型数据库
MySQL原理简介—9.MySQL索引原理
本文详细介绍了MySQL索引的设计与使用原则,涵盖磁盘数据页的存储结构、页分裂机制、主键索引设计及查询过程、聚簇索引和二级索引的原理、B+树索引的维护、联合索引的使用规则、SQL排序和分组时如何利用索引、回表查询对性能的影响以及索引覆盖的概念。此外还讨论了索引设计的案例,包括如何处理where筛选和order by排序之间的冲突、低基数字段的处理方式、范围查询字段的位置安排,以及通过辅助索引来优化特定查询场景。总结了设计索引的原则,如尽量包含where、order by、group by中的字段,选择离散度高的字段作为索引,限制索引数量,并针对频繁查询的低基数字段进行特殊处理等。
MySQL原理简介—9.MySQL索引原理
|
1月前
|
存储 关系型数据库 MySQL
MySQL底层概述—6.索引原理
本文详细回顾了:索引原理、二叉查找树、平衡二叉树(AVL树)、红黑树、B-Tree、B+Tree、Hash索引、聚簇索引与非聚簇索引。
102 11
MySQL底层概述—6.索引原理
|
1月前
|
SQL 监控 关系型数据库
MySQL原理简介—12.MySQL主从同步
本文介绍了四种为MySQL搭建主从复制架构的方法:异步复制、半同步复制、GTID复制和并行复制。异步复制通过配置主库和从库实现简单的主从架构,但存在数据丢失风险;半同步复制确保日志复制到从库后再提交事务,提高了数据安全性;GTID复制简化了配置过程,增强了复制的可靠性和管理性;并行复制通过多线程技术降低主从同步延迟,保证数据一致性。此外,还讨论了如何使用工具监控主从延迟及应对策略,如强制读主库以确保即时读取最新数据。
MySQL原理简介—12.MySQL主从同步
|
1月前
|
SQL 缓存 关系型数据库
MySQL原理简介—8.MySQL并发事务处理
这段内容深入探讨了SQL语句执行原理、事务并发问题、MySQL事务隔离级别及其实现机制、锁机制以及数据库性能优化等多个方面。
|
1月前
|
SQL 关系型数据库 MySQL
MySQL原理简介—11.优化案例介绍
本文介绍了四个SQL性能优化案例,涵盖不同场景下的问题分析与解决方案: 1. 禁止或改写SQL避免自动半连接优化。 2. 指定索引避免按聚簇索引全表扫描大表。 3. 按聚簇索引扫描小表减少回表次数。 4. 避免产生长事务长时间执行。
|
1月前
|
SQL 存储 关系型数据库
MySQL原理简介—10.SQL语句和执行计划
本文介绍了MySQL执行计划的相关概念及其优化方法。首先解释了什么是执行计划,它是SQL语句在查询时如何检索、筛选和排序数据的过程。接着详细描述了执行计划中常见的访问类型,如const、ref、range、index和all等,并分析了它们的性能特点。文中还探讨了多表关联查询的原理及优化策略,包括驱动表和被驱动表的选择。此外,文章讨论了全表扫描和索引的成本计算方法,以及MySQL如何通过成本估算选择最优执行计划。最后,介绍了explain命令的各个参数含义,帮助理解查询优化器的工作机制。通过这些内容,读者可以更好地理解和优化SQL查询性能。