Canal binlog 日志管理器与GTID简介

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
任务调度 XXL-JOB 版免费试用,400 元额度,开发版规格
简介: Canal binlog 日志管理器与GTID简介

如上文提到的那样,在 Canal Instance 启动的时候,首先会查询日志管理器中查找上一次的同步位点,如果没有查询到,则默认会从最新的位点开始同步,但如果每一次启动 Instance 都从最后开始同步,其数据完整性无法保证,正确的做法是在数据同步的过程中应该记录位点并持久化,重新启动后按照继续从上一次的位置继续同步,实现真正的增量同步。

本文就是来详细探讨 Canal 的几个日志管理器,并来探究一下 MySQL 的 GTID 机制。


1、Canal 位点管理(日志管理器)


1.1 类图


2191cfd4a64c58385e9df77f66ba7f1a.png

整个日志管理器由接口 CanalLogPositionManager 定义,主要定义两个方法:


  • LogPosition getLatestIndexBy(String destination)
    根据 destination 获取同步位点,即在 Canal Instance 中同步进度是以源实例为最小维度的。
  • void persistLogPosition(String destination, LogPosition logPosition)
    持久化同步位点。

Canal 中提供了7种位点管理机制,分别如下:

  • MemoryLogPositionManager
    同步位点存储在内存中,即存放在 Map 中,通常用于测试或结合其他位点管理,用来提高性能。
  • ZooKeeperLogPositionManager
    同步位点存储在 zookeeper 中,是主流的分布式存储方案。
  • MetaLogPositionManager
    Canal 中的元数据存储方式,即位点信息与元数据存放在一起。
  • MixedLogPositionManager
    混合日志位点管理器,主要是内存与 Zookeeper 的混合方式,在存储位点时先存入内存,然后用线程池异步存储到 zookeeper 中。
  • FileMixedLogPositionManager
    基于内存与本地文件的混合日志管理器,存储位点时首先存入内存,然后定时同步到文件中。
  • PeriodMixedLogPositionManager
    带定时功能的基于内存与 zookeeper 的混合日志管理器,存储位点时先写入内存,然后定时同步到 zookeeper。
  • FailbackLogPositionManager
    带 failback 机制的日志位点管理器,即可以创建准备两种日志管理器,例如在构建时可以将 ZooKeeperLogPositionManager 当为主管理器,基于 FileMixedLogPositionManager 当备用日志位点管理器,在写入日志位点时,尝试写入主日志管理器,如果抛出异常,则使用备用日志管理器;查询位点时先查主日志管理器,如果未查到,则查备用日志管理器。


1.2 日志管理器使用方法


由于 Canal 日志管理器的实现比较简单,这里就不一一去看源码了,那这里就重点介绍一下其使用方法。


23419712fa86c4e138344733475196bc.png

从这里可以看到,Canal 提供了 indexMode 属性来指定使用哪种日志管理器,其可选项:


  • MEMORY
    内存
  • ZOOKEEPER
    基于zookeeper,使用该模式还需要通过 zkClusters 设置 zk 集群的地址。
  • MIXED
    混合模式,基于内存+Zookeeper + Period,即定时存储到 zookeeper 中,使用的实现类为MixedLogPositionManager,默认为每隔1s持久化一次。
  • META
    基于元数据的管理模式。
  • MEMORY_META_FAILBACK
    基于内存与元数据的fallback,其中主日志管理器为 MEMORY。

在生产环境,通常建议使用 MIXED,基于内存与Zookeeper的混合模式。

2、MySQL GTID 扫盲


在 MySQL5.6.x 中引入了 GTID 机制,用于优化主从同步机制,本文不打算详细介绍 GTID 的方方面面,只是初步认识 GTID,方面在后续实现数据同步方面思考数据一致性如何保证等方案时具备必要的基础。


首先我们可以通过如下命令查看与gtid相关的属性。

092a7f61da811078b5ea8e798205399e.png


主要的变量的含义如下:


  • gtid_executed
    当前MySQL实现已经执行过的事务。在开启GTID模块时每执行一个事务会产生一个全局唯一的事务ID。在每一台MySQL实例上执行的事务何止上亿,这个字段要存储所有已执行的的事务ID,怎么存储能节省空间就是一个需要解决的问题,稍后再进行展开说明。
  • gtid_executed_compression_period
    在MySQL5.7版本专门引入了一个系统表:mysql.gtid_executed,gtid_executed_compression_period 参数就是设置每执行多个事务,对这个表进行压缩,默认值为1000。
  • gtid_mode
    是否开启gtid模式。
  • gtid_purged
    已不在 binlog 日志中的事务ID,Mysql 并不会永久存储 binlog 日志,而是通过 expire_logs_days 设置过期时间,单位为天,默认为10天。


一个GTID由两部分组成:server id uuid 与递增序号,两者之间用英文冒号隔开,例如上图中的:1f0eee4c-a66e-11ea-8999-00dbdfe417b8:1。


再来回到 gtid_executed 的存储问题上,为了减少存储空间,连续的gtid可以用进行合并,例如  1f0eee4c-a66e-11ea-8999-00dbdfe417b8:1-10,表示连续代表1-10个事务。


GTID的生成有自动递增与手动执行模式,自动递增模式可以在单个Server集群中保证有序,即GTID值越大,说明事务越后执行,但如果进行了人工干预,GTID就不是越大越先执行了,举例如下:

4e7509c3a5fa44d7ca5eb0cda37831f1.png

通过如下命令手动指定gtid:

set gtid_next='1f0eee4c-a66e-11ea-8999-00dbdfe417b8:10';
begin;
commit;
set gtid_next='AUTOMATIC';

6b5fc44687169ba12e45edf0d9d50151.png

故这里产生了另外一个事件,其gtid 为 10,下一条语句产生的GTID会是 11 还是 4 呢?

54b99577c5fbaf563a56154ed71b61d5.png

从这里看成,会先使用空洞,其binlog记录如下。

4bd444e3348638dc55609436bd7f0d7d.png

从这里看出,在后续避免数据顺序性方面,使用GTID并不是一个十全的方法,基于binlog的写入时间更为靠谱。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
打赏
0
0
0
0
231
分享
相关文章
MySQL Binlog 日志查看方法及查看内容解析
本文介绍了 MySQL 的 Binlog(二进制日志)功能及其使用方法。Binlog 记录了数据库的所有数据变更操作,如 INSERT、UPDATE 和 DELETE,对数据恢复、主从复制和审计至关重要。文章详细说明了如何开启 Binlog 功能、查看当前日志文件及内容,并解析了常见的事件类型,包括 Format_desc、Query、Table_map、Write_rows、Update_rows 和 Delete_rows 等,帮助用户掌握数据库变化历史,提升维护和排障能力。
MySQL日志详解——日志分类、二进制日志bin log、回滚日志undo log、重做日志redo log
MySQL日志详解——日志分类、二进制日志bin log、回滚日志undo log、重做日志redo log、原理、写入过程;binlog与redolog区别、update语句的执行流程、两阶段提交、主从复制、三种日志的使用场景;查询日志、慢查询日志、错误日志等其他几类日志
189 35
MySQL日志详解——日志分类、二进制日志bin log、回滚日志undo log、重做日志redo log
mysql的undo log、redo log、bin log、buffer pool
MySQL的undo log、redo log、bin log和buffer pool是确保数据库高效、安全和可靠运行的关键组件。理解这些组件的工作原理和作用,对于优化数据库性能和保障数据安全具有重要意义。通过适当的配置和优化,可以显著提升MySQL的运行效率和数据可靠性。
50 16
mysql的undo log、redo log、bin log、buffer pool
MySQL的undo log、redo log、bin log和buffer pool是确保数据库高效、安全和可靠运行的关键组件。理解这些组件的工作原理和作用,对于优化数据库性能和保障数据安全具有重要意义。通过适当的配置和优化,可以显著提升MySQL的运行效率和数据可靠性。
40 4
MySQL原理简介—7.redo日志的底层原理
本文介绍了MySQL中redo日志和undo日志的主要内容: 1. redo日志的意义:确保事务提交后数据不丢失,通过记录修改操作并在系统宕机后重做日志恢复数据。 2. redo日志文件构成:记录表空间号、数据页号、偏移量及修改内容。 3. redo日志写入机制:redo日志先写入Redo Log Buffer,再批量刷入磁盘文件,减少随机写以提高性能。 4. Redo Log Buffer解析:描述Redo Log Buffer的内存结构及刷盘时机,如事务提交、Buffer过半或后台线程定时刷新。 5. undo日志原理:用于事务回滚,记录插入、删除和更新前的数据状态,确保事务可完整回滚。
184 22
简单聊聊MySQL的三大日志(Redo Log、Binlog和Undo Log)各有什么区别
在MySQL数据库管理中,理解Redo Log(重做日志)、Binlog(二进制日志)和Undo Log(回滚日志)至关重要。Redo Log确保数据持久性和崩溃恢复;Binlog用于主从复制和数据恢复,记录逻辑操作;Undo Log支持事务的原子性和隔离性,实现回滚与MVCC。三者协同工作,保障事务ACID特性。文章还详细解析了日志写入流程及可能的异常情况,帮助深入理解数据库日志机制。
129 0
mysql 的ReLog和BinLog区别
MySQL中的重做日志和二进制日志是确保数据库稳定性和可靠性的关键组件。重做日志主要用于事务的持久性和原子性,通过记录数据页的物理修改信息来恢复未提交的事务;而二进制日志记录SQL语句的逻辑变化,支持数据复制、恢复和审计。两者在写入时机、存储方式及配置参数等方面存在显著差异。
132 6
Canal作为一款高效、可靠的数据同步工具,凭借其基于MySQL binlog的增量同步机制,在数据同步领域展现了强大的应用价值
【9月更文挑战第1天】Canal作为一款高效、可靠的数据同步工具,凭借其基于MySQL binlog的增量同步机制,在数据同步领域展现了强大的应用价值
1240 4
【揭秘】MySQL binlog日志与GTID:如何让数据库备份恢复变得轻松简单?
【8月更文挑战第22天】MySQL的binlog日志记录数据变更,用于恢复、复制和点恢复;GTID为每笔事务分配唯一ID,简化复制和恢复流程。开启binlog和GTID后,可通过`mysqldump`进行逻辑备份,包含binlog位置信息,或用`xtrabackup`做物理备份。恢复时,使用`mysql`命令执行备份文件,或通过`innobackupex`恢复物理备份。GTID模式下的主从复制配置更简便。
989 2
【MySQL】根据binlog日志获取回滚sql的一个开发思路
【MySQL】根据binlog日志获取回滚sql的一个开发思路

热门文章

最新文章