史上最全的分布式数据同步中间间canal 之结束篇

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS PostgreSQL,集群系列 2核4GB
简介: 前言文本已收录至我的GitHub仓库,欢迎Star:github.com/bin39232820…种一棵树最好的时间是十年前,其次是现在

前言


文本已收录至我的GitHub仓库,欢迎Star:github.com/bin39232820…

种一棵树最好的时间是十年前,其次是现在

絮叨


canal的入门篇,我已经带大家搭建好了canal 并用Java客服端 去订阅canal 从mysql那边拿到的binlog日志

其实我们生产中的作用也是差不多这么玩的,只是说完善一点、,这篇带大家说说canal的一些原理。

因为这篇是进阶,所以建议大家呢一定要按我前面的把第一个demo做出来,再看第二篇

🔥史上最全的分布式数据同步中间间canal之入门篇

canal的工作原理:



原理相对比较简单:

  • canal模拟mysql slave的交互协议,伪装自己为mysql slave,向mysql master发送dump协议
  • mysql master收到dump请求,开始推送binary log给slave(也就是canal)
  • canal解析binary log对象(原始为byte流)

canal的架构



说明:

  • server代表一个canal运行实例,对应于一个jvm
  • instance对应于一个数据队列  (1个server对应1..n个instance)

instance模块:

  • eventParser (数据源接入,模拟slave协议和master进行交互,协议解析)
  • eventSink (Parser和Store链接器,进行数据过滤,加工,分发的工作)
  • eventStore (数据存储)
  • metaManager (增量订阅&消费信息管理器)

EventParser设计


  • 第一步 Connection获取上一次解析成功的位置  (如果第一次启动,则获取初始指定的位置或者是当前数据库的binlog位点)
  • 第二步 nnection建立链接,发送BINLOG_DUMP指令
  • 第三步 Mysql开始推送Binaly Log
  • 第四步 接收到的Binaly Log的通过Binlog parser进行协议解析,补充一些特定信息。
  • 第五步 传递给EventSink模块进行数据存储,是一个阻塞操作,直到存储成功
  • 第六步 存储成功后,定时记录Binaly Log位置

EventSink设计


  • 数据过滤:支持通配符的过滤模式,表名,字段内容等
  • 数据路由/分发:解决1:n (1个parser对应多个store的模式)
  • 数据归并:解决n:1 (多个parser对应1个store)
  • 数据加工:在进入store之前进行额外的处理,比如join

EventStore设计


  1. 目前仅实现了Memory内存模式,后续计划增加本地file存储,mixed混合模式
  2. 借鉴了Disruptor的RingBuffer的实现思路

定义了3个cursor

  • Put :  Sink模块进行数据存储的最后一次写入位置
  • Get :  数据订阅获取的最后一次提取位置
  • Ack :  数据消费成功的最后一次消费位置

增量订阅/消费设计(还是要第一节的基础,不然很难看懂)


具体的协议格式,可参见:CanalProtocol.proto


get/ack/rollback协议介绍:

Message getWithoutAck(int batchSize),允许指定batchSize,一次可以获取多条,每次返回的对象为Message,包含的内容为:

  • a. batch id 唯一标识
  • b. entries 具体的数据对象,对应的数据对象格式:EntryProtocol.proto
  • void rollback(long batchId),顾命思议,回滚上次的get请求,重新获取数据。基于get获取的batchId进行提交,避免误操作
  • void ack(long batchId),顾命思议,确认已经消费成功,通知server删除数据。基于get获取的batchId进行提交,避免误操作


canal的get/ack/rollback协议和常规的jms协议有所不同,允许get/ack异步处理,比如可以连续调用get多次,后续异步按顺序提交ack/rollback,项目中称之为流式api.

数据对象格式:EntryProtocol.proto


Entry  
    Header  
        logfileName [binlog文件名]  
        logfileOffset [binlog position]  
        executeTime [发生的变更]  
        schemaName   
        tableName  
        eventType [insert/update/delete类型]  
    entryType   [事务头BEGIN/事务尾END/数据ROWDATA]  
    storeValue  [byte数据,可展开,对应的类型为RowChange]  
RowChange  
    isDdl       [是否是ddl变更操作,比如create table/drop table]  
    sql     [具体的ddl sql]  
    rowDatas    [具体insert/update/delete的变更数据,可为多条,1个binlog event事件可对应多条变更,比如批处理]  
        beforeColumns [Column类型的数组]  
        afterColumns [Column类型的数组]  
Column   
    index         
    sqlType     [jdbc type]  
    name        [column name]  
    isKey       [是否为主键]  
    updated     [是否发生过变更]  
    isNull      [值是否为null]  
    value       [具体的内容,注意为文本]  
复制代码

可以提供数据库变更前和变更后的字段内容,针对binlog中没有的name,isKey等信息进行补全 可以提供ddl的变更语句


其实canal还可以直接用mq去订阅 这样就不用再写一个Java客户端了


具体参考:配置Canal投递消息到RocketMQ


喜欢的一句话



昨天看书听到了一句非常喜欢发话送给大家:这个是岳麓书院的一幅对联,大家有机会可以去看看

是非审之于己,毁誉听之于人,得失安之于数,成败归之于零,

是是非非由自己的内心来判断,诋毁还是赞誉随别人去说,得到的与失去的都只是天定的。

结尾


canal系列完结了,其实讲的不是很深,但是基本上能自己用了,如果要深入还得靠大家自己,因为我自己也还只是了解层面,感谢大家的支持,下期打算做Java基础吧 ,感觉Java基础,要讲的东西好多呀。正好大家明年面试 哈哈

因为博主也是一个开发萌新 我也是一边学一边写 我有个目标就是一周 二到三篇 希望能坚持个一年吧 希望各位大佬多提意见,让我多学习,一起进步。


相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
canal 消息中间件 关系型数据库
系统重构数据同步利器之Canal实战篇
系统重构数据同步利器之Canal实战篇
766 1
|
4月前
|
canal 消息中间件 关系型数据库
Canal作为一款高效、可靠的数据同步工具,凭借其基于MySQL binlog的增量同步机制,在数据同步领域展现了强大的应用价值
【9月更文挑战第1天】Canal作为一款高效、可靠的数据同步工具,凭借其基于MySQL binlog的增量同步机制,在数据同步领域展现了强大的应用价值
933 4
|
6月前
|
canal 缓存 NoSQL
Redis常见面试题(一):Redis使用场景,缓存、分布式锁;缓存穿透、缓存击穿、缓存雪崩;双写一致,Canal,Redis持久化,数据过期策略,数据淘汰策略
Redis使用场景,缓存、分布式锁;缓存穿透、缓存击穿、缓存雪崩;先删除缓存还是先修改数据库,双写一致,Canal,Redis持久化,数据过期策略,数据淘汰策略
Redis常见面试题(一):Redis使用场景,缓存、分布式锁;缓存穿透、缓存击穿、缓存雪崩;双写一致,Canal,Redis持久化,数据过期策略,数据淘汰策略
|
5月前
|
canal 关系型数据库 MySQL
"揭秘阿里数据同步黑科技Canal:从原理到实战,手把手教你玩转MySQL数据秒级同步,让你的数据处理能力瞬间飙升,成为技术界的新晋网红!"
【8月更文挑战第18天】Canal是一款由阿里巴巴开源的高性能数据同步系统,它通过解析MySQL的增量日志(Binlog),提供低延迟、可靠的数据订阅和消费功能。Canal模拟MySQL Slave与Master间的交互协议来接收并解析Binary Log,支持数据的增量同步。配置简单直观,包括Server和Instance两层配置。在实战中,Canal可用于数据库镜像、实时备份等多种场景,通过集成Canal Client可实现数据的消费和处理,如更新缓存或写入消息队列。
961 0
|
8月前
|
canal 关系型数据库 MySQL
Canal数据同步工具
Canal数据同步工具
178 2
|
8月前
|
canal 消息中间件 关系型数据库
【分布式技术专题】「分布式技术架构」MySQL数据同步到Elasticsearch之N种方案解析,实现高效数据同步
【分布式技术专题】「分布式技术架构」MySQL数据同步到Elasticsearch之N种方案解析,实现高效数据同步
296 0
|
消息中间件 NoSQL 关系型数据库
Canal+Kafka实现MySQL与Redis数据同步(二)
Canal+Kafka实现MySQL与Redis数据同步
254 0
|
消息中间件 canal NoSQL
Canal+Kafka实现MySQL与Redis数据同步(一)
Canal+Kafka实现MySQL与Redis数据同步
696 0
|
canal NoSQL 关系型数据库
淘东电商项目(22) -Canal数据同步框架
淘东电商项目(22) -Canal数据同步框架
118 0
|
canal SQL 关系型数据库
大数据同步工具Canal 2
大数据同步工具Canal
405 0