了解canal,看这个就够了

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云原生网关 MSE Higress,422元/月
简介: 了解canal,看这个就够了

一. canal概述



canal是Alibaba旗下的一款开源项目,纯Java开发.它是基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持mysql。


应用场景:


  • 1.数据同步,比如:做在线、离线数据库之间的数据同步操作;
  • 2.数据消费,比如:需要根据关注的数据库表的变化,做搜索增量;
  • 3.数据脱敏,比如:需要将线上动态数据导入到其他地方,做数据脱敏。


二. canal工作原理


1. mysql主备复制实现


网络异常,图片无法展示
|


(1) master将改变记录到二进制日志(binary log)中(这些记录叫做二进制日志事件,

binary log events,可以通过show binlog events进行查看);


(2) slave将master的binary log events拷贝到它的中继日志(relay log);


(3) slave重做中继日志中的事件,将改变反映它自己的数据。


2. canal的工作原理


网络异常,图片无法展示
|


(1) canal模拟mysql salve的交互协议,伪装自己为mysql slave,向mysql master发送dump协议;


(2) mysql master收到dump请求,开始推送binary log给slave(也就是canal);


(3) canal解析binary log对象(原始byte流).


三. canal架构设计


网络异常,图片无法展示
|


说明:


  • server代表一个canal运行实例,对应与一个jvm;
  • instance对应于一个数据队列(1个server对应1..n个instance).

instance下的子模块:

  • eventParser: 数据源接入,模拟slave协议和master进行交互,协议解析;
  • eventSink: parser和store链接器,进行数据的过滤,加工和分发工作;
  • eventStore: 数据存储;
  • metaManager: 增量订阅&消费信息管理器.


1. EventParser设计


网络异常,图片无法展示
|


整个parser过程大致可分为几部:


  • 1.Connection获取上一次解析成功的位置(如果第一次启动,则获取初始制定的位置或者是当前数据库的binlog位点);
  • 2.Connection建立连接,发生BINLOG_DUMP命令
  • 3.Mysql开始推送Binary Log;
  • 4.接收到的Binary Log通过Binlog parser进行协议解析,补充一些特定信息;
  • 5.传递给EventSink模块进行数据存储,是一个阻塞操作,直到存储成功
    存储成功后,定时记录Binary Log位置.


2. EventSink设计


网络异常,图片无法展示
|


  • 数据过滤:支持通配符的过滤模式,表名,字段内容等;
  • 数据路由/分发:解决1:n (1个parser对应多个store的模式);
  • 数据归并:解决n:1 (多个parser对应1个store);
  • 数据加工:在进入store之前进行额外的处理,比如join.


3. EventStore设计


目前canal实现了memory内存、本地file存储以及持久化到zookeeper以保障数据集群共享。memory内存的RingBuffer设计如下图:



网络异常,图片无法展示
|


定义了3个cursor:


  • Put : Sink模块进行数据存储的最后一次写入位置
  • Get : 数据订阅获取的最后一次提取位置
  • Ack : 数据消费成功的最后一次消费位置


借鉴Disruptor的RingBuffer的实现,将RingBuffer拉直来看:



网络异常,图片无法展示
|


4. 增量订阅、消费设计


网络异常,图片无法展示
|



get/ack/rollback协议介绍:


  • Message getWithoutAck(int batchSize),允许指定batchSize,一次可以获取多条,每次返回的对象为Message,包含的内容为:batch id(唯一标识)和entries(具体的数据对象),具体格式后面会进行介绍。


  • void rollback(long batchId),顾命思议,回滚上次的get请求,重新获取数据。基于get获取的batchId进行提交,避免误操作;


  • void ack(long batchId),顾命思议,确认已经消费成功,通知server删除数据。基于get获取的batchId进行提交,避免误操作


  • canal的get/ack/rollback协议和常规的jms协议有所不同,允许get/ack异步处理,比如可以连续调用get多次,后续异步按顺序提交ack/rollback,项目中称之为流式api.


流式api设计的好处


  • get/ack异步化,减少因ack带来的网络延迟和操作成本 (99%的状态都是处于正常状态,异常的rollback属于个别情况,没必要为个别的case牺牲整个性能);


  • get获取数据后,业务消费存在瓶颈或者需要多进程/多线程消费时,可以不停的轮询get数据,不停的往后发送任务,提高并行化.


数据格式:

Entry
    Header
        logfileName [binlog文件名]
        logfileOffset [binlog position]
        executeTime [发生的变更]
        schemaName 
        tableName
        eventType [insert/update/delete类型]
    entryType   [事务头BEGIN/事务尾END/数据ROWDATA]
    storeValue  [byte数据,可展开,对应的类型为RowChange]    
RowChange
    isDdl       [是否是ddl变更操作,比如create table/drop table]
    sql     [具体的ddl sql]
    rowDatas    [具体insert/update/delete的变更数据,可为多条,1个binlog event事件可对应多条变更,比如批处理]
        beforeColumns [Column类型的数组]
        afterColumns [Column类型的数组]      
Column 
    index       
    sqlType     [jdbc type]
    name        [column name]
    isKey       [是否为主键]
    updated     [是否发生过变更]
    isNull      [值是否为null]
    value       [具体的内容,注意为文本]


四. canal的HA机制设计



canal的HA机制主要是依赖zookeeper的特性,共分为canal server和canal client两部分:

  • canal server:为了减少对mysql dump的请求,不同server上的instance要求同一时间只能有一个处于running,其他的处于standby状态.


  • canal client:为了保证有序性,一份instance同一时间只能由一个canal client进行get/ack/rollback操作,否则客户端接收无法保证有序.


网络异常,图片无法展示
|


大致步骤:


  1. canal server要启动某个canal instance时都先向zookeeper进行一次尝试启动判断 (实现:创建EPHEMERAL节点,谁创建成功就允许谁启动)


  1. 创建zookeeper节点成功后,对应的canal server就启动对应的canal instance,没有创建成功的canal instance就会处于standby状态


  1. 一旦zookeeper发现canal server A创建的节点消失后,立即通知其他的canal server再次进行步骤1的操作,重新选出一个canal server启动instance.


  1. canal client每次进行connect时,会首先向zookeeper询问当前是谁启动了canal instance,然后和其建立链接,一旦链接不可用,会重新尝试connect.


  1. Canal Client的方式和canal server方式类似,也是利用zokeeper的抢占EPHEMERAL节点的方式进行控制.


HA配置架构图:


网络异常,图片无法展示
|


HA配置架构设计图


canal其他链接方式:


1. 单连


网络异常,图片无法展示
|


2. 两个client+两个instance+1个mysql(其实就是两个单连)


网络异常,图片无法展示
|


3. 一个server+两个instance+两个mysql+两个client


网络异常,图片无法展示
|


4. instance的standby配置


网络异常,图片无法展示
|

五. canal总结



  1. canal原理:模拟mysql slave的交互协议,伪装自己为mysql slave,向mysql master发送dump协议;mysql master收到dump请求,开始推送binary log给slave(也就是canal);解析binary log对象(原始为byte流)
  2. 存在重复消费问题:需要在消费端解决。
  3. canal需要维护EventStore,可以存取在Memory, File, zk.
  4. canal需要维护客户端的状态,同一时刻一个instance只能有一个消费端消费.
  5. 支持binlog format 类型:statement, row, mixed. 多次附加功能只能在row下使用,比如otter.
  6. 有ACK机制.
相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
canal 关系型数据库 MySQL
Canal服务搭建
Canal服务搭建
1156 1
Canal服务搭建
|
2月前
|
消息中间件 存储 缓存
美团面试: Kafka为啥能实现 10Wtps 到100Wtps ?kafka 如何实现零复制 Zero-copy?
40岁老架构师尼恩分享了Kafka如何实现高性能的秘诀,包括零拷贝技术和顺序写。Kafka采用mmap和sendfile两种零拷贝技术,前者用于读写索引文件,后者用于向消费者发送消息,减少数据在用户空间和内核空间间的拷贝次数,提高数据传输效率。此外,Kafka通过顺序写日志文件,避免了磁盘寻道和旋转延迟,进一步提升了写入性能。尼恩还提供了系列技术文章和PDF资料,帮助读者深入理解这些技术,提升面试竞争力。
美团面试: Kafka为啥能实现 10Wtps 到100Wtps ?kafka 如何实现零复制 Zero-copy?
|
7月前
|
canal SQL 关系型数据库
Canal入门
Canal入门
211 1
|
SQL 关系型数据库 MySQL
企业实战(9)Mysql数据库实现主从同步,看这一篇就够了!
企业实战(9)Mysql数据库实现主从同步,看这一篇就够了!
272 0
|
消息中间件 存储 容灾
初识kafka,先了解这些就够了
初识kafka,先了解这些就够了
92 0
|
消息中间件 分布式计算 负载均衡
Kafka 入门知识,看这一篇就够了(上)
最近在学习 Kafka(别问,问就是公司在用),将学习过程中的笔记整理出来分享给大家,就当是入入门
|
消息中间件 Kafka
kafka和zookeeper安装使用踩坑记录
kafka和zookeeper安装使用踩坑记录
|
canal SQL 关系型数据库
10.【canal】canal从入门到放弃-mysql+canal+rocketmq实现数据库同步-canal简单使用
【canal】canal从入门到放弃-mysql+canal+rocketmq实现数据库同步-canal简单使用
10.【canal】canal从入门到放弃-mysql+canal+rocketmq实现数据库同步-canal简单使用
|
canal 消息中间件 存储
从零单排canal 01」 canal 10分钟入门(基于1.1.4版本)
从零单排canal 01」 canal 10分钟入门(基于1.1.4版本)
488 1
从零单排canal 01」 canal 10分钟入门(基于1.1.4版本)