同步 MySQL 数据至 ES/Redis/MQ 等的五种方式

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 Redis 版,社区版 2GB
推荐场景:
搭建游戏排行榜
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介: 同步 MySQL 数据至 ES/Redis/MQ 等的五种方式

同步 MySQL 数据至 ES/Redis/MQ 等的五种方式

在实际应用中,我们经常需要把 MySQL 的数据同步至其它数据源,也就是在对 MySQL 的数据进行了新增、修改、删除等操作后,把该数据相关的业务逻辑变更也应用到其它数据源,例如:

MySQL -> Elasticsearch ,同步 ES 的索引MySQL -> Redis ,刷新缓存MySQL -> MQ (如 Kafka 等) ,投递消息

本文总结了五种数据同步的方式。

1. 业务层同步

业务层同步

由于对 MySQL 数据的操作也是在业务层完成的,所以在业务层同步操作另外的数据源也是很自然的,比较常见的做法就是在 ORM 的 hooks 钩子里编写相关同步代码。

这种方式的缺点是,当服务越来越多时,同步的部分可能会过于分散从而导致难以更新迭代,例如对 ES 索引进行不兼容迁移时就可能会牵一发而动全身。

2. 中间件同步

中间件同步

当应用架构演变为微服务时,各个服务里可能不再直接调用 MySQL ,而是通过一层 middleware 中间件,这时候就可以在中间件操作 MySQL 的同时同步其它数据源。

这种方式需要中间件去适配,具有一定复杂度。

3. 定时任务根据 updated_at 字段同步

定时任务根据 updated_at 同步

在 MySQL 的表结构里设置特殊的字段,如 updated_at(数据的更新时间),根据此字段,由定时任务去查询实际变更的数据,从而实现数据的增量更新。

这种方式你可以使用开源的 Logstash 去完成。

当然缺点也很明显,就是无法同步数据的删除操作。

4. 解析 binlog 同步

解析 binlog 同步

比如著名的 canal 。

通过伪装成 slave 去解析 MySQL 的 binary log 从而得知数据的变更。

这是一种业界比较成熟的方案。

这种方式要求你将 MySQL 的 binlog-format 设置为 ROW 模式。

5. 解析 binlog -- mixed / statement 格式

MySQL 的 binlog 有三种格式:

ROW 模式,binlog 按行的方式去记录数据的变更;statement 模式,binlog 记录的是 SQL 语句;mixed 模式时,混合以上两种,记录的可能是 SQL 语句或者 ROW 模式的每行变更;

某些情况下,可能你的 MySQL binlog 无法被设置为 ROW 模式,这种时候,我们仍然可以去统一解析 binlog ,从而完成同步,但是这里解析出来的当然还是原始的 SQL 语句或者 ROW 模式的每行变更,这种时候是需要我们去根据业务解析这些 SQL 或者每行变更,比如利用正则匹配或者 AST 抽象语法树等,然后根据解析的结果再进行数据的同步。

这种方式的限制也很明显,一是需要自己适配业务解析 SQL ,二是批量更新这种场景可能很难处理,当然如果你的数据都是简单的根据主键进行修改或者删除则能比较好的适用。

结语

最后列举几个 binlog 解析的开源库:

canal

go-mysql

zongji

相关实践学习
基于CentOS快速搭建LAMP环境
本教程介绍如何搭建LAMP环境,其中LAMP分别代表Linux、Apache、MySQL和PHP。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
3天前
|
SQL 关系型数据库 MySQL
实时计算 Flink版产品使用合集之写doris,mysql字段变更,重新提交才能同步新字段数据吗
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
2天前
|
SQL 关系型数据库 MySQL
解决向MySQL中导入文件中的 数据时出现的问题~
解决向MySQL中导入文件中的 数据时出现的问题~
|
2天前
|
SQL 关系型数据库 MySQL
mysql插入500条数据sql语句
【5月更文挑战第12天】
|
3天前
|
关系型数据库 MySQL Java
实时计算 Flink版产品使用合集之同步MySQL数据到Hologres时,配置线程池的大小该考虑哪些
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
11天前
|
消息中间件 网络协议 JavaScript
MQTT常见问题之微消息队列mqtt支持ipv6失败如何解决
MQTT(Message Queuing Telemetry Transport)是一个轻量级的、基于发布/订阅模式的消息协议,广泛用于物联网(IoT)中设备间的通信。以下是MQTT使用过程中可能遇到的一些常见问题及其答案的汇总:
|
11天前
|
消息中间件 物联网 Java
MQTT常见问题之微消息队列配置失败如何解决
MQTT(Message Queuing Telemetry Transport)是一个轻量级的、基于发布/订阅模式的消息协议,广泛用于物联网(IoT)中设备间的通信。以下是MQTT使用过程中可能遇到的一些常见问题及其答案的汇总:
|
11天前
|
消息中间件 分布式计算 监控
Python面试:消息队列(RabbitMQ、Kafka)基础知识与应用
【4月更文挑战第18天】本文探讨了Python面试中RabbitMQ与Kafka的常见问题和易错点,包括两者的基础概念、特性对比、Python客户端使用、消息队列应用场景及消息可靠性保证。重点讲解了消息丢失与重复的避免策略,并提供了实战代码示例,帮助读者提升在分布式系统中使用消息队列的能力。
44 2
|
11天前
|
消息中间件 Java
springboot整合消息队列——RabbitMQ
springboot整合消息队列——RabbitMQ
84 0
|
3天前
|
消息中间件 数据采集 Serverless
云消息队列 RocketMQ 版-消息集成-概述
消息集成是助力企业数字化转型的全栈式消息与数据集成平台,简化流程,支持云上云下、跨区域集成。它提供低代码的事件流服务,具备数据源集成、数据清洗、Serverless自定义处理等功能,支持丰富的数据源和跨端连接。然而,使用时存在如单个任务数据限制、任务名称长度等约束。消息流入(Source)负责从各种数据源获取数据,消息流出(Sink)将数据分发到目标,数据处理(Transform)允许数据转换和分析,而任务(Task)则结合这些组件执行实际的集成操作。
16 3
|
11天前
|
消息中间件 存储 运维
为什么选择云消息队列 RocketMQ 版
为什么选择云消息队列 RocketMQ 版
17 1

推荐镜像

更多