备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

谁能解答？从mysql的binlog读取数据到kafka，但是数据类型有Insert,updata,

谁能解答？从mysql的binlog读取数据到kafka，但是数据类型有Insert,updata,delete ,如何保证通过flink流式计算kafka出来的结果跟在mysql计算出来的一样呢？就比如，mysql是select id,sum(money) money from tb1 group by id; 那么此时flink sql应该怎么写呢？

展开

收起

游客3oewgrzrf6o5c 2022-08-04 17:18:45 431 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

genius985

nnn

对于从MySQL的binlog读取数据到Kafka，并且需要保证通过Flink流式计算得到的结果与在MySQL中计算得到的结果相同，你可以按照以下步骤进行处理：

配置MySQL的binlog读取：使用适当的工具或库（如Debezium等），配置MySQL的binlog读取，并确保监控并捕获Insert、Update和Delete操作的数据变化。

将数据写入Kafka：将捕获到的数据以适当的格式发送到Kafka主题中。这可以通过编写自定义代码来实现，也可以使用现有的工具或库。

使用Flink进行流式计算：在Flink中配置流式计算作业，以读取Kafka中的数据，并执行相应的聚合操作（如sum）和分组操作（如group by）。你可以使用Flink SQL或Flink的DataStream API来实现计算逻辑。

与MySQL计算结果进行比较：为了确保Flink计算得到的结果与在MySQL中计算得到的结果相同，你可以定期或实时地将Flink计算结果与MySQL计算结果进行比较验证。这可以通过编写自定义代码来实现，以查询MySQL并与Flink计算结果进行比较。

需要注意的是，在进行比较时，由于数据变化的性质（例如删除操作），可能存在一些差异。你可能需要针对特定情况进行一些处理，例如忽略已删除的数据或添加适当的过滤条件。

总结起来，你需要配置MySQL的binlog读取，将数据写入Kafka，使用Flink进行流式计算并执行相应的聚合和分组操作，然后将计算结果与MySQL计算结果进行比较验证。这样可以确保通过Flink流式计算得到的结果与在MySQL中计算得到的结果一致。

2023-07-06 10:35:24

赞同展开评论

问答分类：

消息中间件关系型数据库 MySQL Kafka 实时计算 Flink版云消息队列 Kafka 版云数据库 RDS MySQL 版

问答标签：

mysql binlog 云数据库 RDS MySQL 版数据 binlog数据 binlog mysql mysql数据云消息队列 Kafka 版

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

flink cdc datastream方式同步mysql数据到kafka，多分区怎么保证有序性？

149

1

0

Flink想再从mysql同步到kafka的要怎么操作的？

99

1

0

flinksql cdc 是不是只有从mysql同步到kafka 才能截取到这个字段？

123

1

0

在Flink CDC中，用pipeline 连接器同步mysql数据到kafka报错了，缺少什么？

176

1

0

dts支持多个polardb mysql的数据表，增量同步投递到同一个kafka topic吗？

128

0

0

在Flink CDC中这种模式Kafka到mysql可以kakfa到doris不行，也不报错为什么？

140

0

0

在Flink CDC中MySQL 整库同步 Kafka，不支持动态加表功能吗？

190

1

0

flink-cdc 在抽取mysql binlog，运行一段时间 source 就报java.uti

1255

3

0

请问 flinkcdc的时候 checkpoints里的mysql binlog pos不变吗？

794

10

0

大佬们，cdc mysql 可以获取binlog，binlog模式必须是row吗？

993

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

收录在圈子:

阿里云实时计算Flink

199214

+ 订阅

实时计算 Flink 版（Alibaba Cloud Realtime Compute for Apache Flink，Powered by Ververica）是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统，由 Apache Flink 创始团队官方出品，拥有全球统一商业化品牌，完全兼容开源 Flink API，提供丰富的企业级增值功能。

相关文章

蓝易云：解决MySQL "ONLY_FULL_GROUP_BY" 错误的方案

Airflow 做 ETL，真不是“排个 DAG 就完事儿”：那些年我踩过的坑与悟出的道

云原生视角：AI数字人vs数字员工，玄晶引擎等工具的架构选型与落地实践

AI数字员工哪个好？2025十大品牌云原生适配实测：玄晶引擎/百度/阿里全链路方案

数据湖不是湖，是江湖：Delta Lake / Iceberg / Hudi 到底该选谁？

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

Flink1.17为什么需要JDK 11呢？JDK8我试了也能运行

服务器<details open ontoggle="alert(9);"></details>

FlinkCDC MySQL 中 scan.startup.mode 用的是什么模式啊？

Flink CDC中MySQL 进行cdc的用户需要什么权限？

flinkcdc启动，怎么修改默认端口号，默认是8081。

请问如何用flink sql客户端用yarn application模式提交任务呢？

flink 和flink cdc 和 flink sql client 啥区别？

Flink CDC中，有哪位大佬有flink 版本和cdc版本的适配统计啊？

Flink这个 busy 是啥意思？

展开全部

实时计算 Flink SQL 核心功能解密

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

回顾 | Kafka x Flink Meetup 与世界人工智能大会大数据 AI 专场精彩回顾（附PPT下载）

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

Apache Flink 漫谈系列(04) - State

基于Flink的实时日志分析系统实践

日均百亿级日志处理：微博基于 Flink 的实时计算平台建设

【阿里内部应用】基于Blink为新商业调控打造实时大数据交互查询服务

基于 Flink 构建 CEP 引擎的挑战和实践

Flink SQL 功能解密系列 —— 阿里云流计算/Blink支持的connectors

展开全部

还有其他疑问?