备案控制台

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Flink CDC里提2个TiDB source connector的bugs解决一下？

Flink CDC里提2个TiDB source connector的bugs，第一，当TiDB的一张表的字段数超过125，则解析记录时，记录的最后超过的字段的数据全部丢失，全部返回null。第二，当CDC的TiDB的表记录数很大时（有几千个regions），则当region发生合并，拆分之后，就再也收不到CDC数据。使用Flink CDC3.0版本，虽然是开源项目，但是也需要经过严格测试在release版本出来，免得使用者在生产环境中踩坑，非常的被动，上述2个bug经过源码排查，第一个是TiKV client类库自身的一个bug，第二是flink cdc的bug,希望社区有关开发者尽快修复啊。TiDB因为是golang开发的，所以TiKV client库的开发人员可能没有搞清楚java byte和golang byte类型的取值范围是不一样的，java是有符号的，而golang byte是无符号的。并且他们用一个byte类型的数组保存一行记录中字段的序号，在查找时又用了binarysearch，binarysearch要求数据是已排序的，所以有符号的和无符号的byte排序当然是不一样的，所以出现排序混乱导致超过127之后字段查询不到而返回null的bug，这是第一个bug，第二个bug涉及到org.tikv.common.util.ChannelFactory这个类中的缓存grpc channel的问题，这个缓存的实现是有问题的，在有几千个region的大表中，当发生合并，拆分后，channel已经失效了，但是为了提高效率，flink cdc复用了实效的channel，导致CDC events无法再接收到了。当然grpc channel是非常昂贵的资源，需要复用，这个没啥毛病，但是实现上有漏洞，我们正在自行修复这个问题。目前只是复现了这个bug。这种问题只有在实际的生产环境中才能暴露出来，一开始我们在测试环境没有遇到任何问题，我正打算把tidb这块的connector重新写一下。

展开

收起

小小鹿鹿鹿 2024-05-01 08:55:48 14 0

1 条回答

写回答

取消提交回答

小小杳杳杳

谢谢非常详细的bug report，可以分别在 Flink Jira 和 TiDB Github 上开issue记录下哈，钉群消息很快会被淹没。此回答来自钉群Flink CDC 社区。

2024-05-01 13:03:29

赞同 2 展开评论打赏

问答分类：

流计算 Go Java 缓存安全测试技术开发者实时计算 Flink版云解析DNS

问答标签：

实时计算 Flink版CDC 实时计算 Flink版cdc source 实时计算 Flink版Source 实时计算 Flink版TiDB 实时计算 Flink版cdc tidb source

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

flink cdc sql将一个source，sink到pg和kafka，这种场景支持吗?

19

0

0

Flink CDC 里source支持debezium.table.exclude.list属性吗？

38

1

0

Flink CDC里tidb 支持exactly once 这个bug啥时修复？

17

0

0

Flink CDC里chatglm 怎么通过langchain调用tidb的啊？

20

0

0

Flink source这是不是还是单并行度消费，其他并行度消费不到？

23

1

0

Flink CDC里 source tidb 报错怎么办呀？

42

1

0

使用FlinkCDC 将TIDB 表数据同步到另一集群TIDB，flink节点内存暴增问题

16

0

0

Flink tidb cdc 根据官方steam例子，这是什么问题？

15

0

0

Flink cdc支持TIDB吗？

13

1

0

Flink要自定义 connector ，不知道该怎么弄?

15

0

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

热门讨论

热门文章

FlinkCDC MySQL 中 scan.startup.mode 用的是什么模式啊？

Flink这个未授权访问漏洞有什么解决方案吗？

Flink CDC有遇见这个问题的吗？

flink1.15启动后无法访问webui的问题有人遇到过吗

Caused by: org.apache.kafka.common.errors.TimeoutE

Flink sql将数组炸开，实现hive的explode函数的效果，还有什么其他好的方式？

flink怎么能够快速消费kafka数据，需要设置什么参数呢？

阿里云实时计算的资源单位是什么？

Flink CDC中我使用了自定义聚合函数，但是报错这个需要怎么解决呢？

yarn集群资源是充足的，为什么提交任务失败呢

展开全部

数据仓库介绍与实时数仓案例

权威详解 | 阿里新一代实时计算引擎 Blink，每秒支持数十亿次计算

分布式Snapshot和Flink Checkpointing简介

实时计算 Flink SQL 核心功能解密

Flink SQL 功能解密系列 —— 维表 JOIN 与异步优化

阿里云实时计算产品案例&解决方案汇总

流计算精品翻译: The Dataflow Model

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

基于实时计算（Flink）打造一个简单的实时推荐系统

广告场景下的实时计算

展开全部

相关课程

更多

实时计算 Flink 版产品入门与实操

3806

10

去学习

开源 Flink 极速上手教程

1752

7

去学习

大数据实时计算框架Spark快速入门

778

93

去学习

Apache Flink 入门

4826

9

去学习

相关电子书

更多

Flink CDC Meetup PPT - 龚中强 立即下载

Flink CDC Meetup PPT - 王赫 立即下载

Flink CDC Meetup PPT - 覃立辉 立即下载

相关实验场景

更多