文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

Flink CDC里提2个TiDB source connector的bugs解决一下？

Flink CDC里提2个TiDB source connector的bugs，第一，当TiDB的一张表的字段数超过125，则解析记录时，记录的最后超过的字段的数据全部丢失，全部返回null。第二，当CDC的TiDB的表记录数很大时（有几千个regions），则当region发生合并，拆分之后，就再也收不到CDC数据。使用Flink CDC3.0版本，虽然是开源项目，但是也需要经过严格测试在release版本出来，免得使用者在生产环境中踩坑，非常的被动，上述2个bug经过源码排查，第一个是TiKV client类库自身的一个bug，第二是flink cdc的bug,希望社区有关开发者尽快修复啊。TiDB因为是golang开发的，所以TiKV client库的开发人员可能没有搞清楚java byte和golang byte类型的取值范围是不一样的，java是有符号的，而golang byte是无符号的。并且他们用一个byte类型的数组保存一行记录中字段的序号，在查找时又用了binarysearch，binarysearch要求数据是已排序的，所以有符号的和无符号的byte排序当然是不一样的，所以出现排序混乱导致超过127之后字段查询不到而返回null的bug，这是第一个bug，第二个bug涉及到org.tikv.common.util.ChannelFactory这个类中的缓存grpc channel的问题，这个缓存的实现是有问题的，在有几千个region的大表中，当发生合并，拆分后，channel已经失效了，但是为了提高效率，flink cdc复用了实效的channel，导致CDC events无法再接收到了。当然grpc channel是非常昂贵的资源，需要复用，这个没啥毛病，但是实现上有漏洞，我们正在自行修复这个问题。目前只是复现了这个bug。这种问题只有在实际的生产环境中才能暴露出来，一开始我们在测试环境没有遇到任何问题，我正打算把tidb这块的connector重新写一下。

展开

收起

小小鹿鹿鹿 2024-05-01 08:55:48 229 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

小小杳杳杳

谢谢非常详细的bug report，可以分别在 Flink Jira 和 TiDB Github 上开issue记录下哈，钉群消息很快会被淹没。此回答来自钉群Flink CDC 社区。

2024-05-01 13:03:29

赞同 2 展开评论

问答分类：

流计算 Go Java 缓存安全测试技术开发者实时计算 Flink版云解析DNS

问答标签：

实时计算 Flink版CDC 实时计算 Flink版connector 实时计算 Flink版cdc connector 实时计算 Flink版cdc source 实时计算 Flink版source connector

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

flink cdc source connector 分为普通cdc版本和sql版本有什么区别？

440

2

0

flinkcdc1.13版本自定义实现connector，join流有输入，但是没有输出，怎么解决？

310

1

0

flink作为source jar作业代码里面消费位点的订阅方式和控制台的有无状态启动有冲突吗？

217

1

0

如何提高 Flink CDC OceanBase Connector 的代码质量？

180

1

0

Flink CDC OceanBase Connector 开源后的易用性和稳定性如何？

167

1

0

未来如何优化 Flink CDC OceanBase Connector 的数据读取？

190

1

0

我看1.20的kafka connector没支持 Flink这个有大致支持的时间嘛？

212

0

0

Source API-Flink有几个接口？

520

1

0

各位大佬，请教一下，如果在flink cdc sql客户端使用SQL查询表，怎么能记录原系统的数据

2296

1

0

那cdc最新版支持到flink的哪个版本，flink1.15还有guava兼容性问题吗？

1823

0

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

互联网医院技术架构详解：从在线问诊到电子处方，系统是如何稳定运行的？

基于RAG架构的四标融合企业知识资产体系工程化建设：知识库、场景库、知识图谱与知识链接落地实践

大模型多租户隔离：资源隔离、权限管控、性能互不干扰，SaaS落地场景实战.156

阿里云百炼Qwen3.7模型怎么选？Qwen3.7-Max、Qwen3.7-Plus、Qwen3.7-Flash、Qwen-VL区别与选择参考

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

Flink CDC 能适配达梦不？

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

flink1.19和hive3.1.3，cdc从mysql同步数据到hive，插入时报错？

有用flink cdc同步mysql到hive这样搞过的源码吗?

flinkcdc在IDEA运行正常，打包就报错

如何用实时数据同步打破企业数据孤岛？

咨询下各位大佬，用Flink CDC 2.2.0同步MYSQL数据库，库表是latin1编码的时候？

在Flink想实时汇总数据，类似数据大屏功能，应该用阿里云Flink的什么功能服务？

Flink CDC2.4.1的版本sqlserver支持指定时间戳消费了吗？

展开全部

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

通过Flink实时构建搜索引擎的索引

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

Apache Flink 的迁移之路，2 年处理效果提升 5 倍

基于实时计算（Flink）打造一个简单的实时推荐系统

Flink Checkpoint 问题排查实用指南

史上超强阵容！大数据及人工智能领域顶级盛会，Flink Forward Asia 2019 不容错过！

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

如何正确使用 Flink Connector？

如何在 PyFlink 1.10 中自定义 Python UDF？

展开全部

还有其他疑问?