Flink数据源问题之同步数据如何解决-阿里云开发者社区

Flink数据源问题之同步数据如何解决

2024-02-23 52

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

简介： Flink数据源是指Apache Flink用于读取外部系统数据的接口或组件；本合集将探讨Flink数据源的类型、配置方法和最佳实践，以及在使用数据源时可能遇到的错误和解决方案。

问题一：flink有大佬遇到过同步之后源和目标的数据记录对不上的情况，但是又没有报错的日志吗？

flink有大佬遇到过同步之后源和目标的数据记录对不上的情况，但是又没有报错的日志吗？

参考回答：

这种情况可能是因为flink的checkpoint机制导致的，在flink进行checkpoint时会暂停流程，如果在checkpoint过程中有数据进入，可能会在checkpoint之后才进行处理，导致数据不匹配。可以尝试调整checkpoint的时间间隔和触发时间，或者使用exactly-once语义来保证数据的一致性。

关于本问题的更多回答可点击原文查看：https://developer.aliyun.com/ask/476280?spm=a2c6h.14164896.0.0.1bf2d9dfeERj61

问题二：使用flink standalone模式同步数据的时候，源端数据量有300多w，sql脚本里面的select语句查不到数据，但是如果把select语句后加上limit 100w的话，就可读到了，这个原因是啥？在读不到数据的时候，taskmanager的内存会慢慢的涨，一直到oom

使用flink standalone模式同步数据的时候，源端数据量有300多w，sql脚本里面的select语句查不到数据，但是如果把select语句后加上limit 100w的话，就可读到了，这个原因是啥？在读不到数据的时候，taskmanager的内存会慢慢的涨，一直到oom

参考回答：

GitHub https://github.com/co63oc/cloud

不加limit查所有数据内存不足

关于本问题的更多回答可点击原文查看：https://developer.aliyun.com/ask/481216?spm=a2c6h.14164896.0.0.7cfbd9dfmRc7WX

问题三：同一个oracle cdc表，如果flink job重新提交，是会全量读取一遍源数据还是增量呢？

请问同一个oracle cdc表，如果flink job重新提交，是会全量读取一遍源数据还是增量呢？我现在发现个现象，执行count语句时，重新开一个job，这个计数是慢慢从0往上加的

关于本问题的更多回答可点击原文查看：https://developer.aliyun.com/ask/444565?spm=a2c6h.14164896.0.0.5c71d9dfBYG7Od

问题四：利用flink做定时调度（窗口在flinkSQL里，不能对kafka这种数据源进行聚合），这种做法合规嘛

在udf封装sink操作的这种做法，合规嘛

相当于流来驱动计算，但计算的内容可能已经不是流本身了另外，可以在udf的open函数里，注册定时器嘛，利用flink做定时调度（窗口在flinkSQL里，不能对kafka这种数据源进行聚合），这种做法合规嘛

关于本问题的更多回答可点击原文查看：https://developer.aliyun.com/ask/461105?spm=a2c6h.14164896.0.0.5c71d9dfBYG7Od

问题五：flink table使用cdc读取mysql数据源报错 unknown error 1227. mysql用户也有replicarion slave 还有replication client权限，请问下这个问题还有可能是什么原因引起的呢？

flink table使用cdc读取mysql数据源报错 unknown error 1227. mysql用户也有replicarion slave 还有replication client权限，请问下这个问题还有可能是什么原因引起的呢？

关于本问题的更多回答可点击原文查看：https://developer.aliyun.com/ask/460625?spm=a2c6h.14164896.0.0.5c71d9dfBYG7Od

Flink数据源问题之同步数据如何解决

问题一：flink有大佬遇到过同步之后源和目标的数据记录对不上的情况，但是又没有报错的日志吗？

问题三：同一个oracle cdc表，如果flink job重新提交，是会全量读取一遍源数据还是增量呢？

问题四：利用flink做定时调度（窗口在flinkSQL里，不能对kafka这种数据源进行聚合），这种做法合规嘛

问题五：flink table使用cdc读取mysql数据源报错 unknown error 1227. mysql用户也有replicarion slave 还有replication client权限，请问下这个问题还有可能是什么原因引起的呢？

实时计算 Flink

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景