问题一:flink有大佬遇到过同步之后源和目标的数据记录对不上的情况,但是又没有报错的日志吗?
flink有大佬遇到过同步之后源和目标的数据记录对不上的情况,但是又没有报错的日志吗?
参考回答:
这种情况可能是因为flink的checkpoint机制导致的,在flink进行checkpoint时会暂停流程,如果在checkpoint过程中有数据进入,可能会在checkpoint之后才进行处理,导致数据不匹配。可以尝试调整checkpoint的时间间隔和触发时间,或者使用exactly-once语义来保证数据的一致性。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/476280?spm=a2c6h.14164896.0.0.1bf2d9dfeERj61
问题二:使用flink standalone模式同步数据的时候,源端数据量有300多w,sql脚本里面的select语句查不到数据,但是如果把select语句后加上limit 100w的话,就可读到了,这个原因是啥? 在读不到数据的时候,taskmanager的内存会慢慢的涨,一直到oom
使用flink standalone模式同步数据的时候,源端数据量有300多w,sql脚本里面的select语句查不到数据,但是如果把select语句后加上limit 100w的话,就可读到了,这个原因是啥? 在读不到数据的时候,taskmanager的内存会慢慢的涨,一直到oom
参考回答:
GitHub https://github.com/co63oc/cloud
不加limit查所有数据内存不足
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/481216?spm=a2c6h.14164896.0.0.7cfbd9dfmRc7WX
问题三:同一个oracle cdc表,如果flink job重新提交,是会全量读取一遍源数据还是增量呢?
请问同一个oracle cdc表,如果flink job重新提交,是会全量读取一遍源数据还是增量呢?我现在发现个现象,执行count语句时,重新开一个job,这个计数是慢慢从0往上加的
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/444565?spm=a2c6h.14164896.0.0.5c71d9dfBYG7Od
问题四:利用flink做定时调度(窗口在flinkSQL里,不能对kafka这种数据源进行聚合),这种做法合规嘛
在udf封装sink操作的这种做法,合规嘛
相当于流来驱动计算,但计算的内容可能已经不是流本身了 另外,可以在udf的open函数里,注册定时器嘛,利用flink做定时调度(窗口在flinkSQL里,不能对kafka这种数据源进行聚合),这种做法合规嘛
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/461105?spm=a2c6h.14164896.0.0.5c71d9dfBYG7Od
问题五:flink table使用cdc读取mysql数据源报错 unknown error 1227. mysql用户也有replicarion slave 还有replication client权限,请问下这个问题还有可能是什么原因引起的呢?
flink table使用cdc读取mysql数据源报错 unknown error 1227. mysql用户也有replicarion slave 还有replication client权限,请问下这个问题还有可能是什么原因引起的呢?
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/460625?spm=a2c6h.14164896.0.0.5c71d9dfBYG7Od