1、为什么source 默认要从 earliest 开始消费,是为了能够找到或者 补全 update before 数据? kafka
数据也有清理周期,给我感觉是 如果 state 找不到 就是 insert . 如果下游sink 能做 upsert 处理 比如 hbase 是不是
source 就可以解除这限制
2、翻了下 代码 没找到维护 sate 的源码位置,请指导下 核心类
3、Upsert kafka 作为 source 是否有严格要求 消息生产端必须对 消息进行 分区,使得 相同主键的 数据发送到同一个 kafka
partition.*来自志愿者整理的flink邮件归档
当初的设计是一个较为保守的设计,其主要目的就是为了能够补全delete消息;
核心类是 StreamExecChangelogNormalize[1]
是的。目前 Upsert-kafka 要求具有相同key的数据在相同 partition 的。因为 kafka 仅保证 partiiton 内按
offset 读取,如果相同 key 的数据分布在不同 partition 的话,那么读取会乱序。
策略不一致,会shuffle的。
请问具体是有什么需求吗? 另外能再说说 ksql 具体的限制吗?
[1]
https://github.com/apache/flink/blob/99c2a415e9eeefafacf70762b6f54070f7911ceb/flink-table/flink-table-planner-blink/src/main/java/org/apache/flink/table/planner/plan/nodes/exec/stream/StreamExecChangelogNormalize.java*来自志愿者整理的FLINK邮件归档
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。