在使用Flink 1.9 SQL时,需要结合外部大量数据与当前流进行Join、TopN和Distinct操作,考虑采用初始化相关Operator的State方法,遇到下面几个问题,麻烦解答下: 1. 是否SQL或Table API是禁止设置uid或者uidhash的?包括对Kafka DataStreamSource设置了uid或者uidhash也无效? 2. 在不改变Graph下,对一个SQL Job 下某个GroupAggregator Operator进行State更新,根据WebUI已经拿到uidhash,但SavePoint API只允许传入uid,没有uidhash的方法,这个要怎么解决? 3. 最终是要解决以下问题:需要Union/Join大量外部Hive数据 =》 因为存在Finished Task 导致整个Job没法做checkpoint。解决这类问题有相关的实践方案吗?*来自志愿者整理的flink邮件归档
有一个疑问,你的流作业任务只需要关联 static data吗? 据我所知,这种场景很少,因为 streaming job 一般都是 long run 作业,所以关联的也是会变得数据。*来自志愿者整理的flink邮件归档
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。