开发者社区> 问答> 正文

是否SQL或Table API是禁止设置uid或者uidhash的?包括对Kafka DataStr

在使用Flink 1.9 SQL时,需要结合外部大量数据与当前流进行Join、TopN和Distinct操作,考虑采用初始化相关Operator的State方法,遇到下面几个问题,麻烦解答下: 1. 是否SQL或Table API是禁止设置uid或者uidhash的?包括对Kafka DataStreamSource设置了uid或者uidhash也无效? 2. 在不改变Graph下,对一个SQL Job 下某个GroupAggregator Operator进行State更新,根据WebUI已经拿到uidhash,但SavePoint API只允许传入uid,没有uidhash的方法,这个要怎么解决? 3. 最终是要解决以下问题:需要Union/Join大量外部Hive数据 =》 因为存在Finished Task 导致整个Job没法做checkpoint。解决这类问题有相关的实践方案吗?*来自志愿者整理的flink邮件归档

展开
收起
彗星halation 2021-12-08 10:13:28 1027 0
1 条回答
写回答
取消 提交回答
    1. table 不禁止 uid/uidhash 的使用。
    2. 你说的 Savepoint API 是指 State Processor API 吗?据我所知,目前只支持 uid。
    3. 有一个方法是,让你的 hive source 不finish(会浪费资源,但能做 checkpoint)。

    有一个疑问,你的流作业任务只需要关联 static data吗? 据我所知,这种场景很少,因为 streaming job 一般都是 long run 作业,所以关联的也是会变得数据。*来自志愿者整理的flink邮件归档

    2021-12-08 10:55:15
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
SQL Server在电子商务中的应用与实践 立即下载
GeoMesa on Spark SQL 立即下载
原生SQL on Hadoop引擎- Apache HAWQ 2.x最新技术解密malili 立即下载