开发者社区> 问答> 正文

一个关于实时合并数据的问题

想请教各位一个问题:目前有一个这样的需求:

数据流40W/s,数据有id,time,type....等字段,id有10亿个,现在想30分钟内,同一个id的信息只保存一条,时间的话要用事件的事件,不能用处理的时间 本人现在的思路是:根据id分组,然后做增量ck,状态信息存储每个id的最后的时间,然后每来一条数据会读取状态信息,然后做时间判断。但是发现这样做背压很高,数据消费很慢 请问各位,我这种思路是否可行?根据id分组会产生10亿个分组,这样会影响什么?还有其他更好的方法么?

谢谢各位解答疑惑!*来自志愿者整理的flink邮件归档

展开
收起
小阿怪 2021-12-06 12:28:56 904 0
1 条回答
写回答
取消 提交回答
  • 根据 id 去重并不意味着根据 id 做 keyby 分组,比如可以将 id 做个 mod 分成若干有限组,然后在 processFunction 中 MapState 存储 <id, 1> 进行去重处理

    *来自志愿者整理的flink邮件归档

    2021-12-06 13:28:18
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
效率提升:表格存储实时数据流:Stream的技术揭秘和应用场景 立即下载
实战-如何基于HBase构建图片视频数据的统一存储检索方案 立即下载
FLINK在大规模实时无效广告流量检测中的应用 立即下载