开发者社区 问答 正文

flink海量数据高效去重具体是什么啊?

flink海量数据高效去重具体是什么啊?

展开
收起
游客vwuxaq6iqaowc 2021-12-08 15:40:09 500 分享 版权
1 条回答
写回答
取消 提交回答
  • ①基于状态后端 ②基于HyperLogLog:不是精准的去重 ③基于布隆过滤器(BloomFilter) 快速判断一个key是否存在于某容器,不存在就直接返回。 ④基于BitMap 用一个bit位来标记某个元素对应的Value,而Key即是该元素。由于采用了Bit为单位来存储数据,因此可以大大节省存储空间。 ⑤基于外部数据库 选择使用Redis或者HBase存储数据,我们只需要设计好存储的Key即可,不需要关心Flink任务重启造成的状态丢失问题

    2021-12-08 15:42:01
    赞同 展开评论
问答标签:
问答地址: