开发者社区> 问答> 正文

求教下,spark根据时间戳去重,比如某个id假如在最近15min内出现过就认为是重复曝光,然后去掉,有啥好的实现方式不?[感谢]

小六码奴 2019-06-06 15:34:39 139

求教下,spark根据时间戳去重,比如某个id假如在最近15min内出现过就认为是重复曝光,然后去掉,有啥好的实现方式不?我现在想的是搞个map去存他的时间戳,然后来一条就去看下,15min内就去掉,15min外就更新下这个时间戳,但是觉得有点不太优雅[捂脸]

分布式计算 Spark
分享到
取消 提交回答
全部回答(1)
  • 小六码奴
    2019-07-17 23:36:54

    怼个redis set,手动15或者20分钟扫一遍扔掉超时的,或者不考虑优化直接上TTL?

    0 0
+ 订阅

大数据计算实践乐园,近距离学习前沿技术

推荐文章
相似问题
推荐课程