开发者社区> 问答> 正文

求教下,spark根据时间戳去重,比如某个id假如在最近15min内出现过就认为是重复曝光,然后去掉,有啥好的实现方式不?[感谢]

求教下,spark根据时间戳去重,比如某个id假如在最近15min内出现过就认为是重复曝光,然后去掉,有啥好的实现方式不?我现在想的是搞个map去存他的时间戳,然后来一条就去看下,15min内就去掉,15min外就更新下这个时间戳,但是觉得有点不太优雅[捂脸]

展开
收起
小六码奴 2019-06-06 15:34:39 3053 0
1 条回答
写回答
取消 提交回答
  • 怼个redis set,手动15或者20分钟扫一遍扔掉超时的,或者不考虑优化直接上TTL?

    2019-07-17 23:36:54
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载

相关实验场景

更多