开发者社区> 问答> 正文

Spark - 组合所有执行程序的过滤结果

我的spark流媒体工作中有3个执行器,它们来自Kafka。执行程序计数取决于主题中的分区计数。我开始查询Hazelcast。每个执行程序都会在hazelcast上找到一些过滤操作的结果,并返回重复的结果。因为当执行程序返回数据时数据状态不会更新,而其他执行程序找到相同的数据。

我的问题是,有没有办法将所有结果合并到执行程序在流式传输过程中找到的一个列表中?

展开
收起
社区小助手 2018-12-11 18:02:43 1499 0
1 条回答
写回答
取消 提交回答
  • 社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。

    Spark Executors分布在群集中,因此如果您尝试跨群集重复数据删除。所以重复数据删除很难。你有以下选择

    使用accumulators.-这里的问题是当作业运行时累加器不一致,你最终可能会读取陈旧的数据
    其他选项是将此工作卸载到外部系统。 - 将您的输出存储在一些可以对其进行重复数据删除的外部存储中。(可能是HBase)。这种存储系统的效率是关键。

    2019-07-17 23:19:57
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载