开发者社区> 问答> 正文

如何实现不管窗口时间,在Apache Flink中组合两个数据流?

我有两个想要组合的数据流。问题是一个数据流的频率比另一个高得多,有时一个流根本没有接收事件。是否可以使用另一个流的最后一个事件,并在即将到来的每个事件上将其与另一个流连接?
我找到的唯一解决方案是使用join函数,但必须指定一个共同窗口。当一个流没有接收到任何事件时,这是未达到的窗口。是否有可能对来自任何一个流或另一个流的每个事件应用join函数并维护上次使用的事件的状态并将此事件用于join函数?

展开
收起
【方向】 2018-11-17 20:31:15 2676 0
1 条回答
写回答
取消 提交回答
  • flink是一个类似spark的“开源技术栈”,因为它也提供了批处理,流式计算,图计算,交互式查询,机器学习等。 flink 也是内存计算,比较类似spark,但是不一样的是,spark的计算模型基于RDD,将流式计算看成是特殊的批处理,他的DStream其实还是 RDD。而flink吧批处理当成是特殊的流式计算,但是批处理和流式计算的层的引擎是两个,抽象了DataSet和DataStream。 flink在性能上也标新很好,流式计算延迟比spark少,能做到真正的流式计算,而spark只能是准流式计算。而且在批处理上,当迭代次数变多,flink的速度比spark还要快,所以如果flink早一点出来,或许比现在的Spark更火。

    答案来源于网络

    2019-09-27 19:03:14
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Apache Flink技术进阶 立即下载
Apache Spark: Cloud and On-Prem 立即下载
Hybrid Cloud and Apache Spark 立即下载

相关镜像