开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

flink 滑动窗口怎么避免数据重复计算呢?

flink 滑动窗口怎么避免数据重复计算呢?我的数据是每5秒上报一次,然后进行计算,我应该使用什么窗口比较合适呢,需要用当前的数据和上条数据进行对比

展开
收起
真的很搞笑 2023-11-21 08:06:43 405 0
3 条回答
写回答
取消 提交回答
  • 用datastream 自己维护状态不就得了,不用滑动
    需要当前数据和上一条数据对比,不用窗口也行,此回答整理自钉群“【③群】Apache Flink China社区”

    2023-11-21 22:20:23
    赞同 展开评论 打赏
  • 为了避免数据重复计算,可以使用Flink的滑动窗口。根据你的需求,每5秒上报一次数据并进行计算,可以使用以下窗口类型:

    1. 基于时间的滚动窗口(Tumbling Window):这种窗口会根据指定的时间间隔对数据进行分区。例如,可以设置一个5秒的窗口,这样每个窗口内的数据都是5秒内的上报数据。在窗口结束时,会触发一个计算任务。

    2. 基于事件的滑动窗口(Sliding Window):这种窗口会根据事件数量来对数据进行分区。例如,可以设置一个5秒的窗口,这样每个窗口内的数据都是5秒内的上报数据。当窗口中的数据达到指定数量时,会触发一个计算任务。

    对于你的需求,使用基于时间的滚动窗口可能更合适,因为你需要用当前的数据和上条数据进行对比。你可以设置一个5秒的窗口,这样每个窗口内的数据都是5秒内的上报数据。在窗口结束时,会触发一个计算任务,这样就可以避免数据重复计算了。

    2023-11-21 15:34:40
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    为了避免滑动窗口中的数据重复计算,您可以尝试以下几种方法:

    1. 定义事件时间语义:设置 watermark 并定义 event time 语义来管理时间戳。通过这样做,滑动窗口只会在 watermark 超过窗口结束时间之后才关闭窗口并将结果输出。这意味着只有在所有迟到数据到达后才会触发聚合结果的输出。如果存在晚于 watermark 的记录,则系统会在 watermark 后续进程中重新打开并更新窗口的结果。

    2. 定义滚动聚合:针对滑动窗口,您可以使用滚动聚合,即每次滑动步长更新窗口内的累计值而非整个窗口的聚合结果。这样可以在保证实时性的前提下减少计算开销,并防止由于后续条目改变之前的累积结果而导致重复计算的问题。

    3. 使用 watermark 来阻止重复计算:将 watermark 设置为您允许的最大延迟时间间隔。这样,当超过此时间的记录到达时,会被忽略,从而降低重复计算的风险。

    对于每5秒上报一次的数据并需要基于前后两条数据进行计算的情况,您可以使用 Tumbling Event Time Windows 或 Sliding Event Time Windows。Tumbling Event Time Windows 是按照固定的时间段将事件分组在一起,而 Sliding Event Time Windows 则是每隔一段固定的时间滑动地将事件分组在一起。这两者都可以让您按时间顺序比较前一条和当前条记录。

    2023-11-21 14:15:53
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    Flink CDC Meetup PPT - 龚中强 立即下载
    Flink CDC Meetup PPT - 王赫 立即下载
    Flink CDC Meetup PPT - 覃立辉 立即下载