流式计算中的 Window 计算| 青训营笔记

本文涉及的产品
实时计算 Flink 版,1000CU*H 3个月
简介: Watermark定义:当前系统认为的事件时间所在的真实时间。

流式计算中的 Window 计算| 青训营笔记


这是我参与「第四届青训营 」笔记创作活动的的第3天

参考链接:

1.第四届字节跳动青训营

批式计算和流式计算的对比:

1.png

Watermark

Watermark定义:当前系统认为的事件时间所在的真实时间。


Watermark产生:一般是从数据的事件时间来产生,产生策略可以灵活多样,最常见的包括使用当前事件时间的时间减去一个固定的delay,来表示可以可以容忍多长时间的乱序。


Watermark传递:这个类似于Checkpoint的制作过程,传递类似于Checkpoint的barrier,上下游task之间有数据传输关系的,上游就会将watermark传递给下游;下游收到多个上游传递过来的watermark后,默认会取其中最小值来作为自身的watermark,同时它也会将自己watermark传递给它的下游。


经过整个传递过程,最终系统中每一个计算单元就都会实时的知道自身当前的watermark是多少。

1.png

后面会介绍典型的watermark在生产实践中经常遇到的几个问题:

  • 怎么观察一个任务中的watermark是多少,是否是正常的
  • 一般通过Flink Web UI上的信息来观察当前任务的watermark情况
  • 这个问题是生产实践中最容易遇到的问题,大家在开发事件时间的窗口任务的时候,经常会忘记了设置watermark,或者数据太少,watermark没有及时的更新,导致窗口一直不能触发。


  • Per-partition / Per-subtask 生成watermark的优缺点
  • 在Flink里早期都是per-subtask的方式进行watermark的生成,这种方式比较简单。但是如果每个source task如果有消费多个partition的情况的话,那多个partition之间的数据可能会因为消费的速度不同而最终导致数据的乱序程度增加。
  • 后期(上面图中)就逐步的变成了per-partition的方式来产生watermark,来避免上面的问题。


  • 如果有部分partition/subtask会断流,应该如何处理
  • 数据断流是很常见的问题,有时候是业务数据本身就有这种特点,比如白天有数据,晚上没有数据。在这种情况下,watermark默认是不会更新的,因为它要取上游subtask发来的watermark中的最小值。此时我们可以用一种IDLE状态来标记这种subtask,被标记为这种状态的subtask,我们在计算watermark的时候,可以把它先排除在外。这样就可以保证有部分partition断流的时候,watermark仍然可以继续更新。


  • 算子对于时间晚于watermark的数据的处理
  • 对于迟到数据,不同的算子对于这种情况的处理可以有不同的实现(主要是根据算子本身的语义来决定的)比如window对于迟到的数据,默认就是丢弃;比如双流join,对于迟到数据,可以认为是无法与之前正常数据join上;CEP默认丢弃


Window


  1. window的基本概念、分类、以及三种最常见的window的功能;同时也会讲解使用window的时候的一些典型的问题;
  2. window中涉及到的一些高级的优化及其实现原理。


Window 基本功能


TUMBLE Window (滚动窗口)

这是最常见的窗口类型,就是根据数据的时间(可以是处理时间,也可以是事件时间)划分到它所属的窗口中

windowStart = timestamp - timestamp % windowSize,这条数据所属的window就是[windowStart, windowStart + windowSize)

在我们使用window的过程中,最容易产生的一个疑问是,window的划分是subtask级别的,还是key级别的。这里大家要记住,Flink中的窗口划分是key级别的


比如下方的图中,有三个key (user) ,那每个key的窗口都是单独的。所以整个图中,一种存在14个窗口。

窗口的触发,是时间大于等于window end的时候,触发对应的window的输出(计算有可能提前就增量计算好了),目前的实现是给每个window都注册一个timer,通过处理时间或者事件时间的timer来触发window的输出。

1.png


HOP Window (滑动窗口)


了解了上面的TUMBLE窗口的基本原理后,HOP窗口就容易理解了.

上面的TUMBLE窗口是每条数据只会落在一个窗口中。在HOP窗口中,每条数据是可能会属于多个窗口的(具体属于多少,取决于窗口定义的大小和滑动).

比如下图中假设滑动是1h的话,那窗口大小就是2h,这种情况每条数据会属于两个窗口。

HOP Window也是key级别划分窗口,也是靠timer进行窗口触发输出

1.png


SESSIONWindow (会话窗口)


会话窗口跟上面两种窗口区别比较大,上面两个窗口的划分,都是根据当前数据的时间就可以直接确定它所属的窗口。会话窗口的话,是一个动态merge的过程。一般会设置一个会话的最大的gap,比如10min。


那某个key下面来第一条数据的时候,它的window就是 [event_time, event_time + gap),当这个key后面来了另一条数据的时候,它会立即产生一个窗口,如果这个窗口跟之前的窗口有overlap的话,则会将两个窗口进行一个merge成一个更的窗口,此时需要将之前定义的timer取消,再注册一个新的timer

所以会话窗口要求所有的聚合函数都必须有实现merge

1.png

迟到数据处理


根据上面说到的watermark原理,watermark驱动某个窗口触发输出之后,这个窗口如果后面又来了数据,那这种情况就属于是迟到的数据了。(注意,不是数据的时间晚于watermark就算是迟到,而是它所属的窗口已经被触发了,才算迟到)。

对于迟到的数据,我们现在有两种处理方式:

  1. 使用side output方式,把迟到的数据转变成一个单独的流,再由用户自己来决定如何处理这部分数据
  2. 直接drop


注意:side output只有在DataStream的窗口中才可以用,在SQL中目前还没有这种语义,所以暂时只有drop这一个策略。


增量计算 VS 全量计算


这个问题也是使用窗口的时候最典型的问题之一。先定义一下:

  • 增量计算:每条数据到来后,直接参与计算(但是还不需要输出结果)
  • 全量计算:每条数据到来后,先放到一个buffer中,这个buffer会存储到状态里,直到窗口触发输出的时候,才把所有数据拿出来统一进行计算


在SQL里面,主要是窗口聚合,所以都是可以增量计算的,也就是每条数据来了之后都可以直接进行计算,而不用把数据都存储起来。


举个例子,比如要做sum计算,那每来一条数据,就直接把新的数据加到之前的sum值上即可,这样我们就只需要存储一个sum值的状态,而不需要存储所有buffer的数据,状态量会小很多。


DataStream里面要用增量计算的话,需要用reduce/aggregate等方法,就可以用到增量计算。如果用的是process接口,这种就属于是全量计算。


EMIT触发


上面讲到,正常的窗口都是窗口结束的时候才会进行输出,比如一个1天的窗口,只有到每天结束的时候,窗口的结果才会输出。这种情况下就失去了实时计算的意义了。


那么EMIT触发就是在这种情况下,可以提前把窗口内容输出出来的一种机制。比如我们可以配置一个1天的窗口,每隔5s输出一次它的最新结果,那这样下游就可以更快的获取到窗口计算的结果了。


这个功能只在SQL中,如果是在DataStream中需要完成类似的功能,需要自己定义一些trigger来做。


这种emit的场景就是一个典型的retract的场景,发送的结果类似于+[1], -[1], +[2], -[2], +[4]这样子。这样才能保证window的输出的最终结果是符合语义的。


关于retract - 0 0 1 33946 Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

通俗讲retract就是传统数据里面的更新操作,也就是说retract是流式计算场景下对数据更新的处理方式。

一个例子:

1.png

没有retraction就错了,最后一个,cnt=1的只有两个单词。

1.png

Window Offset

按照上面提到的,滚动窗口的计算方式是:windowStart = timestamp - timestamp % windowSize [windowStart, windowStart + windowSize),这个时间戳是按照unix timestamp来算的。


比如我们要用一个一周的窗口,想要的是从周一开始,到周日结束,但是按照上面这种方式计算出来的窗口的话,就是从周四开始的(因为1970年1月1日是周四)。


那么window offset的功能就是可以在计算窗口的时候,可以让窗口有一个偏移。所以最终计算window的公式就变成了:windowStart = timestamp - (timestamp - offset + windowSize) % windowSize

DataStream原生就是支持offset的,但是SQL里并不支持,字节内部版本扩展支持了SQL的window offset功能。


Window 高级优化


以下说的所有的高级优化,都只限于在SQL中的window中才有。在DataStream中,用户需要自己通过代码来实现类似的能力。

Mini-batch

一般来讲,Flink的状态比较大一些都推荐使用rocksdb statebackend,这种情况下,每次的状态访问就都需要做一次序列化和反序列化,这种开销还是挺大的。


为了降低这种开销,我们可以通过0来解决,这就是mini-batch最主要解决的问题:即赞一小批数据再进行计算,这批数据每个key的state访问只有一次,这样在单个key的数据比较集中的情况下,对于状态访问可以有效的降低频率,最终提升性能。

这个优化主要是适用于没有窗口的聚合场景,字节内部也扩展了window来支持mini-batch,在某些场景下的测试结果可以节省20-30%的CPU开销。


mini-batch看似简单,实际上设计非常巧妙。假设用最简单的方式实现,那就是每个算子内部自己进行攒一个小的batch,这样的话,如果上下游串联的算子比较多,任务整体的延迟就不是很容易控制。所以真正的mini-batch实现,是复用了底层的watermark传输机制,通过watermark事件来作为mini-batch划分的依据,这样整个任务中不管串联的多少个算子,整个任务的延迟都是一样的,就是用户配置的delay时间。


下面这张图展示的是普通的聚合算子的mini-batch原理,window的mini-batch原理是一样的。

1.png

simple aggregation:一个一个的进行aggregation operator

minibach aggregation:以batch(批量),即多个一起放进agg operator中进行计算等操作。

Local-global

local-global优化是分布式系统中典型的优化,主要是可以降低数据shuffle的量,同时也可以缓解数据的倾斜

所谓的local-global,就是将原本的聚合划分成两阶段,第一阶段先做一个local的聚合,这个阶段不需要数据shuffle,是直接跟在上游算子之后进行处理的;第二个阶段是要对第一个阶段的结果做一个merge(还记得上面说的session window的merge么,这里要求是一样的。如果存在没有实现merge的聚合函数,那么这个优化就不会生效)。


如下图所示,比如是要对数据做一个sum,同样颜色的数据表示相同的group by的key,这样我们可以再local agg阶段对他们做一个预聚合;然后到了global阶段数据倾斜就消除了。

1.png

Local Agg将同颜色的加起来了


Distinct状态复用


对于distinct的优化,一般批里面的引擎都是通过把它优化成aggregate的方式来处理,但是在流式window中,我们不能直接这样进行优化,要不然算子就变成会下发retract的数据了。


所以在流式中,对于count distinct这种情况,我们是需要保存所有数据是否出现过这样子的一个映射。


在SQL中,我们有一种方式可以在聚合函数上添加一些filter,如下面的SQL所示:

1.png

像这种情况,我们会对同一个字段不同的filter来进行count distinct的计算。


如果每个指标都单独用一个map来记录每条数据是否出现过,那状态量是很大的。


我们可以把相同字段的distinct计算用一个map的key来存储,在map的value中,用一个bit vector来实现就可以把各个状态复用到一起了。比如一个bigint有64位,可以表示同一个字段的64个filter,这样整体状态量就可以节省很多了。

1.png


滑动窗口pane复用


滑动窗口如上面所述,一条数据可能会属于多个window。所以这种情况下同一个key下的window数量可能会比较多,比如3个小时的窗口,1小时的滑动的话,每条数据到来会直接对着3个窗口进行计算和更新。这样对于状态访问频率是比较高的,而且计算量也会增加很多。


优化方法就是,将窗口的状态划分成更小粒度的pane,比如上面3小时窗口、1小时滑动的情况,可以把pane设置为1h,这样每来一条数据,我们就只更新这条数据对应的pane的结果就可以了。


当窗口需要输出结果的时候,只需要将这个窗口对应的pane的结果merge起来就可以了。


注意:这里也是需要所有聚合函数都有merge的实现的

1.png


参考资料


  1. Streaming 101

www.oreilly.com/radar/the-w…

  1. Streaming 102

www.oreilly.com/radar/the-w…

  1. Flink 官方文档

flink.apache.org/

  1. Flink SQL 开发文档

nightlies.apache.org/flink/flink…

  1. DataStream Window 官方文档

nightlies.apache.org/flink/flink…

  1. SQL Window 官方文档

nightlies.apache.org/flink/flink…

  1. DataStream 中对于 Watermark 的介绍

nightlies.apache.org/flink/flink…

  1. SQL 中的时间属性的文档介绍

nightlies.apache.org/flink/flink…

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
|
3天前
|
存储 人工智能 安全
AI 越智能,数据越危险?
阿里云提供AI全栈安全能力,为客户构建全链路数据保护体系,让企业敢用、能用、放心用
|
6天前
|
域名解析 人工智能
【实操攻略】手把手教学,免费领取.CN域名
即日起至2025年12月31日,购买万小智AI建站或云·企业官网,每单可免费领1个.CN域名首年!跟我了解领取攻略吧~
|
5天前
|
数据采集 人工智能 自然语言处理
3分钟采集134篇AI文章!深度解析如何通过云无影AgentBay实现25倍并发 + LlamaIndex智能推荐
结合阿里云无影 AgentBay 云端并发采集与 LlamaIndex 智能分析,3分钟高效抓取134篇 AI Agent 文章,实现 AI 推荐、智能问答与知识沉淀,打造从数据获取到价值提炼的完整闭环。
395 93
|
6天前
|
SQL 人工智能 自然语言处理
Geo优化SOP标准化:于磊老师的“人性化Geo”体系如何助力企业获客提效46%
随着生成式AI的普及,Geo优化(Generative Engine Optimization)已成为企业获客的新战场。然而,缺乏标准化流程(Geo优化sop)导致优化效果参差不齐。本文将深入探讨Geo专家于磊老师提出的“人性化Geo”优化体系,并展示Geo优化sop标准化如何帮助企业实现获客效率提升46%的惊人效果,为企业在AI时代构建稳定的流量护城河。
395 156
Geo优化SOP标准化:于磊老师的“人性化Geo”体系如何助力企业获客提效46%
|
5天前
|
数据采集 缓存 数据可视化
Android 无侵入式数据采集:从手动埋点到字节码插桩的演进之路
本文深入探讨Android无侵入式埋点技术,通过AOP与字节码插桩(如ASM)实现数据采集自动化,彻底解耦业务代码与埋点逻辑。涵盖页面浏览、点击事件自动追踪及注解驱动的半自动化方案,提升数据质量与研发效率,助力团队迈向高效、稳定的智能化埋点体系。(238字)
284 158
|
13天前
|
机器人 API 调度
基于 DMS Dify+Notebook+Airflow 实现 Agent 的一站式开发
本文提出“DMS Dify + Notebook + Airflow”三位一体架构,解决 Dify 在代码执行与定时调度上的局限。通过 Notebook 扩展 Python 环境,Airflow实现任务调度,构建可扩展、可运维的企业级智能 Agent 系统,提升大模型应用的工程化能力。