开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

窗口聚合不能和Flink CDC一块用吗?那我想持续统计一些访问量啥的,该怎么写呢?那想要持续统计,

问题1:窗口聚合不能和Flink CDC一块用吗?那我想持续统计一些访问量啥的,该怎么写呢?那想要持续统计,还要开定时任务去统计楼,因为对于新的数据在统计之前是没有的
问题2:有这两个时间,关键是想,窗口函数,是不是一次统计完了就结束了,对于下次新来的数据,还要在执行一遍统计,是这样吗?

展开
收起
真的很搞笑 2023-08-01 15:13:40 106 0
2 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    Flink CDC本质上是一个数据源,用于实时读取和处理源数据库中的数据变更事件。而窗口聚合是Flink提供的一种数据处理功能,用于对数据流进行实时的聚合操作。

    在Flink中,可以将Flink CDC和窗口聚合结合起来使用,实现实时的数据统计和分析。具体来说,可以使用Flink的DataStream API,将Flink CDC的数据源作为输入流,然后对输入流进行窗口聚合操作。可以使用Flink提供的窗口函数,如Tumbling Window、Sliding Window等,对数据流进行聚合计算。对于持续统计访问量等指标的场景,可以使用滚动窗口,将数据流分为固定大小的窗口,并在窗口内进行聚合计算,以得到实时的统计结果。

    对于新的数据在统计之前是没有的这个问题,可以考虑使用Flink的状态编程功能,将窗口聚合的状态保存在Flink的状态后端中,以便在新的数据到达时,能够正确地更新聚合结果。可以使用Flink提供的状态后端,如RocksDB、HDFS等,对状态进行持久化存储,以保证数据的可靠性和一致性。

    需要注意的是,在使用Flink CDC和窗口聚合时,需要根据具体的场景和需求,选择合适的配置和参数,以达到最佳的性能和可靠性。同时,也需要注意监控和调优系统性能和稳定性,以提高系统的可靠性和性能。

    2023-08-01 18:27:24
    赞同 展开评论 打赏
  • 回答1:不支持,你只能按时间聚合,访问量的统计一般走的是埋点或者登录日志,哪有走业务表的,埋点,登录日志这种要和业务表区分开的,埋点登录日志一般走kafka或者sls这种,你给表加两个字段,创建时间和修改时间
    回答2:你这是聚合,此回答整理自钉群“Flink CDC 社区”

    2023-08-01 15:26:56
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 热门讨论

    热门文章

    相关电子书

    更多
    Flink CDC Meetup PPT - 龚中强 立即下载
    Flink CDC Meetup PPT - 王赫 立即下载
    Flink CDC Meetup PPT - 覃立辉 立即下载