开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

在Flink什么情况作业会被认为是有限流作业呢?流作业不应该是无限的吗?

在Flink什么情况作业会被认为是有限流作业呢?流作业不应该是无限的吗? 是否为有限流是你们内部判断的吗?还是提交的时候需要传参?

展开
收起
三分钟热度的鱼 2023-11-30 17:27:53 37 0
3 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在Flink中,有限流作业和无限流作业是根据数据流的特性来区分的。

    有限流作业(Bounded Stream Jobs)是指具有确定开始和结束的数据流。这意味着在某个时刻,数据流将会结束,不再产生新的数据。例如,批处理作业就是典型的有限流作业,它们处理一批静态或历史数据,并且在所有输入数据被处理完后终止。

    无限流作业(Unbounded Stream Jobs)是指没有确定结束点的数据流。这类作业通常用于处理实时的、持续产生的数据流。例如,从传感器收集的实时数据或流式日志数据。无限流作业会持续运行并处理连续产生的数据,直到手动终止作业或发生故障。

    尽管流作业理论上可以运行无限时间,但实际上它们可能存在以下情况,导致它们被认为是有限流作业:

    1. 时间窗口或滚动窗口:在流作业中,常常使用基于时间的窗口来对数据进行分组和聚合操作。当使用固定大小的窗口(如5分钟窗口)或滚动窗口(如每分钟一个窗口)时,作业只处理有限范围内的数据,并在窗口结束后输出结果。这种情况下,流作业可以被视为有限流作业。

    2. 处理有限时间段的数据:在某些场景中,流作业只需处理一段特定时间内的数据,而不需要持续处理未来产生的数据。例如,分析过去24小时内的数据或者处理一个预定义的数据集。在这种情况下,流作业也可以被视为有限流作业。

    2023-11-30 21:08:25
    赞同 展开评论 打赏
  • 网站:http://ixiancheng.cn/ 微信订阅号:小马哥学JAVA

    参考阿里云的官方文档:
    https://help.aliyun.com/zh/flink/user-guide/manage-deployments-and-view-the-status-of-a-deployment
    进入资源配置入口。
    登录实时计算控制台。
    在Flink全托管页签,单击目标工作空间操作列下的控制台。
    在作业运维页面,单击目标作业名称。
    在部署详情页签,单击资源配置区域右侧的编辑。
    可以看到如下的参数:
    image.png
    配置了并发数之后,如果并发数超过了这个设置了就会被限流的。还有就是并发的内容大小的问题,如果并发的内容过大也会被限流处理;希望能够帮到你。

    2023-11-30 18:08:59
    赞同 展开评论 打赏
  • 比如我们提供的es源表,就是个有限流。此回答整理自钉群“实时计算Flink产品交流群”

    2023-11-30 18:03:20
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    Flink CDC Meetup PPT - 龚中强 立即下载
    Flink CDC Meetup PPT - 王赫 立即下载
    Flink CDC Meetup PPT - 覃立辉 立即下载