flink1.13默认的跑批shuffle模式是什么啊？

展开

收起

三分钟热度的鱼 2023-11-01 13:07:37 121 0

4 条回答

写回答

取消提交回答

穿过生命散发芬芳

目前Flink支持3中shuffle mode，分别是Block Shuffle Mode，Pipeline Shuffle Mode，Hybrid Shuffle Mode。

默认Block Shuffle Mode的实现是hash shuffle mode。hash shuffle模式是每个上游的任务会针对对应的每个下游任务持久化数据到单独的文件。当下游任务运行时，他们会从上游任务对应的分区中获取数据，下游任务通过网络读取文件并传输数据。

2023-11-04 00:51:58

赞同 1 展开评论打赏
sunrr

Flink 1.13的默认批处理数据交换模式是Blocking Shuffle。Blocking Shuffle会持久化所有的中间数据，只有当数据产出完全后才能被消费。此外，Flink还提供了另一种数据交换模式，即Hybrid Shuffle，它会更加智能地持久化数据，并允许在数据生产的同时进行消费。然而，这种模式目前仍处于实验阶段，并且存在一些已知的限制。

2023-11-02 15:42:47

赞同展开评论打赏
Star时光
Apache Flink 1.13 默认的 Shuffle 模式是本地模式，这意味着所有 TaskManager 在同一节点上运行并使用本地文件系统进行 Shuffle 缓存。这种模式可以很好地工作于小型集群或单节点开发环境中。
Flink 也支持其他的 Shuffle 模式，包括分布式 Shuffle 和远程 Shuffle。这两种模式都是跨节点进行 Shuffle 缓存，其中分布式 Shuffle 使用本地文件系统，而远程 Shuffle 使用外部的分布式文件系统。
您可以根据自己的需求选择合适的 Shuffle 模式。如果您想要跨节点运行任务，可以选择分布式 Shuffle 或远程 Shuffle。具体的 Shuffle 模式的配置可以通过 ExecutionConfig.setShuffleMode() 方法来完成。例如，
```
final ExecutionConfig conf = new ExecutionConfig();
conf.setShuffleMode(ShuffleMode.BATCH);
```
2023-11-01 21:46:21

赞同展开评论打赏
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

Apache Flink是一个流行的流处理框架，它支持多种运行模式，包括批处理和流处理。在Flink 1.13版本中，默认的跑批shuffle模式取决于你使用的API。
如果你使用的是DataStream API，那么默认的shuffle模式是KeyedStream.groupBy().shuffle()，即基于键的分组和shuffle操作。在这个模式下，Flink会按照指定的键对数据进行分组，然后将每个分组内的数据进行随机排序，从而实现数据的分布均衡。
如果你使用的是DataSet API，那么默认的shuffle模式是GroupReduceOperator.shuffle()，即基于键的分组和reduce操作。在这个模式下，Flink会按照指定的键对数据进行分组，然后将每个分组内的数据进行reduce操作，从而实现数据的聚集和聚合。
需要注意的是，无论哪种shuffle模式，Flink都会自动处理数据的序列化和反序列化，以及网络传输等问题，从而简化用户的编程工作。
另外，如果你需要自定义shuffle模式，Flink还提供了多种选项可供选择，包括SortPartitioner、RangePartitioner和CustomPartitioner等。你可以根据自己的需求选择合适的partitioner，以便更好地控制数据的分布和排序。
总之，Flink 1.13版本中默认的跑批shuffle模式取决于你使用的API，但都可以通过自定义partitioner等方式进行定制和优化。

2023-11-01 14:21:59

赞同展开评论打赏