flink standalone模式，jobmanager无法回收fail的任务，这个怎么解决的?

flink standalone模式，jobmanager无法回收fail的任务，导致oom这个怎么解决的?

展开

收起

真的很搞笑 2023-11-21 08:11:49 84 0

2 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
如果你在 Apache Flink Standalone 模式下遇到了 jobmanager 无法回收 fail 的任务并导致 oom （Out Of Memory）问题，你可以尝试以下方法：
1. 增加 jobmanager 和 taskmanager 的 heap 大小：在 conf/flink-conf.yaml 文件中，你可以增加 jobmanager.memory.process.size 和 taskmanager.memory.process.size 参数以增加内存大小。这可以防止 oom 问题的发生。
2. 合理分配 taskmanager 数量：在 conf/flink-conf.yaml 文件中，你可以增加 taskmanager.numberOfTaskSlots 参数来增加 taskmanager 的数量，从而分担工作负载，减少 oom 的可能性。
3. 使用 slot 共享：在 Flink 中，你可以设置 taskmanager 之间的共享slot数量，以减少 oom 的风险。
4. 使用合理的并行度：在 Flink SQL 中，你可以设置合理的并行度，以减少 oom 的风险。
2023-11-21 14:03:30

赞同 1 展开评论打赏
sunrr
在Flink的standalone模式下，如果JobManager无法回收失败的任务，导致OOM（OutOfMemoryError），你可以尝试以下方法来解决：
1. 增加JobManager的内存：在启动Flink时，可以通过设置-Djobmanager.memory.process.size参数来增加JobManager的内存。例如，你可以设置为-Djobmanager.memory.process.size=2048m。
2. 优化任务并行度：如果任务的并行度过高，可能会导致大量的任务管理开销，从而引发OOM。你可以尝试降低任务的并行度，以减少任务管理开销。
3. 调整任务恢复策略：在Flink中，可以通过设置execution.checkpointing.restore-strategy参数来调整任务恢复策略。例如，你可以设置为execution.checkpointing.restore-strategy=ALWAYS，这样即使任务失败，也会立即重启任务，而不是等待所有任务完成后再恢复。
4. 增加TaskManager的数量：如果单个TaskManager的内存不足以容纳所有的任务，你可以尝试增加TaskManager的数量，以分散任务的负载。
5. 清理失效的Checkpoint：如果失效的Checkpoint占用了大量的内存，你可以尝试删除这些失效的Checkpoint，以释放内存。
2023-11-21 09:16:52

赞同展开评论打赏