Flink CDC1.18跑在k8s，任务提交上去，几十秒自动cancel了，了解吗？

Flink CDC1.18跑在k8s，任务提交上去，几十秒自动cancel了，flink1.13版本没啥问题，有大佬了解吗？

展开

收起

真的很搞笑 2023-11-21 09:16:56 151 版权

4 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
在Flink CDC任务提交到Kubernetes集群上运行时，有时会出现几十秒内就自动取消的问题。这可能是由于以下几个原因造成的：
1. 缺乏足够的资源: 如果Kubernetes集群上的可用资源不足以运行Flink CDC任务，则可能会自动取消任务。您可以通过检查Kubernetes集群上的资源状况来确定是否存在这种情况。
2. 节点故障: 如果Flink CDC所在的节点出现了故障，则任务可能会自动取消。您可以检查Kubernetes集群中的节点状况，以确定是否有节点故障的情况。
3. 容器状态：如果Flink CDC的容器有问题，则可能导致任务自动取消。您可以检查容器的状态以及容器的日志，以找出问题所在。
4. 其他问题: 您还可以检查其他的因素，例如网络连接问题、操作系统问题等等，以确定是否存在问题。
2023-11-21 23:10:14

赞同展开评论
芯在这

看下k8s控制台日志的stdout，此回答整理自钉群“Flink CDC 社区”

2023-11-21 22:06:23

赞同展开评论
sunrr

Flink CDC1.18在k8s上运行任务自动被取消的问题可能是由于网络配置问题导致的。在许多K8s集群中，K8s和Flink Client可能不在同一个网络环境中，这可能会导致作业无法正常提交。你可以通过LoadBalancer的方式或者NodePort的方式，使Flink Client可以访问到Jobmanager Dispatcher。

另外，确保你的Flink客户端与K8s集群的版本兼容，避免因版本不匹配导致的问题。

2023-11-21 14:58:49

赞同展开评论
小Lee
在Kubernetes环境下运行Flink 1.18时，任务提交后自动取消，可能的原因如下：
1. 资源不足：检查你的Kubernetes集群是否具有足够的资源（CPU、内存、磁盘等）来运行Flink任务。
2. 错误的配置：检查Flink的任务配置，特别是关于checkpoint和checkpoint存储的配置。如果你设置了较高的checkpoint频率或者较小的checkpoint阈值，那么可能会导致任务频繁检查点，从而消耗大量的资源。
3. 版本不兼容：Kubernetes和Flink 1.18之间可能存在版本不兼容的问题，建议查看Kubernetes的版本，并尝试升级Kubernetes的版本或回退Flink的版本。
4. 调整Kubernetes的调度器：Kubernetes的调度器可能会导致任务取消。你可以尝试改变Kubernetes的调度器，例如从默认的Docker容器调度器改为Kubernetes原生调度器。
2023-11-21 14:32:46

赞同展开评论

Flink CDC1.18跑在k8s，任务提交上去，几十秒自动cancel了，了解吗？

实时计算 Flink

相关文章

热门讨论

热门文章