开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Flink CDC1.18跑在k8s,任务提交上去,几十秒自动cancel了,了解吗?

Flink CDC1.18跑在k8s,任务提交上去,几十秒自动cancel了,flink1.13版本没啥问题,有大佬了解吗?

展开
收起
cuicuicuic 2023-11-21 09:16:56 43 0
4 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在Flink CDC任务提交到Kubernetes集群上运行时,有时会出现几十秒内就自动取消的问题。这可能是由于以下几个原因造成的:

    1. 缺乏足够的资源: 如果Kubernetes集群上的可用资源不足以运行Flink CDC任务,则可能会自动取消任务。您可以通过检查Kubernetes集群上的资源状况来确定是否存在这种情况。
    2. 节点故障: 如果Flink CDC所在的节点出现了故障,则任务可能会自动取消。您可以检查Kubernetes集群中的节点状况,以确定是否有节点故障的情况。
    3. 容器状态:如果Flink CDC的容器有问题,则可能导致任务自动取消。您可以检查容器的状态以及容器的日志,以找出问题所在。
    4. 其他问题: 您还可以检查其他的因素,例如网络连接问题、操作系统问题等等,以确定是否存在问题。
    2023-11-21 23:10:14
    赞同 展开评论 打赏
  • 看下k8s控制台日志的stdout,此回答整理自钉群“Flink CDC 社区”

    2023-11-21 22:06:23
    赞同 展开评论 打赏
  • Flink CDC1.18在k8s上运行任务自动被取消的问题可能是由于网络配置问题导致的。在许多K8s集群中,K8s和Flink Client可能不在同一个网络环境中,这可能会导致作业无法正常提交。你可以通过LoadBalancer的方式或者NodePort的方式,使Flink Client可以访问到Jobmanager Dispatcher。

    另外,确保你的Flink客户端与K8s集群的版本兼容,避免因版本不匹配导致的问题。

    2023-11-21 14:58:49
    赞同 展开评论 打赏
  • 在Kubernetes环境下运行Flink 1.18时,任务提交后自动取消,可能的原因如下:

    1. 资源不足:检查你的Kubernetes集群是否具有足够的资源(CPU、内存、磁盘等)来运行Flink任务。
    2. 错误的配置:检查Flink的任务配置,特别是关于checkpoint和checkpoint存储的配置。如果你设置了较高的checkpoint频率或者较小的checkpoint阈值,那么可能会导致任务频繁检查点,从而消耗大量的资源。
    3. 版本不兼容:Kubernetes和Flink 1.18之间可能存在版本不兼容的问题,建议查看Kubernetes的版本,并尝试升级Kubernetes的版本或回退Flink的版本。
    4. 调整Kubernetes的调度器:Kubernetes的调度器可能会导致任务取消。你可以尝试改变Kubernetes的调度器,例如从默认的Docker容器调度器改为Kubernetes原生调度器。
    2023-11-21 14:32:46
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    ACK 云原生弹性方案—云原生时代的加速器 立即下载
    ACK集群类型选择最佳实践 立即下载
    企业运维之云原生和Kubernetes 实战 立即下载

    相关镜像