开发者社区 问答 正文

flink 1.11.0 chk超时

http://apache-flink.147419.n8.nabble.com/file/t538/QQ%E6%88%AA%E5%9B%BE20201105165123.jpg http://apache-flink.147419.n8.nabble.com/file/t538/QQ%E6%88%AA%E5%9B%BE20201105165200.jpg chk的历史如图,第三个subtask未能ack,同时在TM中只能找到如下信息:

2020-11-05 13:13:38,101 INFO org.apache.flink.streaming.api.functions.sink.filesystem.Buckets [] - Subtask 2 checkpointing for checkpoint with id=16 (max part counter=6). 2020-11-05 13:13:38,143 INFO org.apache.flink.streaming.api.functions.sink.filesystem.Buckets [] - Subtask 1 checkpointing for checkpoint with id=16 (max part counter=0). 2020-11-05 13:14:37,779 WARN org.apache.kafka.clients.NetworkClient [] - Connection to node -3 could not be established. Broker may not be available. 2020-11-05 13:14:37,786 WARN org.apache.kafka.clients.NetworkClient [] - Connection to node -2 could not be established. Broker may not be available. 2020-11-05 13:33:38,115 INFO org.apache.flink.runtime.taskmanager.Task [] - Attempting to cancel task Source: Custom Source -> Process -> (Sink: ***, Sink: *** sink, Sink: ***) (3/3) (68bfa6305a9aa5a7381b9ca4a8fef2fa).

请路过的大佬们指点下排查方式,多谢(当前日志级别暂无法改成debug)*来自志愿者整理的flink邮件归档

展开
收起
小阿怪 2021-12-07 11:10:23 504 分享 版权
阿里云 AI 助理回答

根据您提供的信息,Flink作业在进行checkpoint时遇到了问题,特别是第三个subtask未能ack(确认)。同时,日志中显示与Kafka broker的连接无法建立。这可能是导致checkpoint失败的原因之一。尽管当前日志级别不能调整为DEBUG以获取更详细的信息,但您可以尝试以下几个方向来排查问题:

  1. 检查Kafka集群状态

    • 首先,确保Kafka集群是健康运行的,所有broker节点都在线且可访问。日志中的警告表明与Kafka的两个节点(-3和-2)的连接无法建立,这可能是因为网络问题、Kafka服务未启动或配置问题。
    • 使用Kafka自带的命令行工具kafka-topics.shkafka-consumer-groups.sh等检查topic的状态和消费者组的偏移量情况。
  2. 检查网络连通性

    • 确认Flink任务管理器(TaskManager, TM)到Kafka broker之间的网络是否畅通无阻。可以尝试从TM所在的主机ping Kafka broker的IP地址,或者使用telnet测试端口是否开放。
  3. Flink配置检查

    • 查看Flink作业的配置文件,确认Kafka consumer相关的设置是否正确,比如bootstrap.servers列表是否包含了所有必要的Kafka broker地址,以及是否有超时时间、重试策略等配置不当的问题。
  4. 资源与负载

    • 检查TaskManager和JobManager的资源分配情况,确保没有因为资源不足导致任务执行缓慢或失败。过高的CPU或内存使用率可能会干扰任务正常运行。
  5. 查看其他相关日志

    • 尽管日志级别不能调整,但仍可以仔细审查其他部分的日志,寻找任何可能的错误或异常信息,尤其是与该特定subtask或Kafka相关的部分。
  6. Flink Checkpoint配置

    • 重新审视Flink作业的checkpoint配置,包括checkpoint的间隔时间、模式(exactly-once还是at-least-once)、超时时间等,确保它们适合您的应用场景,并且不会因为过于频繁或配置不合理而导致问题。
  7. 尝试重启作业

    • 在进行了上述检查并修正可能的问题后,尝试重启Flink作业,观察是否仍然存在同样的问题。

如果以上步骤都无法解决问题,考虑加入Flink社区论坛或邮件列表寻求更多帮助,提供尽可能多的作业配置和环境信息,以便获得更专业的指导。您可以复制页面截图提供更多信息,我可以进一步帮您分析问题原因。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答