备案控制台

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

flink on yarn模式使用zk 请问下，可以做什么配置来从检查点重启呢？

flink on yarn模式使用zk 做ha

zk抖动断开连接导致任务失败
但是任务失败时会清掉zk里的ha的数据，导致任务无法自动从检查点重启
请问下，可以做什么配置来从检查点重启呢？

展开

收起

真的很搞笑 2024-02-24 12:47:03 25 0

2 条回答

写回答

取消提交回答

芯在这

关注 zk抖动问题好像老版本有这个问题
，此回答整理自钉群“【②群】Apache Flink China社区”

2024-02-24 16:49:42

赞同展开评论打赏
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
为了实现Flink在YARN模式下使用ZooKeeper进行高可用性（HA）配置，并确保任务可以从检查点重启，您可以考虑以下配置和步骤：
1. 配置ZooKeeper的quorum：确保您的Flink配置文件中设置了正确的high-availability.zookeeper.quorum，这通常是一个包含ZooKeeper集群地址的列表，例如node1:2181,node2:2181,node3:2181。
2. 设置Flink在ZooKeeper中的工作路径：通过high-availability.zookeeper.path.root配置项指定Flink在ZooKeeper中的工作路径，例如/flink。
3. 确保检查点元数据的持久化：Flink需要持久化存储checkpoint的元数据信息，包括最近一次已经完成的checkpoint。这通常是通过配置state.backend来实现的，可以选择如RocksDBStateBackend或FsStateBackend等后端来存储这些信息。
4. 配置Yarn session模式：如果您使用的是Yarn session模式，确保您已经启动了一个长期运行的Flink集群。这样，即使任务失败，集群仍然可以保持运行状态，从而允许任务从最近的检查点重新启动。
5. 设置Hadoop相关配置：确保您的Flink集群能够访问Hadoop的配置，这可以通过设置HADOOP_CONF_DIR环境变量来实现，指向包含Hadoop配置文件的目录。
6. 调整资源分配策略：在Yarn模式下，Flink的任务会运行在YARN容器内，因此需要确保YARN的资源分配策略能够适应Flink任务的需求，以便在任务失败时能够及时恢复。
总的来说，通过上述配置和步骤，您应该能够确保Flink在遇到ZooKeeper抖动导致的任务失败时，能够从最近的检查点重新启动任务。此外，建议在生产环境中对Flink集群进行充分的测试，以确保高可用性配置的正确性和稳定性。如果问题仍然存在，可能需要进一步检查Flink和ZooKeeper的日志，以确定是否有其他因素导致任务无法从检查点重启。
2024-02-24 16:41:05

赞同展开评论打赏

问答分类：

流计算资源调度实时计算 Flink版

问答标签：

实时计算 Flink版重启实时计算 Flink版模式实时计算 Flink版配置 Yarn配置 Yarn模式

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关产品：

实时计算 Flink版

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

实时计算 Flink版

EMR集群如何配置Yarn和Spark组建的日志定期清理策略

14

1

0

Flink SQL语法检查错误Column 'xx' not found in any table

29

1

0

flink on yarn模式部署完之后还需要在cdc 3.0中做什么配置吗？

10

1

0

Flink从手动检查点恢复，会丢失数据吗？

32

1

0

Flink修改版本需要重启作业吗

7

1

0

Flink检查点一直成功不了有什么原因吗？

17

1

0

在Flink CDC中flink cdc on yarn application怎么配置？

12

1

0

提交pyflink作业到yarn application报找不到python脚本,是哪里配置错了吗？

49

1

0

Flink CDC里我想问一下检查点的时间一般指多久为好？

20

0

0

实时计算Flink平台vvr上如何针对实时流作业创建其伴生的周期性的数据质量检查跑批作业？

24

0

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关产品

实时计算 Flink版

文档详情产品详情

热门讨论

热门文章

不同版本的 flink 如何适配不同版本 kafka，flink-connect-kafka 版本

请问如何用flink sql客户端用yarn application模式提交任务呢？

Flink sql将数组炸开，实现hive的explode函数的效果，还有什么其他好的方式？

flink1.15启动后无法访问webui的问题有人遇到过吗

Flink CDC有遇见这个问题的吗？

FlinkCDC MySQL 中 scan.startup.mode 用的是什么模式啊？

flink web UI 是不是本身不支持登录认证，必须通过nginx来加登录认证？

Caused by: org.apache.kafka.common.errors.TimeoutE

Flink CDC中我使用了自定义聚合函数，但是报错这个需要怎么解决呢？

flink 和flink cdc 和 flink sql client 啥区别？

展开全部

数据仓库介绍与实时数仓案例

权威详解 | 阿里新一代实时计算引擎 Blink，每秒支持数十亿次计算

分布式Snapshot和Flink Checkpointing简介

实时计算 Flink SQL 核心功能解密

Flink SQL 功能解密系列 —— 维表 JOIN 与异步优化

通过Flink实时构建搜索引擎的索引

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

Apache Paimon统一大数据湖存储底座

阿里云实时计算产品案例&解决方案汇总

流计算精品翻译: The Dataflow Model

展开全部

相关课程

更多

大数据Flink实时旅游平台环境篇 2020版

598

29

去学习

Apache Flink 入门到实战 - Flink开源社区出品

1566

16

去学习

实时计算 Flink 版产品入门与实操

3961

10

去学习

开源 Flink 极速上手教程

1836

7

去学习

大数据实时计算框架Spark快速入门

955

93

去学习

Apache Flink 入门

5053

9

去学习

相关电子书

更多

Flink CDC Meetup PPT - 龚中强 立即下载

Flink CDC Meetup PPT - 王赫 立即下载

Flink CDC Meetup PPT - 覃立辉 立即下载

相关实验场景

更多