备案控制台

开发者社区问答正文

flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

当升级到1.10.0 时候，程序出错后会尝试从checkpoint恢复，但是总是失败，提示

Caused by: java.nio.file.NoSuchFileException: /data/hadoop/yarn/local/usercache/hdfs/appcache/application_1589438582606_30760/flink-io-26af2be2-2b14-4eab-90d8-9ebb32ace6e3/job_6b6cacb02824b8521808381113f57eff_op_StreamGroupedReduce_54cc3719665e6629c9000e9308537a5e__1_1__uuid_afda2b8b-0b79-449e-88b5-c34c27c1a079/db/000009.sst -> /data/hadoop/yarn/local/usercache/hdfs/appcache/application_1589438582606_30760/flink-io-26af2be2-2b14-4eab-90d8-9ebb32ace6e3/job_6b6cacb02824b8521808381113f57eff_op_StreamGroupedReduce_54cc3719665e6629c9000e9308537a5e__1_1__uuid_afda2b8b-0b79-449e-88b5-c34c27c1a079/8f609663-4fbb-483f-83c0-de04654310f7/000009.sst

配置和1.9.2 一样： state.backend: rocksdb state.checkpoints.dir: hdfs:///flink/checkpoints/wc/ state.savepoints.dir: hdfs:///flink/savepoints/wc/ state.backend.incremental: true

代码上都有

env.enableCheckpointing(10000); env.getCheckpointConfig().enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION); env.setRestartStrategy(RestartStrategies.fixedDelayRestart(3, org.apache.flink.api.common.time.Time.of(10, TimeUnit.SECONDS)));

是1.10.0 需要做什么特别配置么？

*来自志愿者整理的flink邮件归档

展开

收起

小阿矿 2021-12-06 16:53:23 1126 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

说了是一只鲳鱼

你的异常应该是从增量Checkpoint恢复时，文件已经下载到本地了，做硬链时[1]，发现源文件不见了，有很大的可能是当时发生了异常，导致restore流程退出了，所以这个问题应该不是root cause。

[1] https://github.com/apache/flink/blob/2a3b642b1efb957f3d4f20502c40398786ab1469/flink-state-backends/flink-statebackend-rocksdb/src/main/java/org/apache/flink/contrib/streaming/state/restore/RocksDBIncrementalRestoreOperation.java#L473

*来自志愿者整理的flink邮件归档

2021-12-06 17:06:58

赞同展开评论

问答分类：

分布式计算资源调度 Hadoop 流计算实时计算 Flink版

问答标签：

实时计算 Flink版升级实时计算 Flink版任务实时计算 Flink版checkpoint 实时计算 Flink版任务checkpoint 实时计算 Flink版升级任务

问答地址：

开发者社区 > 大数据 > 问答

相关问答

Flink CDC里我cdc2.3升级3.0，flink最低版本要求是多少？

155

1

0

在Flink CDC中，遇到这个问题了，看到最后没有结论，或者说升级到哪个版本能解决？

88

1

0

Flink 1.15 版本如何支持在不丢失状态的情况下升级 SQL 作业？

78

0

0

在Flink CDC中，flink版本升级到了 1.19.1了但是还报这个错误为什么？

247

0

0

Hologres 升级到2.1，会影响到Flink（使用的是cdc模式）计算嘛？

72

1

0

Flink子账号设置了AliyunStreamFullAcces权限为什么不能设置报警通知？

87

1

0

Flink从8.0.1 升级到8.0.7，任务报错怎么处理？

87

0

0

在Hologres中周五升级的时候再把flink停下，然后调整FLink以配合2.1的版本，可行吗？

110

1

0

在Flink CDC中有升级准备失败，我要怎么办？

69

1

0

在Flink CDC中升级到Flink 1.18.1 + CDC 3.1.0后运行任务报错如何解决？

123

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

阿里云的Docker ce 镜像不能正常安装

使用魔塔社区的免费NoteBook下载模型收费吗

上传文件时提示“Illegal file path”，怎么解决的？

阿里云ESA是什么？边缘安全加速和CDN有什么区别？

个人非公司，可以使用阿里云短信群发平台吗？

相关文章

Delta Join：为超大规模流处理实现计算与历史数据解耦

到底该选谁？Hadoop、Spark、Flink、云大数据的“江湖全景图”

探秘淘宝京东拼多多API，开启电商精细化运营时代

ETL vs ELT：到底谁更牛？别被名字骗了，这俩是两种世界观

《WebGL浏览器渲染优化指南：解决隐性损耗的底层逻辑与实操技巧》

还有其他疑问?