文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

从之前的checkpoint恢复运行，之后的checkpoint上传到hdfs的数据(300M)

从之前的checkpoint恢复运行，之后的checkpoint上传到hdfs的数据(300M)比之前checkpoint上传的数据量(1.5g)少，按理说我是全量checkpoint，不应该出现这种情况吧？

展开

收起

爱喝咖啡嘿 2022-12-27 15:24:03 479 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

认真学习的heart

我知道有几种情况可能导致你在从之前的 checkpoint 恢复运行之后，checkpoint 上传到 HDFS 的数据量变小了：

1.你在从之前的 checkpoint 恢复运行之后，删除了之前处理的一些数据。例如，你可能会在恢复运行之后执行一些数据过滤操作，导致之前处理的一些数据被删除。

2.你在从之前的 checkpoint 恢复运行之后，修改了流程图中的一些算子，导致数据处理流程发生了变化。例如，你可能会修改一些算子的输入输出类型，导致一些数据被丢弃或者转换为另一种类型。

3.你在从之前的 checkpoint 恢复运行之后，修改了 checkpoint 的相关设置，导致 checkpoint 的大小发生了变化。例如，你可能会修改 checkpoint 的频率或者大小限制，导致 checkpoint 的大小发生了变化。

4.你在从之前的 checkpoint 恢复运行之后，数据源的数据量发生了变化。例如，你可能会从一个全量的数据源恢复运行，之后数据源的数据量减少了。

建议你检查一下你的程序，确定是哪种情况导致了 checkpoint 上传到 HDFS 的数据量变小。

2022-12-29 18:55:05

赞同展开评论

问答标签：

文件存储HDFS版数据 checkpoint文件存储HDFS版文件存储HDFS版checkpoint 文件存储HDFS版运行运行文件存储HDFS版

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

大数据计算MaxCompute有一组di上线任务，数据源是hdfs，每天都运行，是什么原因呢？

254

3

0

Flink里打包好的jar包上传运行，checkpoint在代码里可以设置oss-hdfs的地址么？

503

3

0

Checkpoint Replicate Service 是如何实现跨 HDFS 集群的副本制作的？

154

1

0

Flink独立集群与hdfs集群不在一起，flink如何配置checkpoint目录为hdfs？

285

1

0

Flink有没有遇到过打checkpoint的时候，遇到写hdfs的错误然后一直卡死，怎么回事？

686

3

0

问一下大佬们，我们最近flink任务从checkpoint（hdfs存储)恢复，发现恢复信息里还尝试

694

2

0

问一下群里的大佬们，我们最近flink任务从checkpoint（hdfs存储)恢复，发现恢复信息里

339

1

0

请问一下，flink checkpoint 的hdfs 路径，有台机器磁盘坏了了，导致flink任务

717

1

0

为什么下载了Hadoop之后直接能够在Linux系统上运行hdfs文件呀？

1285

1

0

Linux文件系统中是怎么运行HDFS文件的呀？

996

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

收录在圈子:

阿里云实时计算Flink

199215

+ 订阅

实时计算 Flink 版（Alibaba Cloud Realtime Compute for Apache Flink，Powered by Ververica）是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统，由 Apache Flink 创始团队官方出品，拥有全球统一商业化品牌，完全兼容开源 Flink API，提供丰富的企业级增值功能。

相关解决方案

更多

基于数据闪回，快速恢复数据

海量异构数据预处理破局之道

分析 Agent 实现一键 AI 数据洞察

多模态数据信息提取

数据守护：防勒索攻击数据保障

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

Flink CDC 能适配达梦不？

Flink CDC里这个问题怎么解决？

有用flink cdc同步mysql到hive这样搞过的源码吗?

FLink 1.13版本升级Flink 1.17 报错，怎么解决？

flink1.19和hive3.1.3，cdc从mysql同步数据到hive，插入时报错？

Flink 1.13版本升级Flink 1.17 报错有人知道为什么吗?

FLink 1.13版本升级Flink 1.17 报错，怎么处理？

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

flinkcdc在IDEA运行正常，打包就报错

展开全部

实时计算 Flink SQL 核心功能解密

流计算StreamCompute

通过Flink实时构建搜索引擎的索引

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

接着！！Apache Flink 全领域干货合集（持续更新）

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

Apache Flink 的迁移之路，2 年处理效果提升 5 倍

Flink Checkpoint 问题排查实用指南

如何在 PyFlink 1.10 中自定义 Python UDF？

Flink SQL 功能解密系列 —— 数据去重的技巧和思考

展开全部

还有其他疑问?