开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

从之前的checkpoint恢复运行,之后的checkpoint上传到hdfs的数据(300M)

从之前的checkpoint恢复运行,之后的checkpoint上传到hdfs的数据(300M)比之前checkpoint上传的数据量(1.5g)少,按理说我是全量checkpoint,不应该出现这种情况吧?

展开
收起
爱喝咖啡嘿 2022-12-27 15:24:03 325 0
1 条回答
写回答
取消 提交回答
  • 我知道有几种情况可能导致你在从之前的 checkpoint 恢复运行之后,checkpoint 上传到 HDFS 的数据量变小了:

    1.你在从之前的 checkpoint 恢复运行之后,删除了之前处理的一些数据。例如,你可能会在恢复运行之后执行一些数据过滤操作,导致之前处理的一些数据被删除。

    2.你在从之前的 checkpoint 恢复运行之后,修改了流程图中的一些算子,导致数据处理流程发生了变化。例如,你可能会修改一些算子的输入输出类型,导致一些数据被丢弃或者转换为另一种类型。

    3.你在从之前的 checkpoint 恢复运行之后,修改了 checkpoint 的相关设置,导致 checkpoint 的大小发生了变化。例如,你可能会修改 checkpoint 的频率或者大小限制,导致 checkpoint 的大小发生了变化。

    4.你在从之前的 checkpoint 恢复运行之后,数据源的数据量发生了变化。例如,你可能会从一个全量的数据源恢复运行,之后数据源的数据量减少了。

    建议你检查一下你的程序,确定是哪种情况导致了 checkpoint 上传到 HDFS 的数据量变小。

    2022-12-29 18:55:05
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关电子书

更多
海量数据分布式存储——Apache HDFS之最新进展 立即下载
低代码开发师(初级)实战教程 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载