state.checkpoints.num-retained设置的是20,这个不删除检查点,有人知道原因吗?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
在配置阿里云相关服务时,state.checkpoints.num-retained
参数设置为20意味着系统会保留最近的20个检查点。如果观察到这些检查点并未如预期被自动删除,可能的原因和解决思路如下:
参数理解:此配置项控制的是保存的检查点数量上限,并不直接涉及检查点的自动删除机制。它确保系统不会无限累积检查点,但具体何时删除旧检查点,还需结合其他配置和系统实际运行情况分析。
检查点策略:要使检查点按照预期滚动更新(即新检查点生成后,最老的超出限制的检查点被删除),需要确认是否有其他配置或系统机制干扰了这一过程。例如,某些系统或作业可能因特定逻辑(如长时间无新检查点生成、或手动干预标记某些检查点为重要)而暂停了旧检查点的自动清理。
系统状态与日志审查:
兼容性与版本问题:虽然提供的参考资料中未直接提及版本兼容性对检查点删除的影响,但在其他场景中,软件或框架版本不一致可能导致Checkpoint处理异常,比如报错提示与Gemini状态后端版本不兼容的情况。确保使用的系统组件和服务版本相互兼容,也是排查此类问题的一个方向。
手动干预:如果通过自动机制无法解决问题,考虑手动删除过量的检查点。不过,这通常作为临时措施,根本上还是需要找到并解决配置或系统行为上的根源问题。
综上所述,检查点未按预期删除可能涉及到多方面因素,需综合检查配置、监控系统状态及日志,必要时进行适当的系统调整或升级以恢复正常的检查点管理机制。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。