env.readFile 递归监控目录 如何清理状态(历史目录)?
*来自志愿者整理的flink邮件归档
我觉得这个也许可以先从业务上解决。比如你可以有另一个作业定期去 HDFS 上把过期的数据清理掉(比如半个月前的?)。
另外,我也开了一个 issue 去跟进这个问题,看看社区里面对这块比较熟的同学有没有更好的建议。FLINK-18357 <https://issues.apache.org/jira/browse/FLINK-18357> 我的一个初步的想法是,是否可以有一个 inactive-interval 去标记一个子目录已经不会有新文件产生了,这样 checkpoint 就不用跟踪这个子目录下的所有文件。
*来自志愿者整理的flink邮件归档
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。