Hi,ALL
写了个测试程序,大概跑了不到三个小时,flink集群就挂了,所有节点退出,报错如下:
2019-03-12 20:45:14,623 INFO org.apache.flink.runtime.executiongraph.ExecutionGraph - Job Tbox from Kafka Sink To Kafka And Print (21949294d4750b869b341c5d2942d499) switched from state RUNNING to FAILING. org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.protocol.FSLimitException$MaxDirectoryItemsExceededException): The directory item limit of /tmp/ha is exceeded: limit=1048576 items=1048576
hdfs count结果:
2097151 4 124334563 hdfs://banma/tmp/ha
下面是flink-conf.yaml的配置:
[hdfs@qa-hdpdn06 flink-1.7.2]$ cat conf/flink-conf.yaml |grep ^[^#] jobmanager.rpc.address: 10.4.11.252 jobmanager.rpc.port: 6123 jobmanager.heap.size: 1024m taskmanager.heap.size: 1024m taskmanager.numberOfTaskSlots: 10 parallelism.default: 1 high-availability: zookeeper high-availability.storageDir: hdfs://banma/tmp/ha high-availability.zookeeper.quorum: qa-hdpdn05.ebanma.com:2181 rest.port: 8081
flink版本:官方最新的flink 1,7.2
为什么 high-availability.storageDir的目录会产生如此多的子目录?里面存的都是什么?什么情况下回触发这些存储操作?如何避免这个问题?
谢谢!*来自志愿者整理的flink邮件归档
Hi 你是不是没有配置checkpoint path,且没有显式的配置FsStateBackend或者RocksDBStateBackend,这应该是一个MemoryStateBackend 在配置HA却没有配置checkpoint path时候的bug,参见我之前创建的JIRA https://issues.apache.org/jira/browse/FLINK-11107
相关PR已经提交了,不过社区认为MemoryStateBackend更多的是debug用 或者 实验性质的toy,不会有生产环境直接使用,加之最近忙于release-1.8的发布,所以暂时还没有review代码。*来自志愿者整理的flink
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。