YARN ResourceManager重启作业保留机制-阿里云开发者社区

YARN ResourceManager重启作业保留机制

2018-03-02 8206

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： YARN可以通过相关配置支持ResourceManager重启过程中，不影响正在运行的作业，即重启后，作业还能正常继续运行直到结束

YARN可以通过相关配置支持ResourceManager重启过程中，不影响正在运行的作业，即重启后，作业还能正常继续运行直到结束。

涉及配置如下:

key	value	备注
yarn.resourcemanager.recovery.enabled	true
yarn.resourcemanager.store.class	org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore	有三种StateStore，分别是基于zookeeper, HDFS, leveldb, HA高可用集群必须用ZKRMStateStore
yarn.resourcemanager.work-preserving-recovery.scheduling-wait-ms	10000	默认10000，用默认值即可

备注:

开启了Recovery后，ResourceManger会将应用的状态等信息保存到yarn.resourcemanager.store.class配置的存储介质中，重启后会load这些信息，并且NodeManger会将还在运行的container信息同步到ResourceManager，整个过程不影响作业的正常运行。
yarn.resourcemanager.store.class支持三种存储介质的配置(HA集群只支持ZKRMStateStore)，选择不同的介质，还需要增加相关配置，详见ResourceManagerRestart

存储	yarn.resourcemanager.store.class
ZooKeeper	org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore
FileSystem	org.apache.hadoop.yarn.server.resourcemanager.recovery.FileSystemRMStateStore
LevelDB	org.apache.hadoop.yarn.server.resourcemanager.recovery.FileSystemRMStateStore