开发者学堂课程【大数据 Flink 实时旅游平台环境篇 2020版:环境篇之 flink 的 HA的切换测试】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/643/detail/10710
环境篇之 flink 的 HA 的切换测试
flink 的 HA 的切换测试
因为 HA 有两个 jobmanager,分别是01和02。
当有一个 leader 无法使用后,另一个 jobmanager 会成为 leader 继续启动提供服务。
通过 jM log 查看是 leader(active) 还是 standby 状态。即查看到哪个是正常服务,哪个处于待命状态。
查看两个 jobmanager 的日志,打开 web 控制台,点击左侧菜单栏的 Job Manager,进入后点击上方的 Logs。
hadoop01 的日志:
日志中如图存在 leadership,hadoop01正处在 leader 状态
再来查看02的日志,
如图没有 leadership 标识
1.手动杀死激活状态的 jobmanager
输入
Jps
结果显示:
1696 NameNode
7121 Jps
1830 DataNode
6536 StandaloneSessionClusterEntrypoint
7016 TaskManagerRunner
1547 QuorumPeerMain
3372 NodeManager
3262 ResourceManager
2623 -- process information unavailable
再输入kill -9 6536
这时再来查看页面,hadoop01 页面已经显示访问不到,查看 hadoop02,控制台上显示可用的 Task Slots 是3个,默认是1个。再来看 Job Manager,点击 Logs
最下方显示出 hadoop02 变成了 leadership
2.测试是否可以跑作业
点击菜单栏的 Submit New job,上传一个文件,输入
--input hdfs://hadoop01:9000/words --output
hdfs://hadoop01:9000/out/01
点击 submit
正常在跑作业
也可以点击菜单栏 Completed jobs,显示有一个已经完成
3.杀死之后进行恢复,再次启动输入
jobmanager.sh.start
jps
结果显示
1696 NameNode
7584 StandaloneSessionClusterEntrypoint
7602 Jps
1830 DataNode
7016 TaskManagerRunner
1547 QuorumPeerMain
3372 NodeManager
3262 ResourceManager
2623 -- process information unavailable
此时再来查看 hadoop01的页面,刷新显示页面后点击 Job Manager,点击 Logs,显示如图,没有 leader,只处在监听状态