问题一:ZooKeeper 网络瞬断时,Flink JobManager 会遇到什么问题,以及这是如何影响 Flink 作业的?
ZooKeeper 网络瞬断时,Flink JobManager 会遇到什么问题,以及这是如何影响 Flink 作业的?
参考回答:
当 ZooKeeper 集群中的一台服务器出现网络服务瞬断时,Flink JobManager 依赖的 ZooKeeper 连接状态会经历 connected -> Suspended -> lost -> reconnected 的转换。由于 Flink 使用的 curator2.0 组件在遇到 Suspended 状态时会直接将 leader 丢弃,这会导致大部分 Flink 作业进行重启,对业务造成不可接受的影响。
关于本问题的更多问答可点击原文查看:
https://developer.aliyun.com/ask/674905
问题二:Flink 在哪个版本修复了 curator2.0 组件在 ZooKeeper Suspended 状态下的行为问题?
Flink 在哪个版本修复了 curator2.0 组件在 ZooKeeper Suspended 状态下的行为问题?
参考回答:
Flink 在 1.14 版本中修复了 curator2.0 组件在 ZooKeeper Suspended 状态下直接丢弃 leader 的问题。在之前的版本中,用户可能需要重新实现 LeaderLatch 或者修改 ZooKeeperCheckpointIDCounter(针对 Flink 1.8 版本)。
关于本问题的更多问答可点击原文查看:
https://developer.aliyun.com/ask/674906
问题三:在 Flink 1.8 版本下,除了重新写 LeaderLatch 外,还需要做哪些修改来应对 ZooKeeper 的网络瞬断问题?
在 Flink 1.8 版本下,除了重新写 LeaderLatch 外,还需要做哪些修改来应对 ZooKeeper 的网络瞬断问题?
参考回答:
在 Flink 1.8 版本下,除了重新实现 LeaderLatch 外,还需要修改 ZooKeeperCheckpointIDCounter 以确保在 ZooKeeper 网络状态变化时,CheckpointID 的计数器管理能够正确进行,避免因 ZooKeeper 连接问题导致的作业重启。
关于本问题的更多问答可点击原文查看:
https://developer.aliyun.com/ask/674908
问题四:未来在资源利用方向,我们主要会进行哪些探索?
未来在资源利用方向,我们主要会进行哪些探索?
参考回答:
未来在资源利用方向,我们主要会进行 Elastic Scaling 的调研,以及 K8s Yunikorn 资源队列的调研。由于 Flink 上云后存在资源队列管理的问题,我们需要将用户的资源进行分队列管理,以提高资源利用效率和灵活性。
关于本问题的更多问答可点击原文查看:
https://developer.aliyun.com/ask/674910
问题五:在数据湖方向,我们计划进行哪些探索和服务化建设?
在数据湖方向,我们计划进行哪些探索和服务化建设?
参考回答:
在数据湖方向,我们计划首先进行统一流批服务网关的探索,以解决实时数仓中可能采用的不同引擎(如 Flink 和 Spark)之间的服务整合问题。其次,我们将进行数据血缘、数据资产和数据质量服务化的建设,以提升数据管理的效率和质量。
关于本问题的更多问答可点击原文查看: