文档备案控制台

开发者社区大数据文章正文

Apache Flink 实践问题之ZooKeeper 网络瞬断时如何解决

2024-08-26 518

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Apache Flink 实践问题之ZooKeeper 网络瞬断时如何解决

问题一：ZooKeeper 网络瞬断时，Flink JobManager 会遇到什么问题，以及这是如何影响 Flink 作业的？

ZooKeeper 网络瞬断时，Flink JobManager 会遇到什么问题，以及这是如何影响 Flink 作业的？

参考回答：

当 ZooKeeper 集群中的一台服务器出现网络服务瞬断时，Flink JobManager 依赖的 ZooKeeper 连接状态会经历 connected -> Suspended -> lost -> reconnected 的转换。由于 Flink 使用的 curator2.0 组件在遇到 Suspended 状态时会直接将 leader 丢弃，这会导致大部分 Flink 作业进行重启，对业务造成不可接受的影响。

关于本问题的更多问答可点击原文查看：

https://developer.aliyun.com/ask/674905

问题二：Flink 在哪个版本修复了 curator2.0 组件在 ZooKeeper Suspended 状态下的行为问题？

Flink 在哪个版本修复了 curator2.0 组件在 ZooKeeper Suspended 状态下的行为问题？

参考回答：

Flink 在 1.14 版本中修复了 curator2.0 组件在 ZooKeeper Suspended 状态下直接丢弃 leader 的问题。在之前的版本中，用户可能需要重新实现 LeaderLatch 或者修改 ZooKeeperCheckpointIDCounter（针对 Flink 1.8 版本）。

关于本问题的更多问答可点击原文查看：

https://developer.aliyun.com/ask/674906

问题三：在 Flink 1.8 版本下，除了重新写 LeaderLatch 外，还需要做哪些修改来应对 ZooKeeper 的网络瞬断问题？

在 Flink 1.8 版本下，除了重新写 LeaderLatch 外，还需要做哪些修改来应对 ZooKeeper 的网络瞬断问题？

参考回答：

在 Flink 1.8 版本下，除了重新实现 LeaderLatch 外，还需要修改 ZooKeeperCheckpointIDCounter 以确保在 ZooKeeper 网络状态变化时，CheckpointID 的计数器管理能够正确进行，避免因 ZooKeeper 连接问题导致的作业重启。

关于本问题的更多问答可点击原文查看：

https://developer.aliyun.com/ask/674908

问题四：未来在资源利用方向，我们主要会进行哪些探索？

未来在资源利用方向，我们主要会进行哪些探索？

参考回答：

未来在资源利用方向，我们主要会进行 Elastic Scaling 的调研，以及 K8s Yunikorn 资源队列的调研。由于 Flink 上云后存在资源队列管理的问题，我们需要将用户的资源进行分队列管理，以提高资源利用效率和灵活性。

关于本问题的更多问答可点击原文查看：

https://developer.aliyun.com/ask/674910

问题五：在数据湖方向，我们计划进行哪些探索和服务化建设？

在数据湖方向，我们计划进行哪些探索和服务化建设？

参考回答：

在数据湖方向，我们计划首先进行统一流批服务网关的探索，以解决实时数仓中可能采用的不同引擎（如 Flink 和 Spark）之间的服务整合问题。其次，我们将进行数据血缘、数据资产和数据质量服务化的建设，以提升数据管理的效率和质量。

关于本问题的更多问答可点击原文查看：

https://developer.aliyun.com/ask/674911

文章标签：

微服务引擎

实时计算 Flink版

流计算

Apache

数据采集

分布式计算

Kubernetes

关键词：

Apache flink

Apache实践

实时计算 Flink版实践

实践网络

Apache zookeeper

不吃核桃

目录

相关文章

Deephub

|

机器学习/深度学习自然语言处理数据可视化

基于图神经网络的自然语言处理：融合LangGraph与大型概念模型的情感分析实践

本文探讨了在企业数字化转型中，大型概念模型（LCMs）与图神经网络结合处理非结构化文本数据的技术方案。LCMs突破传统词汇级处理局限，以概念级语义理解为核心，增强情感分析、实体识别和主题建模能力。通过构建基于LangGraph的混合符号-语义处理管道，整合符号方法的结构化优势与语义方法的理解深度，实现精准的文本分析。具体应用中，该架构通过预处理、图构建、嵌入生成及GNN推理等模块，完成客户反馈的情感分类与主题聚类。最终，LangGraph工作流编排确保各模块高效协作，为企业提供可解释性强、业务价值高的分析结果。此技术融合为挖掘非结构化数据价值、支持数据驱动决策提供了创新路径。

Deephub

809 6 7

基于图神经网络的自然语言处理：融合LangGraph与大型概念模型的情感分析实践

灵杰开发者

|

存储监控数据挖掘

京东物流基于Flink & StarRocks的湖仓建设实践

本文整理自京东物流高级数据开发工程师梁宝彬在Flink Forward Asia 2024的分享，聚焦实时湖仓的探索与建设、应用实践、问题思考及未来展望。内容涵盖京东物流通过Flink和Paimon等技术构建实时湖仓体系的过程，解决复杂业务场景下的数据分析挑战，如多维OLAP分析、大屏监控等。同时，文章详细介绍了基于StarRocks的湖仓一体方案，优化存储成本并提升查询效率，以及存算分离的应用实践。最后，对未来数据服务的发展方向进行了展望，计划推广长周期数据存储服务和原生数据湖建设，进一步提升数据分析能力。

灵杰开发者

1423 1 1

京东物流基于Flink & StarRocks的湖仓建设实践

灵杰开发者

|

存储 SQL 运维

中国联通网络资源湖仓一体应用实践

本文分享了中国联通技术专家李晓昱在Flink Forward Asia 2024上的演讲，介绍如何借助Flink+Paimon湖仓一体架构解决传统数仓处理百亿级数据的瓶颈。内容涵盖网络资源中心概况、现有挑战、新架构设计及实施效果。新方案实现了数据一致性100%，同步延迟从3小时降至3分钟，存储成本降低50%，为通信行业提供了高效的数据管理范例。未来将深化流式数仓与智能运维融合，推动数字化升级。

灵杰开发者

775 0 0

中国联通网络资源湖仓一体应用实践

蒋星熠Jaxonic

|

9月前

|

监控负载均衡安全

WebSocket网络编程深度实践：从协议原理到生产级应用

蒋星熠Jaxonic，技术宇宙中的星际旅人，以代码为舟、算法为帆，探索实时通信的无限可能。本文深入解析WebSocket协议原理、工程实践与架构设计，涵盖握手机制、心跳保活、集群部署、安全防护等核心内容，结合代码示例与架构图，助你构建稳定高效的实时应用，在二进制星河中谱写极客诗篇。

蒋星熠Jaxonic

728 5 5

WebSocket网络编程深度实践：从协议原理到生产级应用

技术小达人

|

边缘计算容灾网络性能优化

算力流动的基石：边缘网络产品技术升级与实践探索

本文介绍了边缘网络产品技术的升级与实践探索，由阿里云专家分享。内容涵盖三大方面：1) 云编一体的混合组网方案，通过边缘节点实现广泛覆盖和高效连接；2) 基于边缘基础设施特点构建一网多态的边缘网络平台，提供多种业务形态的统一技术支持；3) 以软硬一体的边缘网关技术实现多类型业务网络平面统一，确保不同网络间的互联互通。边缘网络已实现全球覆盖、差异化连接及云边互联，支持即开即用和云网一体，满足各行业需求。

技术小达人

697 4 4

灵杰开发者

|

资源调度 Kubernetes 流计算

Flink在B站的大规模云原生实践

本文基于哔哩哔哩资深开发工程师丁国涛在Flink Forward Asia 2024云原生专场的分享，围绕Flink On K8S的实践展开。内容涵盖五个部分：背景介绍、功能及稳定性优化、性能优化、运维优化和未来展望。文章详细分析了从YARN迁移到K8S的优势与挑战，包括资源池统一、环境一致性改进及隔离性提升，并针对镜像优化、Pod异常处理、启动速度优化等问题提出解决方案。此外，还探讨了多机房容灾、负载均衡及潮汐混部等未来发展方向，为Flink云原生化提供了全面的技术参考。

灵杰开发者

731 9 9

Flink在B站的大规模云原生实践

灵杰开发者

|

SQL 存储 NoSQL

Flink x Paimon 在抖音集团生活服务的落地实践

本文整理自抖音集团数据工程师陆魏与流式计算工程冯向宇在Flink Forward Asia 2024的分享，聚焦抖音生活服务业务中的实时数仓技术演变及Paimon湖仓实践。文章分为三部分：背景及现状、Paimon湖仓实践与技术优化。通过引入Paimon，解决了传统实时数仓开发效率低、资源浪费、稳定性差等问题，显著提升了开发运维效率、节省资源并增强了任务稳定性。同时，文中详细探讨了Paimon在维表实践、宽表建设、标签变更检测等场景的应用，并介绍了其核心技术优化与未来规划。

灵杰开发者

1375 10 10

Flink x Paimon 在抖音集团生活服务的落地实践

灵杰开发者

|

资源调度 Kubernetes 调度

网易游戏 Flink 云原生实践

本文分享了网易游戏在Flink实时计算领域的资源管理与架构演进经验，从Yarn到K8s云原生，再到混合云的实践历程。文章详细解析了各阶段的技术挑战与解决方案，包括资源隔离、弹性伸缩、自动扩缩容及服务混部等关键能力的实现。通过混合云架构，网易游戏显著提升了资源利用率，降低了30%机器成本，小作业计算成本下降40%，并为未来性能优化、流批一体及智能运维奠定了基础。

灵杰开发者

812 9 9

网易游戏 Flink 云原生实践

灵杰开发者

|

存储运维监控

阿里妈妈基于 Flink+Paimon 的 Lakehouse 应用实践

本文总结了阿里妈妈数据技术专家陈亮在Flink Forward Asia 2024大会上的分享，围绕广告业务背景、架构设计及湖仓方案演进展开。内容涵盖广告生态运作、实时数仓挑战与优化，以及基于Paimon的湖仓方案优势。通过分层设计与技术优化，实现业务交付周期缩短30%以上，资源开销降低40%，并大幅提升系统稳定性和运营效率。文章还介绍了阿里云实时计算Flink版的免费试用活动，助力企业探索实时计算与湖仓一体化解决方案。

灵杰开发者

1574 3 4

阿里妈妈基于 Flink+Paimon 的 Lakehouse 应用实践

灵杰开发者

|

存储 SQL Java

Flink CDC + Hologres高性能数据同步优化实践

本文整理自阿里云高级技术专家胡一博老师在Flink Forward Asia 2024数据集成（二）专场的分享，主要内容包括：1. Hologres介绍：实时数据仓库，支持毫秒级写入和高QPS查询；2. 写入优化：通过改进缓冲队列、连接池和COPY模式提高吞吐量和降低延迟；3. 消费优化：优化离线场景和分区表的消费逻辑，提升性能和资源利用率；4. 未来展望：进一步简化用户操作，支持更多DDL操作及全增量消费。Hologres 3.0全新升级为一体化实时湖仓平台，提供多项新功能并降低使用成本。

灵杰开发者

1029 1 1

Flink CDC + Hologres高性能数据同步优化实践

热门文章

最新文章

资料合集｜Flink Forward Asia 2024 上海站

滴滴基于 Flink 的实时数仓建设实践

实时计算 Flink版操作报错合集之报错：“Data row is smaller than a column index”如何解决

Flink（十五）【Flink SQL Connector、savepoint、CateLog、Table API】（1）

Flink CDC YAML：面向数据集成的 API 设计

掌阅科技基于阿里云实时计算Flink构建数据基建平台

flink-sql(流批统一)

Flink1.13架构全集| 一文带你由浅入深精通Flink方方面面（一）

10月17日Spark社区直播【Tablestore Spark Streaming Connector -- 海量结构化数据的实时计算和处理】

体验有奖：使用PolarDB-X与Flink搭建实时数据大屏

2025 OSCAR丨与创新者同频！Apache RocketMQ 邀您共赴开源之约

Confluent 首席架构师万字剖析 Apache Fluss（三）：湖流一体

Confluent 首席架构师万字剖析 Apache Fluss（二）：核心架构

Apache ShenYu 架构学习指南

阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新，共筑基于 Apache Flink Agents 的智能体 AI 未来

Apache Doris 与 ClickHouse：运维与开源闭源对比

Confluent 首席架构师万字剖析 Apache Fluss（一）：核心概念

Apache Doris 4.0 AI 能力揭秘（二）：为企业级应用而生的 AI 函数设计与实践

Apache Doris 3.1 正式发布：半结构化分析全面升级，湖仓一体能力再跃新高

Apache Kafka 分布式流处理平台技术详解与实践指南

相关课程

更多

基于Zookeeper、Dubbo构建互联网分布式基础架构

企业上云攻略-阿里云网络产品应用系列教程

大数据ZooKeeper快速入门

Linux网络进阶 - TCP/IP协议及OSI七层模型

网络管理者必知-2分钟了解新出台的《网络安全法》

分布式协调系统 Zookeeper 快速入门

相关电子书

更多

《MSE 微服务网关》

微服务引擎 MSE 治理中心重磅发布

阿里云微服务引擎 MSE 2.0 线上发布

推荐镜像

更多

apache

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！