美团 Flink 大作业部署问题之Checkpoint Replicate Service 跨 HDFS 集群的副本制作是如何实现的

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 美团 Flink 大作业部署问题之Checkpoint Replicate Service 跨 HDFS 集群的副本制作是如何实现的

问题一:为什么使用 distcp 跨机房复制 Checkpoint 不是一个好的选择?


为什么使用 distcp 跨机房复制 Checkpoint 不是一个好的选择?


参考回答:

使用 distcp 跨机房复制 Checkpoint 不是一个好的选择,因为 distcp 会为每个复制任务启动一个重的 mapreduce 作业,而 Checkpoint 比 Savepoint 频繁得多,且复制过程中作业可能还在运行,文件可能被删除,导致复杂性和潜在问题增加。


关于本问题的更多回答可点击原文查看:

https://developer.aliyun.com/ask/671949



问题二:最终选择什么方式来实现 Checkpoint 跨机房副本制作?


最终选择什么方式来实现 Checkpoint 跨机房副本制作?


参考回答:

最终选择编写一个 Checkpoint Replicate Service,该服务连接多个 HDFS 集群,专门用于 Checkpoint 的副本制作。这种方式更加灵活和高效,适合频繁且动态的 Checkpoint 跨机房复制需求。


关于本问题的更多回答可点击原文查看:

https://developer.aliyun.com/ask/671950



问题三:为什么直接在 Flink 引擎中双写到两个 HDFS 集群不是一个好的选择?


为什么直接在 Flink 引擎中双写到两个 HDFS 集群不是一个好的选择?


参考回答:

直接在 Flink 引擎中双写到两个 HDFS 集群会增加引擎的不稳定因素,可能影响到作业运行的稳定性和效率,因此这种方式不适合用来应对小概率的机房故障。


关于本问题的更多回答可点击原文查看:

https://developer.aliyun.com/ask/671952



问题四:Checkpoint coordinator 触发 distcp 的方式存在什么问题,为什么被放弃?


Checkpoint coordinator 触发 distcp 的方式存在什么问题,为什么被放弃?


参考回答:

Checkpoint coordinator 触发 distcp 的方式虽然可以避免 distcp 复制过程中文件变动的问题,但由于 distcp 效率较低,可能导致 Checkpoint 制作流程阻塞,影响作业性能,因此这种方式被放弃。


关于本问题的更多回答可点击原文查看:

https://developer.aliyun.com/ask/671953



问题五:Checkpoint Replicate Service 是如何实现跨 HDFS 集群的副本制作的?


Checkpoint Replicate Service 是如何实现跨 HDFS 集群的副本制作的?


参考回答:

Checkpoint Replicate Service 通过在每个节点上持有多个 HDFS client,分别连接源 HDFS 集群和目标 HDFS 集群,读取源集群的文件并通过目标集群的 client 写入,实现跨集群的副本制作。


关于本问题的更多回答可点击原文查看:

https://developer.aliyun.com/ask/671954

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
2月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
184 6
|
2月前
|
消息中间件 分布式计算 关系型数据库
大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL
大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL
58 0
zdl
|
1月前
|
消息中间件 运维 大数据
大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群
本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。
zdl
153 56
|
2月前
|
存储 分布式计算 资源调度
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
85 5
|
2月前
|
资源调度 数据可视化 大数据
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
37 4
|
2月前
|
XML 分布式计算 资源调度
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
181 5
|
2月前
|
分布式计算 资源调度 Hadoop
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
109 3
|
2月前
Hadoop-09-HDFS集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示(二)
Hadoop-09-HDFS集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示(二)
46 3
|
2月前
|
XML 资源调度 网络协议
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(二)
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(二)
142 4
|
2月前
|
分布式计算 资源调度 Hadoop
大数据-01-基础环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece
大数据-01-基础环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece
88 4

热门文章

最新文章

下一篇
DataWorks