文档备案控制台

开发者社区问答正文

Hudi 和 Flink 的融合过程是什么？

Hudi 和 Flink 的融合过程是什么？

展开

收起

芯在这 2021-12-12 11:39:54 386 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

真的很搞笑

Hudi 原本只支持 Spark 引擎，所以第一步是将 Hudi 与 Spark 解耦之后再去集成我们想要的引擎。

解耦的难点在于 Hudi 最初没有考虑多引擎的支持，所以从数据源读取数据到最终将数据写出到 Hudi 表，RDD 无处不在。连普通的工具类都会使用 RDD 作为基本的操作单元。与 Spark 解耦，我们评估到他的改动非常的大。其次是 Flink 与 Spark 核心抽象上的差异。Spark 认为数据是有限的数据集，而 Flink 认为数据是无界的，是一种数据流。这种抽象上的差异导致我们很难统一出一个通用的抽象。

这次改动对于 Hudi 来说是伤筋动骨的，因此我们决定要优先保证原版 Hudi 的功能和性能，当然也牺牲了部分 Flink Stream API。让 Flink 来操作 list，而用Spark 操作 RDD。这样就可以抽取一个泛型出来形成一个统一的抽象层。

2021-12-12 11:40:33

赞同展开评论

问答分类：

流计算实时计算 Flink版

问答标签：

实时计算 Flink版融合实时计算 Flink版hudi hudi实时计算 Flink版 hudi实时计算 Flink版融合过程

问答地址：

开发者社区 > 大数据 > 问答

相关问答

有没有用 flink cdc 和spark hudi集成的？

265

0

0

你们是如何解决Hudi与Flink的checkpoint一致性问题的？

239

1

0

在Hudi on Flink的初期使用中，你们遇到了哪些问题，并与Hudi社区一起进行了哪些优化？

190

1

0

为什么选择Flink和Hudi作为增量化方案的核心组件？

307

1

0

flink cdc写入hudi的用hive管理元数据的表，这个是什么问题呢？

279

0

0

在Flink CDC中sink hudi 遇到这个问题怎么解决？

183

1

0

Flink有没有尝试写入数据到hudi，存储在本地文件系统的？

346

5

0

Flink CDC里16.2版本集成Hudi有没有详细文档，哪些包需要注意冲突啊？

191

0

0

Flink CDC里哪位有上亿数据量的oracle 同步到 hudi的例子，可以分享一下吗？

239

0

0

请教个Flink问题，从hudi读数据，报错，什么原因?

291

3

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

qoder是不是只能土豪使用吧？

qoder cn 个人专业版的credit用完了，怎么增加credit呢

关于专家团看板，国际版的和国内版的差距很大，国内版只是一个流程图，没啥优势

请问下，国内版的专家团模式看板在哪里，国际版是有的，国内版如果没上，什么时候能上呢

AnalyticDB PostgreSQL版通过安全可靠测评了吗？

相关文章

阿里云数据湖构建DLF完整对接指南：从元数据管理到多引擎集成实践

Kafka 原生消息入湖能力上线！一键打通实时流与数据湖

指纹浏览器是怎么做到防浏览器指纹关联的：从Chromium源码到风控对抗的完整拆解

阿里云Kafka一键入湖技术详解：Iceberg+OSS Table Bucket落地方案

还有其他疑问?