Flink Forward Asia 2021 实时数据湖专场

Flink Forward Asia 2021 有奖问答专场汇总

FFA 2021 线上观看地址

1 月 8 日下午

字节跳动实时数据湖构建的探索和实践

李延加｜字节跳动数据平台研发工程师，Apache Hudi PMC Member & Committer
Flink CDC 如何简化实时数据入湖入仓

徐榜江｜阿里巴巴高级开发工程师，Apache Flink Committer，Flink CDC Maintainer

伍翀｜阿里巴巴技术专家，Apache Flink PMC Member & Committer
Flink + Iceberg 构建网易湖仓一体

马进｜网易数据科学中心在线数据和实时计算团队负责人
使用 Flink Hudi 构建流式数据湖平台

陈玉兆｜阿里巴巴技术专家，Apache Hudi Committer

刘大龙｜阿里巴巴开发工程师
Apache Flink 集成 Apache Iceberg 最佳实践

胡争｜阿里巴巴技术专家，Apache Iceberg & HBase PMC

展开

收起

阿里云实时计算Flink 2021-12-28 21:14:26 21368 版权

20 条回答

写回答

取消提交回答

黎明清境

学习下

2022-04-22 09:09:18

赞同展开评论
nvrcrxouoig6s

学习

2022-04-06 08:52:42

赞同展开评论
随洋

加油加油

2022-03-13 14:09:25

赞同展开评论
我是快乐的嘟嘟

coder

加油

2022-02-12 17:05:37

赞同展开评论
wanghuan524

议题:使用 Flink Hudi 构建流式数据湖平台
1. 老师好，hudi单表并发写，基于行和列冲突检测的并发写控制，社区有规划实现吗？

议题:Flink CDC 如何简化实时数据入湖入仓
1. cdc入hudi，为了数据可见，依赖于flink cp来进行commit，这两步异步操作如何实现原子型？会存在flink cp成功了，但是commit提交失败的状态吗？

2022-01-09 15:37:50

赞同展开评论
gegbm2i3fyhl6

Flink+Iceberg方案在CDC场景（或者upsert数据的场景）下，目前无法对delete的文件进行压缩，同时也无法对data file进行合并，导致小文件数量过多，严重影响业务查询性能和底层集群稳定性，目前、、社区有project正在做这块的工作，且roadmap上将delete file compaction功能放到了Priority 1，目前关于这个功能大概的具体计划吗，大概支持的时间点

2022-01-08 16:55:31

赞同展开评论
北方的郎

一个IT老兵，在这行摸爬滚打快20年了，很多工作都做过，也熟悉不少技术。现在对云计算，大数据以及机器学习很感兴趣。

Apache Flink 集成 Apache Iceberg 最佳实践: 老师能否对比一下delta,Hudi和Iceberg的功能特点，以及适应的应用场景？是不是有数据删改操作选用Hudi其他用Iceberg?

2022-01-08 16:05:06

赞同展开评论
t5ddr5sfwwscg

Flink + Iceberg 构建网易湖仓一体 @马进老师选型iceberg时候，是否做了hudi的选型对比。老师有没有这方面的一些对比信息或者结论可以分享

2022-01-08 15:50:09

赞同展开评论
0x3E6

使用 Flink Hudi 构建流式数据湖平台

请问千表入湖需要多少内存呢，如何根据数据量与表数量分配任务内存？

2022-01-08 15:45:26

赞同展开评论
zhongqishang
Flink CDC 如何简化实时数据入湖入仓
1. Iceberg 是否也可以支持整库同步 Feature，能不能分享一下对于 hudi、Iceberg 的整库入湖的选型思路;
2. 对于整库同步的大概开源计划；
3. 对于 TiDB 的支持;
2022-01-08 15:15:06

赞同展开评论
AdaWong

Apache Flink

《Flink CDC 如何简化实时数据入湖入仓》问题1：Flink CDC的Schema Evolution模块如果开源的话，Connector中Sink和Catalog相关代码是否也需要变更来适配Schema Evolution模块？比如JDBC Connector是否也要做一定的适配修改？

《Flink CDC 如何简化实时数据入湖入仓》问题2：CDAS和CTAS未来会开源吗？

2022-01-08 14:54:55

赞同展开评论
飛鳥與魚

source合并是通过calcite实现的吗

2022-01-08 14:47:22

赞同展开评论
1173717994593360

数据湖构建之后，如何做到统一的数据目录管理以及统一的数据查询喃，请问有什么好的技术实现？

2022-01-08 14:11:23

赞同展开评论
蝶落指尖

议题：使用 Flink Hudi 构建流式数据湖平台

问题1：Flink Hudi能否支持非Flink CDC的流式Schema Evolution 呢？

问题2：Hudi merge on read表，如果要配置offline compaction，如何比较方便地进行调度呢？如果很多个flink hudi应用，每个应用都要多一个offline compaction的任务吗？

问题3：目前hudi 官网写了Trino在超大数据集的Hudi 表上查询效率有影响，在阿里云上的VVR、VVP中有这个问题吗，什么时候会解决呢？

2022-01-08 12:12:51

赞同 2 展开评论
打工码农仔

flink入hudi能否有更完善的stream Api和官方文档,整库多表入湖如何实现？

2022-01-08 11:48:58

赞同展开评论
56dzngw35pv62

请问数据湖和pravega的区别在哪里呢，哪种更有优势?还有数据湖查询速度延迟一般在多少呢，能否支撑olap？

2022-01-08 11:37:02

赞同展开评论
水电费水规范

数据入湖怎么保证数据不多不少，并有效的监控数据质量

2022-01-08 11:04:08

赞同展开评论
yue23yue

广告行业从零开始构建实时数据湖,有那些比较好的实践,以及hudi 和 Iceberg是否有比较好的元数据管理,怎样更好的管理数据的血缘关系.

2022-01-08 09:17:03

赞同展开评论
从大数据到人工智能

专注于开源技术的整理与分享，整理关于大数据相关组件使用与原理分析

使用Flink SQL构建Hudi数据湖时，目前是在DDL的with中添加path属性作为该表的存储路径，但是该方式是缺乏统一的元数据管理中心的，想问一下hudi后期是否会针对元数据管理有什么规划呢？

2022-01-07 21:36:24

赞同 1 展开评论
mmmagic
议题 : 使用 Flink Hudi 构建流式数据湖平台:
1. 何时会支持整库数据同步;
2. 亿级别数据实时更新性能如何，资源使用情况是什么样呢;
3. hudi后续版本有没有一个roadmap来供大家参考呢
2022-01-06 09:51:58

赞同 1 展开评论

滑动查看更多

Flink Forward Asia 2021 实时数据湖专场

1 月 8 日下午

实时计算 Flink

相关文章

热门讨论

热门文章