Flink Forward Asia 2021 有奖问答专场汇总
字节跳动实时数据湖构建的探索和实践
李延加|字节跳动数据平台研发工程师,Apache Hudi PMC Member & Committer
Flink CDC 如何简化实时数据入湖入仓
徐榜江|阿里巴巴高级开发工程师,Apache Flink Committer,Flink CDC Maintainer
伍翀|阿里巴巴技术专家,Apache Flink PMC Member & Committer
Flink + Iceberg 构建网易湖仓一体
马进|网易数据科学中心在线数据和实时计算团队负责人
使用 Flink Hudi 构建流式数据湖平台
陈玉兆|阿里巴巴技术专家,Apache Hudi Committer
刘大龙|阿里巴巴开发工程师
Apache Flink 集成 Apache Iceberg 最佳实践
胡争|阿里巴巴技术专家,Apache Iceberg & HBase PMC
议题:使用 Flink Hudi 构建流式数据湖平台
1. 老师好,hudi单表并发写,基于行和列冲突检测的并发写控制,社区有规划实现吗?
议题:Flink CDC 如何简化实时数据入湖入仓
1. cdc入hudi,为了数据可见,依赖于flink cp来进行commit,这两步异步操作如何实现原子型?会存在flink cp成功了,但是commit提交失败的状态吗?
Flink+Iceberg方案在CDC场景(或者upsert数据的场景)下,目前无法对delete的文件进行压缩,同时也无法对data file进行合并,导致小文件数量过多,严重影响业务查询性能和底层集群稳定性,目前、、社区有project正在做这块的工作,且roadmap上将delete file compaction功能放到了Priority 1,目前关于这个功能大概的具体计划吗,大概支持的时间点
Apache Flink 集成 Apache Iceberg 最佳实践: 老师能否对比一下delta,Hudi和Iceberg的功能特点,以及适应的应用场景?是不是有数据删改操作选用Hudi其他用Iceberg?
Flink + Iceberg 构建网易湖仓一体 @马进老师 选型iceberg时候,是否做了hudi的选型对比。老师有没有这方面的一些对比信息或者结论可以分享
Flink CDC 如何简化实时数据入湖入仓
《Flink CDC 如何简化实时数据入湖入仓》问题1:Flink CDC的Schema Evolution模块如果开源的话,Connector中Sink和Catalog相关代码是否也需要变更来适配Schema Evolution模块?比如JDBC Connector是否也要做一定的适配修改?
《Flink CDC 如何简化实时数据入湖入仓》问题2:CDAS和CTAS未来会开源吗?
议题:使用 Flink Hudi 构建流式数据湖平台
问题1:Flink Hudi能否支持非Flink CDC的流式Schema Evolution 呢?
问题2:Hudi merge on read表,如果要配置offline compaction,如何比较方便地进行调度呢?如果很多个flink hudi应用,每个应用都要多一个offline compaction的任务吗?
问题3:目前hudi 官网写了Trino在超大数据集的Hudi 表上 查询效率有影响,在阿里云上的VVR、VVP中有这个问题吗,什么时候会解决呢?
请问数据湖和pravega的区别在哪里呢,哪种更有优势?还有数据湖查询速度延迟一般在多少呢,能否支撑olap?
广告行业从零开始构建实时数据湖,有那些比较好的实践,以及hudi 和 Iceberg是否有比较好的元数据管理,怎样更好的管理数据的血缘关系.
使用Flink SQL构建Hudi数据湖时,目前是在DDL的with中添加path属性作为该表的存储路径,但是该方式是缺乏统一的元数据管理中心的,想问一下hudi后期是否会针对元数据管理有什么规划呢?
议题 : 使用 Flink Hudi 构建流式数据湖平台:
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。