暂无个人介绍
2022年01月
议题:美团实时数仓平台建设 2021 新进展
问题:我们都知道数仓有分层,实时数仓是如何在多层流动,并且保证数据准确性?(比如如果是通过Kafka流动数据,那么是会将数据同时sink到存储(供OLAP查询)和Kafka吗?这样可以保证Kafka的数据完全和存储的数据完全一致吗?)
议题:使用 Flink Hudi 构建流式数据湖平台
问题1:Flink Hudi能否支持非Flink CDC的流式Schema Evolution 呢?
问题2:Hudi merge on read表,如果要配置offline compaction,如何比较方便地进行调度呢?如果很多个flink hudi应用,每个应用都要多一个offline compaction的任务吗?
问题3:目前hudi 官网写了Trino在超大数据集的Hudi 表上 查询效率有影响,在阿里云上的VVR、VVP中有这个问题吗,什么时候会解决呢?