开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Flink Forward Asia 2021 实时数据湖专场

Flink Forward Asia 2021 有奖问答专场汇总

FFA 2021 线上观看地址

1 月 8 日下午

  • 字节跳动实时数据湖构建的探索和实践

    李延加|字节跳动数据平台研发工程师,Apache Hudi PMC Member & Committer

  • Flink CDC 如何简化实时数据入湖入仓

    徐榜江|阿里巴巴高级开发工程师,Apache Flink Committer,Flink CDC Maintainer

    伍翀|阿里巴巴技术专家,Apache Flink PMC Member & Committer

  • Flink + Iceberg 构建网易湖仓一体

    马进|网易数据科学中心在线数据和实时计算团队负责人

  • 使用 Flink Hudi 构建流式数据湖平台

    陈玉兆|阿里巴巴技术专家,Apache Hudi Committer

    刘大龙|阿里巴巴开发工程师

  • Apache Flink 集成 Apache Iceberg 最佳实践

    胡争|阿里巴巴技术专家,Apache Iceberg & HBase PMC

展开
收起
阿里云实时计算Flink 2021-12-28 21:14:26 21207 0
20 条回答
写回答
取消 提交回答
  • 学习下

    2022-04-22 09:09:18
    赞同 展开评论 打赏
  • 学习

    2022-04-06 08:52:42
    赞同 展开评论 打赏
  • 加油加油

    2022-03-13 14:09:25
    赞同 展开评论 打赏
  • 加油

    2022-02-12 17:05:37
    赞同 展开评论 打赏
  • 议题:使用 Flink Hudi 构建流式数据湖平台
    1. 老师好,hudi单表并发写,基于行和列冲突检测的并发写控制,社区有规划实现吗?

    议题:Flink CDC 如何简化实时数据入湖入仓
    1. cdc入hudi,为了数据可见,依赖于flink cp来进行commit,这两步异步操作如何实现原子型?会存在flink cp成功了,但是commit提交失败的状态吗?

    2022-01-09 15:37:50
    赞同 展开评论 打赏
  • Flink+Iceberg方案在CDC场景(或者upsert数据的场景)下,目前无法对delete的文件进行压缩,同时也无法对data file进行合并,导致小文件数量过多,严重影响业务查询性能和底层集群稳定性,目前、、社区有project正在做这块的工作,且roadmap上将delete file compaction功能放到了Priority 1,目前关于这个功能大概的具体计划吗,大概支持的时间点

    2022-01-08 16:55:31
    赞同 展开评论 打赏
  • 一个IT老兵,在这行摸爬滚打快20年了,很多工作都做过,也熟悉不少技术。现在对云计算,大数据以及机器学习很感兴趣。

    Apache Flink 集成 Apache Iceberg 最佳实践: 老师能否对比一下delta,Hudi和Iceberg的功能特点,以及适应的应用场景?是不是有数据删改操作选用Hudi其他用Iceberg?

    2022-01-08 16:05:06
    赞同 展开评论 打赏
  • Flink + Iceberg 构建网易湖仓一体 @马进老师 选型iceberg时候,是否做了hudi的选型对比。老师有没有这方面的一些对比信息或者结论可以分享

    2022-01-08 15:50:09
    赞同 展开评论 打赏
  • 使用 Flink Hudi 构建流式数据湖平台

    请问千表入湖需要多少内存呢,如何根据数据量与表数量分配任务内存?

    2022-01-08 15:45:26
    赞同 展开评论 打赏
  • Flink CDC 如何简化实时数据入湖入仓

    1. Iceberg 是否也可以支持整库同步 Feature,能不能分享一下对于 hudi、Iceberg 的整库入湖的选型思路;
    2. 对于整库同步的大概开源计划;
    3. 对于 TiDB 的支持;
    2022-01-08 15:15:06
    赞同 展开评论 打赏
  • Apache Flink

    《Flink CDC 如何简化实时数据入湖入仓》问题1:Flink CDC的Schema Evolution模块如果开源的话,Connector中Sink和Catalog相关代码是否也需要变更来适配Schema Evolution模块?比如JDBC Connector是否也要做一定的适配修改?

    《Flink CDC 如何简化实时数据入湖入仓》问题2:CDAS和CTAS未来会开源吗?

    2022-01-08 14:54:55
    赞同 展开评论 打赏
  • source合并是通过calcite实现的吗

    2022-01-08 14:47:22
    赞同 展开评论 打赏
  • 数据湖构建之后,如何做到统一的数据目录管理以及统一的数据查询喃,请问有什么好的技术实现?

    2022-01-08 14:11:23
    赞同 展开评论 打赏
  • 议题:使用 Flink Hudi 构建流式数据湖平台

    问题1:Flink Hudi能否支持非Flink CDC的流式Schema Evolution 呢?

    问题2:Hudi merge on read表,如果要配置offline compaction,如何比较方便地进行调度呢?如果很多个flink hudi应用,每个应用都要多一个offline compaction的任务吗?

    问题3:目前hudi 官网写了Trino在超大数据集的Hudi 表上 查询效率有影响,在阿里云上的VVR、VVP中有这个问题吗,什么时候会解决呢?

    2022-01-08 12:12:51
    赞同 2 展开评论 打赏
  • flink入hudi能否有更完善的stream Api和官方文档,整库多表入湖如何实现?

    2022-01-08 11:48:58
    赞同 展开评论 打赏
  • 请问数据湖和pravega的区别在哪里呢,哪种更有优势?还有数据湖查询速度延迟一般在多少呢,能否支撑olap?

    2022-01-08 11:37:02
    赞同 展开评论 打赏
  • 数据入湖怎么保证数据不多不少,并有效的监控数据质量

    2022-01-08 11:04:08
    赞同 展开评论 打赏
  • 广告行业从零开始构建实时数据湖,有那些比较好的实践,以及hudi 和 Iceberg是否有比较好的元数据管理,怎样更好的管理数据的血缘关系.

    2022-01-08 09:17:03
    赞同 展开评论 打赏
  • 专注于开源技术的整理与分享,整理关于大数据相关组件使用与原理分析

    使用Flink SQL构建Hudi数据湖时,目前是在DDL的with中添加path属性作为该表的存储路径,但是该方式是缺乏统一的元数据管理中心的,想问一下hudi后期是否会针对元数据管理有什么规划呢?

    2022-01-07 21:36:24
    赞同 1 展开评论 打赏
  • 议题 : 使用 Flink Hudi 构建流式数据湖平台:

    1. 何时会支持整库数据同步;
    2. 亿级别数据实时更新性能如何,资源使用情况是什么样呢;
    3. hudi后续版本有没有一个roadmap来供大家参考呢
    2022-01-06 09:51:58
    赞同 1 展开评论 打赏
滑动查看更多

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    哈啰出行基于阿里云数据湖构建实践 立即下载
    《基于Apache Hudi的CDC数据入湖》 立即下载
    云原生数据湖构建、分析与开发治理最佳实践 立即下载