FFA 2021 专场解读 - 实时数据湖-阿里云开发者社区

FFA 2021 专场解读 - 实时数据湖

2021-11-18 700

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，1000CU*H 3个月

简介： 技术专家们将解读如何构建数据湖平台、简化实时数据入湖入仓等相关问题

GitHub 地址
https://github.com/apache/flink
欢迎大家关注 Flink~

Flink Forward Asia 2021 重磅开启，全球 40+ 多行业一线厂商，80+ 干货议题，带来专属于开发者的技术盛宴。

其中，实时数据湖专场，来自阿里巴巴、字节跳动、网易的技术专家们将解读如何构建数据湖平台、简化实时数据入湖入仓等相关问题，更有 Flink + Iceberg、Flink + Hudi 构建流式数据湖最佳实践。

点击链接了解完整大会议程：

https://Flink-forward.org.cn/

字节跳动实时数据湖构建的探索和实践

李延加｜字节跳动数据平台研发工程师，Apache Hudi PMC Member & Committer

在实时数据入仓的场景下，字节跳动基于 Apache Flink 构建了 MQ-Hive 的通道并大规模投入使用，支撑了日均 20+PB 级的数据采集入仓，但是在 CDC 场景下，由于 Hive 不支持更新，所以 CDC 数据依然需要通过基于 Spark 的 T+1 离线链路来生产，实时性和计算效率上都无法满足需求，于是我们团队开始了在数据湖技术上的探索。最终选用 Apache Hudi 作为数据湖底座 + Apache Flink 作为计算引擎，构建了湖仓一体的实时数据集成通道，并获得了较大的业务收益。此次会议我会分享以下议题：

字节跳动超大数据量场景下 CDC 入 Hive 数仓遇到的挑战；
数据湖选型过程与思考；
入湖技术方案以及我们做的优化；
业务落地场景和收益；
未来的计划。

Flink CDC 如何简化实时数据入湖入仓

徐榜江｜阿里巴巴高级开发工程师，Apache Flink Committer，Flink CDC Maintainer

伍翀｜阿里巴巴技术专家，Apache Flink PMC Member & Committer

最近几年实时数仓和数据湖发展迅速，其本质是业务在不断追求更加实时的数据，而 CDC（Change Data Capture）技术则是构建实时数仓和数据湖的关键技术。本次分享我们将探讨现有入湖入仓技术的典型架构和面临的痛点，包括海量 DB 数据的高效接入、数据一致性的语义保证、表结构的频繁变更等等。

接着我们会介绍如何使用 Flink CDC 简化数据入湖入仓架构，分享 Flink CDC 的核心技术是如何解决上述痛点。我们还会介绍 Flink CDC 蓬勃发展的社区生态以及未来的发展规划。

最后，我们会通过一个 demo 来展示如何使用 Flink CDC 完成 MySQL 到 Hudi 的整库数据入湖，并演示表结构变更的自动同步，整个 demo 只使用了几行 SQL，让观众深切体会到数据入湖本应如此 “简单”！

Flink + Iceberg 构建网易湖仓一体

马进｜网易数据科学中心在线数据和实时计算团队负责人

经过多年发展，Hive 已经成为离线数仓的事实标准，Hive 的成功依赖于简洁开放的生态，但是在事务性，实时性，数据更新等能力上有严重不足，这也导致 Hive 无法胜任实时数仓，企业面临着 Kudu、Druid、Clickhouse 等百家争鸣的实时数仓方案，而实时数仓和离线数仓的割裂带来了流批割裂，规范割裂，语义二义性，成本浪费，数据孤岛等问题。

基于这些现状，网易在过去一年多持续致力于基于 Hadoop 数据湖构建实时数仓的方案，以形成流批统一存储，统一计算的实时湖仓，这次分享将给大家带来我们怎样基于 Flink 和 Iceberg 来构建流批一体和湖仓一体方案，重点介绍网易在 Iceberg 基础上开发的文件索引，实时 ingestion 和 compaction 服务，以及在应用场景中的实践，PPT 大纲：

流批一体的痛点；
湖仓一体 = 存储流批一体；
技术方案（文件索引，ingestion，compaction 服务）；
应用实践；
未来规划。

使用 Flink Hudi 构建流式数据湖平台

陈玉兆｜阿里巴巴技术专家，Apache Hudi Committer

刘大龙｜阿里巴巴开发工程师

随着云数仓技术的不断成熟，数据湖俨然已成为当下最热门的技术之一，而 Apache Hudi 是当下最具竞争力的数据湖格式之一：

拥有最活跃的开源社区，周活跃 PR 一直维持在 50+ 水平；
拥有最多的国内用户群，目前的 Apache Hudi 钉钉群已超过 2100+，国内各大厂商都已经布局 Apache Hudi 生态。

Apache Hudi 的活跃度得益于其出色的 file format 设计和丰富的事物语义支持：

精细化的 file format 布局很好的适配了近实时更新场景，解决了超大数据集更新的痛点；
Hudi 的事物层语义是目前的湖存储中最成熟和丰富的，基本所有的数据治理都可以自动化完成：compaction、rollback、cleaning、clustering

本次分享我们首先会探讨数据湖的由来以及 Apache Hudi 的内核设计，包括 Apache Hudi 的 Timeline 设计、Table Format 设计，以及 COW、MOR 等原语。

接着会介绍 Flink On Hudi 的核心设计，Flink 如何更好地结合流计算和湖存储，如何用流的思路实现湖格式的更新语义。

我们还会介绍 Flink On Hudi 活跃的国内用户群、经典的实践案例和近期的 roadmap。

最后，我们会通过一个 demo 来演示如何用简单的 Flink SQL 完成近实时数据湖的经典场景：包括双流 join 入湖、流读变更流、增量查询、TimeTravel 等，用 Flink SQL 玩转近实时数据湖就是如此简单！

Apache Flink 集成 Apache Iceberg 最佳实践

胡争｜阿里巴巴技术专家，Apache Iceberg & HBase PMC

Apache Iceberg 作为一种开放的标准化数据湖表格式，被国内外众多大厂选择和应用。近期 Apache Iceberg 创始团队收获了 A 轮融资，计划在 AWS 之上推出商业版的数据湖存储服务，以满足数据分析师自助的数据分析需求。经过过去一年多的发展，Flink 已经成为 Iceberg 数据湖最重要入湖引擎之一。本次议题我将结合线上的一些案例和开源社区现状，分享 Flink 集成 Iceberg 的一些最佳实践：

Flink + Iceberg 到底解决了哪些其他系统无法解决的问题？
日志表数据入湖的挑战和解决方案；
CDC 表数据入湖的最佳实践；
Iceberg 社区 Flink 模块现状和进展。

以上为 Flink Forward Asia 2021 实时数据湖专场内容节选，了解更多大会详情可点击下方链接：

https://Flink-forward.org.cn/

Flink Forward Asia 2021 赞助与合作

首届 Flink Forward Asia Hackathon 正式启动，10W 奖金等你来！

欢迎进入赛事官网了解详情：

https://www.aliyun.com/page-source//tianchi/promotion/FlinkForwardAsiaHackathon

更多 Flink 相关技术问题，可扫码加入社区钉钉交流群
第一时间获取最新技术文章和社区动态，请关注公众号～

活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算Flink版现开启活动：
99 元试用实时计算Flink版（包年包月、10CU）即有机会获得 Flink 独家定制卫衣；另包 3 个月及以上还有 85 折优惠！
了解活动详情：https://www.aliyun.com/product/bigdata/sc

FFA 2021 专场解读 - 实时数据湖

字节跳动实时数据湖构建的探索和实践

Flink CDC 如何简化实时数据入湖入仓

Flink + Iceberg 构建网易湖仓一体

使用 Flink Hudi 构建流式数据湖平台

Apache Flink 集成 Apache Iceberg 最佳实践

Flink Forward Asia 2021 赞助与合作

实时计算 Flink

热门文章

最新文章

相关电子书