FFA 2021 专场解读 - 实时数据湖

本文涉及的产品
实时计算 Flink 版,1000CU*H 3个月
简介: 技术专家们将解读如何构建数据湖平台、简化实时数据入湖入仓等相关问题

图片

GitHub 地址
https://github.com/apache/flink
欢迎大家关注 Flink~

Flink Forward Asia 2021 重磅开启,全球 40+ 多行业一线厂商,80+ 干货议题,带来专属于开发者的技术盛宴。

其中,实时数据湖专场,来自阿里巴巴、字节跳动、网易的技术专家们将解读如何构建数据湖平台、简化实时数据入湖入仓等相关问题,更有 Flink + Iceberg、Flink + Hudi 构建流式数据湖最佳实践。

点击链接了解完整大会议程:

https://Flink-forward.org.cn/

img

字节跳动实时数据湖构建的探索和实践

李延加|字节跳动数据平台研发工程师,Apache Hudi PMC Member & Committer

在实时数据入仓的场景下,字节跳动基于 Apache Flink 构建了 MQ-Hive 的通道并大规模投入使用,支撑了日均 20+PB 级的数据采集入仓,但是在 CDC 场景下,由于 Hive 不支持更新,所以 CDC 数据依然需要通过基于 Spark 的 T+1 离线链路来生产,实时性和计算效率上都无法满足需求,于是我们团队开始了在数据湖技术上的探索。最终选用 Apache Hudi 作为数据湖底座 + Apache Flink 作为计算引擎,构建了湖仓一体的实时数据集成通道,并获得了较大的业务收益。此次会议我会分享以下议题:

  1. 字节跳动超大数据量场景下 CDC 入 Hive 数仓遇到的挑战;
  2. 数据湖选型过程与思考;
  3. 入湖技术方案以及我们做的优化;
  4. 业务落地场景和收益;
  5. 未来的计划。

Flink CDC 如何简化实时数据入湖入仓

徐榜江|阿里巴巴高级开发工程师,Apache Flink Committer,Flink CDC Maintainer

伍翀|阿里巴巴技术专家,Apache Flink PMC Member & Committer

最近几年实时数仓和数据湖发展迅速,其本质是业务在不断追求更加实时的数据,而 CDC(Change Data Capture)技术则是构建实时数仓和数据湖的关键技术。本次分享我们将探讨现有入湖入仓技术的典型架构和面临的痛点,包括海量 DB 数据的高效接入、数据一致性的语义保证、表结构的频繁变更等等。

接着我们会介绍如何使用 Flink CDC 简化数据入湖入仓架构,分享 Flink CDC 的核心技术是如何解决上述痛点。我们还会介绍 Flink CDC 蓬勃发展的社区生态以及未来的发展规划。

最后,我们会通过一个 demo 来展示如何使用 Flink CDC 完成 MySQL 到 Hudi 的整库数据入湖,并演示表结构变更的自动同步,整个 demo 只使用了几行 SQL,让观众深切体会到数据入湖本应如此 “简单”!

Flink + Iceberg 构建网易湖仓一体

马进|网易数据科学中心在线数据和实时计算团队负责人

经过多年发展,Hive 已经成为离线数仓的事实标准,Hive 的成功依赖于简洁开放的生态,但是在事务性,实时性,数据更新等能力上有严重不足,这也导致 Hive 无法胜任实时数仓,企业面临着 Kudu、Druid、Clickhouse 等百家争鸣的实时数仓方案,而实时数仓和离线数仓的割裂带来了流批割裂,规范割裂,语义二义性,成本浪费,数据孤岛等问题。

基于这些现状,网易在过去一年多持续致力于基于 Hadoop 数据湖构建实时数仓的方案,以形成流批统一存储,统一计算的实时湖仓,这次分享将给大家带来我们怎样基于 Flink 和 Iceberg 来构建流批一体和湖仓一体方案,重点介绍网易在 Iceberg 基础上开发的文件索引,实时 ingestion 和 compaction 服务,以及在应用场景中的实践,PPT 大纲:

  1. 流批一体的痛点;
  2. 湖仓一体 = 存储流批一体;
  3. 技术方案(文件索引,ingestion,compaction 服务);
  4. 应用实践;
  5. 未来规划。

使用 Flink Hudi 构建流式数据湖平台

陈玉兆|阿里巴巴技术专家,Apache Hudi Committer

刘大龙|阿里巴巴开发工程师

随着云数仓技术的不断成熟,数据湖俨然已成为当下最热门的技术之一,而 Apache Hudi 是当下最具竞争力的数据湖格式之一:

  • 拥有最活跃的开源社区,周活跃 PR 一直维持在 50+ 水平;
  • 拥有最多的国内用户群,目前的 Apache Hudi 钉钉群已超过 2100+,国内各大厂商都已经布局 Apache Hudi 生态。

Apache Hudi 的活跃度得益于其出色的 file format 设计和丰富的事物语义支持:

  • 精细化的 file format 布局很好的适配了近实时更新场景,解决了超大数据集更新的痛点;
  • Hudi 的事物层语义是目前的湖存储中最成熟和丰富的,基本所有的数据治理都可以自动化完成:compaction、rollback、cleaning、clustering

本次分享我们首先会探讨数据湖的由来以及 Apache Hudi 的内核设计,包括 Apache Hudi 的 Timeline 设计、Table Format 设计,以及 COW、MOR 等原语。

接着会介绍 Flink On Hudi 的核心设计,Flink 如何更好地结合流计算和湖存储,如何用流的思路实现湖格式的更新语义。

我们还会介绍 Flink On Hudi 活跃的国内用户群、经典的实践案例和近期的 roadmap。

最后,我们会通过一个 demo 来演示如何用简单的 Flink SQL 完成近实时数据湖的经典场景:包括双流 join 入湖、流读变更流、增量查询、TimeTravel 等,用 Flink SQL 玩转近实时数据湖就是如此简单 !

Apache Flink 集成 Apache Iceberg 最佳实践

胡争|阿里巴巴技术专家,Apache Iceberg & HBase PMC

Apache Iceberg 作为一种开放的标准化数据湖表格式,被国内外众多大厂选择和应用。近期 Apache Iceberg 创始团队收获了 A 轮融资,计划在 AWS 之上推出商业版的数据湖存储服务,以满足数据分析师自助的数据分析需求。经过过去一年多的发展,Flink 已经成为 Iceberg 数据湖最重要入湖引擎之一。本次议题我将结合线上的一些案例和开源社区现状,分享 Flink 集成 Iceberg 的一些最佳实践:

  1. Flink + Iceberg 到底解决了哪些其他系统无法解决的问题?
  2. 日志表数据入湖的挑战和解决方案;
  3. CDC 表数据入湖的最佳实践;
  4. Iceberg 社区 Flink 模块现状和进展。

以上为 Flink Forward Asia 2021 实时数据湖专场内容节选,了解更多大会详情可点击下方链接:

https://Flink-forward.org.cn/

Flink Forward Asia 2021 赞助与合作

图片

首届 Flink Forward Asia Hackathon 正式启动,10W 奖金等你来!

欢迎进入赛事官网了解详情:

https://www.aliyun.com/page-source//tianchi/promotion/FlinkForwardAsiaHackathon

图片

更多 Flink 相关技术问题,可扫码加入社区钉钉交流群
第一时间获取最新技术文章和社区动态,请关注公众号~

image.png

活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算Flink版现开启活动:
99 元试用 实时计算Flink版(包年包月、10CU)即有机会获得 Flink 独家定制卫衣;另包 3 个月及以上还有 85 折优惠!
了解活动详情:https://www.aliyun.com/product/bigdata/sc

image.png

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
|
存储 SQL 分布式计算
Lakehouse架构指南
Lakehouse架构指南
429 2
|
消息中间件 存储 大数据
快手基于Apache Hudi的实践
快手基于Apache Hudi的实践
174 0
|
存储 SQL 运维
TIDB和MySQL的区别
TIDB和MySQL的区别
2005 0
|
消息中间件 缓存 监控
Flink背压原理以及解决优化
Flink背压原理以及解决优化
975 0
|
2月前
|
人工智能 运维 Java
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
本文基于Apache Flink PMC成员宋辛童在Community Over Code Asia 2025的演讲,深入解析Flink Agents项目的技术背景、架构设计与应用场景。该项目聚焦事件驱动型AI智能体,结合Flink的实时处理能力,推动AI在工业场景中的工程化落地,涵盖智能运维、直播分析等典型应用,展现其在AI发展第四层次——智能体AI中的重要意义。
1031 27
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
|
存储 大数据 测试技术
用于大数据分析的数据存储格式:Parquet、Avro 和 ORC 的性能和成本影响
在大数据环境中,数据存储格式直接影响查询性能和成本。本文探讨了 Parquet、Avro 和 ORC 三种格式在 Google Cloud Platform (GCP) 上的表现。Parquet 和 ORC 作为列式存储格式,在压缩和读取效率方面表现优异,尤其适合分析工作负载;Avro 则适用于需要快速写入和架构演化的场景。通过对不同查询类型(如 SELECT、过滤、聚合和联接)的基准测试,本文提供了在各种使用案例中选择最优存储格式的建议。研究结果显示,Parquet 和 ORC 在读取密集型任务中更高效,而 Avro 更适合写入密集型任务。正确选择存储格式有助于显著降低成本并提升查询性能。
1392 1
用于大数据分析的数据存储格式:Parquet、Avro 和 ORC 的性能和成本影响
|
10月前
|
算法 Java API
Java 方法注释:规范、实用和高质量的写法
本文深入探讨了如何编写高质量的 Java 方法注释
567 11
|
SQL 分布式计算 Java
【赵渝强老师】Hive的体系架构
Hive是基于Hadoop的数据仓库平台,提供SQL-like的HQL语言进行数据分析,无需编写复杂的Java代码。Hive支持丰富的数据模型,可将SQL语句转换为MapReduce任务在Yarn上运行,底层依赖HDFS存储数据。Hive可通过CLI、JDBC和Web界面执行SQL查询。
495 2
|
NoSQL Java 调度
在Spring Boot中实现分布式任务调度
在Spring Boot中实现分布式任务调度
|
设计模式 Java 容器
在Java中调用一个接口的多个实现类
在Java中调用一个接口的多个实现类
1505 4