FFA 2021 专场解读 - 开源解决方案 / 流批一体

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 关注 FFA 2021,一起探讨当下大数据的发展趋势与未来动向吧~

图片

GitHub 地址
https://github.com/apache/flink
欢迎大家关注 Flink~

Flink Forward Asia 2021 重磅开启,全球 40+ 多行业一线厂商,80+ 干货议题,带来专属于开发者的技术盛宴。

其中,开源解决方案专场,来自 Pravega、Pulsar、TiDB、Zeppelin、Atlas 等社区的技术专家围绕 Flink 的生态融合,探讨当下大数据的发展趋势与未来动向,并展现相关技术在一线生产场景的最佳实践;流批一体专场,字节跳动、美团、京东、小米的技术专家也将分享流批一体的生产实践,另有来自阿里巴巴的技术专家手把手教你如何构建流批一体数仓。

点击链接了解完整大会议程:

https://Flink-forward.org.cn/

开源解决方案

img

HTAP 趋势下,大数据的未来

黄东旭|PingCAP 联合创始人兼 CTO,资深基础软件工程师,架构师

近年来行业数字化场景爆发式增长,数据呈现出海量、实时、在线等趋势。随着企业对数据实时性和可靠性的要求越来越高,传统通过数据库、中间件、等暴露出上线难、维护成本极高等问题,严重阻碍企业数字化进程。HTAP (Hybrid Transactional/Analytical Processing,即混合事务 / 分析处理)数据库能够在一份数据源上同时支撑在线事务处理(OLTP)和在线分析处理(OLAP)场景,避免了传统架构中在线与离线数据库之间大量的数据交互。

权威调研机构 Gartner 认为,HTAP 数据库将成为数据库领域的重要发展趋势。同样的在大数据领域也呈现出了强烈的实时和在线化趋势,实时计算正在成为不可缺少的大数据能力。TiDB 和 Flink 是 HTAP 和实时计算领域的领先者。TiDB 为海量数据带来了高性能在线查询能力和实时更新能力,能够为 Flink 实时数据打宽和实时计算结果存储提供完善的支撑。Flink 除了为 TiDB 的交易数据提供端到端实时处理能力之外,还为 TiDB 提供了外部异构数据的联邦处理能力。两大生态创新整合形成的一体化的数据平台,能够帮助企业更快应对行业变化、不确定性和机遇。

通过本次分享,听众将了解在线交易同大数据应用在 HTAP 数据库重新结合的趋势以及 Flink 与 TiDB 的联合能为企业带来哪些新的可能。

Pravega Flink connector Table API 进阶功能揭秘

周煜敏|戴尔科技集团高级软件工程师,Apache Flink Contributor

介绍 Pravega Flink connector 在进阶 Table API 的支持工作,在 FLIP-95 的 Table API 的基础上,进一步添加了包括端到端的 debezium 格式的 CDC 支持以及 catalog API 的支持。

演讲内容会围绕这两部分的功能和实现进行展开,介绍 Pravega 项目本身 debezium sink 以及 schema registry 等相关技术,以及 connector 在此基础上集成这些功能上遇到的困难以及代码演进的历程。希望我们的经验可以帮助到社区的其他项目。

打造批流融合:Pulsar - Flink Connector 的设计、开发和使用

盛宇帆|StreamNative 工程师

对于 Flink 而言 Pulsar 是一个新鲜而又熟悉的老朋友,早在 19 年,我们就有计划给 Flink 社区提交 Pulsar Connector 的代码。随着 Pulsar 社区的壮大,对于流批一体化的实际,这一贡献进度翻开了全新的篇章。

Pulsar 的小伙伴将基于全新的 Flink Source 和 Sink API 重新设计并开发了 Pulsar Connector,并且已将 Sink API 合并到 Flink 的代码仓库进行维护。

本次演讲,我们将介绍 Flink 1.14.0 新版本的一个特性 Pulsar - Flink Connector,以及当前的 Pulsar Connector 如何打通 Flink 和 Pulsar 之前的壁垒、如何使用全新的 Pulsar Connector 开发 Flink 应用来使用 Pulsar。

大数据三剑合一:Flink + Zeppelin + Airflow

章剑锋|阿里巴巴高级技术专家,Apache Member,PMC of Zeppelin、Tez、Livy

Flink + Zeppelin 发展多年,已经成为了一个比较成熟的 Flink 开发平台。随着 Flink 的批流引擎的统一,对 Flink 的生产调度也变得非常迫切。Airflow 是目前开源届最流行的调度系统,今年我们把 Zeppelin 和 Airflow 做了一个整合。这样的话,用户可以在 Zeppelin 里做 Flink 作业的交互式开发,然后在 Airflow 里通过调用 Zeppelin 来调度 Flink 作业,这样把 Flink 作业的开发和生产做了一个完美无缝的整合。

本次演讲我们将为大家讲述我们是如何整合这大数据三剑客的,这个整合又能如何提高你的开发以及运维效率。

Mars on Flink:实时数据流上的 Pandas

付典|阿里巴巴高级技术专家,Apache Flink PMC

  1. Mars on Flink 解决的问题:结合 Flink 引擎的实时数据处理能力以及 Mars 引擎的分布式 Pandas 计算能力,用户基于 Pandas API 开发的单机实验作业,可以不经过修改或者只需要少量修改,就可以部署到生产环境中进行分布式实时处理;
  2. Mars on Flink 的架构;
  3. Mars on Flink 的使用案例;
  4. Mars on Flink 下一步的发展规划。

使用 Apache Atlas 追踪 Apache Flink 的实时数据仓库血缘

刘岩|Cloudera 解决方案工程师,Apache Hive/Apache Flink Contributor

Apache Flink 已经成为了实时数据处理的事实标准,Apache Atlas 也已经成为了开源的数据治理方案。本专题首先介绍如何使用 Apache Flink 对现有数据仓库的主要加工算法进行实时化改造,并引申出在使用 Apache Flink 构建实时数据仓库时,如何通过 Apache Atlas 来追踪其数据血缘,并交互式分析上下游血缘影响。

基于 Apache Flink + RocketMQ + Hudi 构建 Lakehouse

蒋晓峰|阿里巴巴技术专家,Apache RocketMQ & Apache ShardingSphere & SOFAJRaft Committer,Apache Flink Contributor

Lakehouse 是低成本,直接访问云存储并且提供传统 DBMS 管系统性能和 ACID 事务、版本、审计、索引、缓存、查询优化的数据管理系统,Lakehouse 结合数据湖和数据仓库的优点:包括数据湖的低成本存储和开放数据格式访问,数据仓库强大的管理和优化能力。

本次演讲将介绍使用 Apache Flink + RocketMQ + Hudi 构建新一代 Lakehouse 解决方案与最佳实践,其中 RocketMQ 提供面向流式存储支持、流批一体的数据访问能力等,让其成为一个可以统一批和事件流消息平台。RocketMQ Hudi Connector 通过几行简单的配置可以轻松实现数据自动流入 Hudi,自定义负载均衡可以自动伸缩数据流管道宽度,支持 Hudi 所有参数配置和特性,如 Copy-On-Write/Merge-On-Read 表类型、Schema Evolution等。

蚂蚁实时计算 Flink on OceanBase

梅庆|蚂蚁集团高级技术专家,OceanBase 解决方案架构师,OceanBase 开源生态负责人

陶然|阿里巴巴高级开发工程师,Apache Spark/Apache Flink Contributor

蚂蚁的实时计算业务主要运行于云化环境,云上混部环境中我们遇到了很多问题与挑战,如稳定性问题,多输入输出组件和复用及冲突问题,结果存储性能问题,云盘性能问题,易用性问题,资源使用效率等问题,对此我们也采取了相应的解决方案。

本次为大家带来我们生产实践中解决 Flink 相关问题的经验和分享,以及 OceanBase 的特性和选 OceanBase 的原因。

双剑合璧:Flink + StarRocks 构建实时数仓解决方案

谢寅|StarRocks 解决方案架构师

极速的实时数据处理能力和极速的查询分析能力,只有把这两种能力结合起来,才能整体提升数仓业务端到端的实时性。Apache Flink 作为分布式计算引擎已经成为实时 ETL 处理方面的事实标准,而配合极速分析型 MPP 数据库 StarRocks,会让实时数仓的构建如虎添翼。

流批一体

img

Flink 流批一体在字节推荐系统的实践

胡家煊|字节跳动推荐架构基础服务研发工程师

郭文飞|字节跳动推荐架构基础服务方向负责人

特征生产是推荐系统数据流转中非常重要的环节,从上游的埋点数据经过清洗、过滤、聚合计算等步骤形成最终供线上取用的各种特征,是推荐系统的基石;

目前字节推荐系统中的特征生产流程,经历了从早期的 Hadoop、Spark 批式处理程序,到现在实时性更强、流批一体的 Flink 应用,从时效性、稳定性、架构完整性方面都取得了一些收益;本次分享主要介绍支持流批一体的 Flink 框架是如何在字节推荐系统中玩转的;

  1. 业务背景

    • 内部特征服务调研;
    • 特征生产面临的挑战;
    • 新一代基于 Flink 的推荐特征平台。
  2. 整体架构设计

    • 有状态特征计算;
    • ETL 类型特征计算;
    • 批式特征计算。
  3. 特征入湖
  4. 线上问题和挑战

    • 数据回溯;
    • 窗口特征计算精度 tradeoff;
    • 性能优化。
  5. 未来规划

美团基于流批一体构建增量数仓生产实践

刘迪珊|美团数据平台工程师

介绍美团数据生产场景:在离线数仓和实时数仓之外,基于 Flink 的流批一体和数据湖存储技术,构建增量数仓生产的架构以及实践。主要包括增量生产场景、Flink runtime 的优化、语义优化、存储能力优化等。

流批一体在京东的探索与实践

韩飞|京东高级技术专家,Apache Flink Contributor

本次分享包含京东对流批一体的整体思考、技术方案以及目前的实践应用情况。

大纲:

  1. 整体思考(痛点、核心理念、技术挑战);
  2. 技术方案(基于 FlinkSQL + Iceberg 的架构、流批模型问题、资源混部、流批一体相关的 Flink 优化);
  3. 流批一体业务落地案例介绍;
  4. 社区贡献及未来规划。

基于 Flink Dynamic Table 构建流批一体数仓

李劲松|阿里巴巴技术专家,Apache Flink & Iceberg Committer

在实时数仓中,消息队列用于数仓 Pipeline 的数据源和中间阶段,但是实时数仓的中间表是不可查询的,融合离线数仓必然需要提供可查询的中间表。

因此,可以将中间数据双写到 Hive 或湖存储中,以便查询中间表。 但是,这样的 Pipeline 存在以下问题:

  • 对于用户来说,Append 模式和 Upsert 模式需要对应特定的存储。没有主键的情况更为复杂;
  • 增加了架构复杂性,增加了操作和运维复杂性;
  • 更为关键的是,流和批的体验是割裂的两套。

在 Flink SQL 上,我们引入了内置的 Dynamic Table 存储,这是一种真正统一的 changelog & table 表示,它提供易用的流计算,同时提供高性能的批查询,还可以解决流存储数据过期难以回刷的困难。

Flink 流批一体在小米的探索和实践

金风|小米软件开发工程师

小米从 2019 年开始接入使用 Flink,至今 Flink 在小米内部的应用飞速发展,已成为小米内部实时计算的标准。 期间我们不断完善作业管理平台,支持管理 Flink / FlinkSQL 作业,帮助业务更好地使用 Flink。同时基于 metacat + ranger,我们做了统一的元数据管理和权限管理,并应用于 Flink、Presto、Spark 等计算引擎。我们的作业管理平台支持了公司内部众多大数据组件,包括 Iceberg,Talos (小米内部消息队列),Kudu,Hive,Doris,TiDB。

2020 年,基于 FlinkSQL + Talos,我们落地了小米实时数仓方案, 构建了小米销售服务的实时数仓。2021 年初,我们开始探索使用数据湖,基于 Flink + Iceberg 我们初步实现了流批一体的技术方案,在小米内部的一些场景也得到了应用。后续我们会不断完善小米的流批一体方案,期待 Flink + Iceberg 能够提升业务效率,应用于更多的使用场景。


以上为 Flink Forward Asia 2021 开源解决方案以及流批一体专场内容节选,了解更多大会详情可点击下方链接:

https://Flink-forward.org.cn/

Flink Forward Asia 2021 赞助与合作

图片


首届 Flink Forward Asia Hackathon 正式启动,10W 奖金等你来!

欢迎进入赛事官网了解详情:

https://www.aliyun.com/page-source//tianchi/promotion/FlinkForwardAsiaHackathon

图片

更多 Flink 相关技术问题,可扫码加入社区钉钉交流群
第一时间获取最新技术文章和社区动态,请关注公众号~

image.png

活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算Flink版现开启活动:
99 元试用 实时计算Flink版(包年包月、10CU)即有机会获得 Flink 独家定制卫衣;另包 3 个月及以上还有 85 折优惠!
了解活动详情:https://www.aliyun.com/product/bigdata/sc

image.png

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
人工智能 分布式计算 大数据
FFA 2023 「流式湖仓」专场:从技术原理到应用实践打造流式湖仓新架构
今年 Flink Forward Asia(以下简称 FFA ) 重新回归线下,将于 12 月 8 - 9 日在北京望京凯悦酒店举办。Flink Forward Asia 2023 大会议程已正式上线!
993 0
FFA 2023 「流式湖仓」专场:从技术原理到应用实践打造流式湖仓新架构
|
7月前
|
SQL 分布式计算 HIVE
开源湖仓一体平台(二):Arctic(上篇)
开源湖仓一体平台(二):Arctic(上篇)
开源湖仓一体平台(二):Arctic(上篇)
|
Kubernetes Cloud Native Apache
FFA 2023 专场解读:流批一体&平台建设&云原生
完整议程已公开,期待 12 月 8-9 日与你 Flink Forward Asia 2023 相会!
662 3
FFA 2023 专场解读:流批一体&平台建设&云原生
|
运维 算法 Apache
FFA 2023 「生产实践」专场:Flink 大规模技术优化与生产实践
完整议程已公开,期待 12 月 8-9 日与你 Flink Forward Asia 2023 相会!
470 1
 FFA 2023 「生产实践」专场:Flink 大规模技术优化与生产实践
|
7月前
|
SQL 消息中间件 分布式计算
开源湖仓一体平台(一):LakeSoul
开源湖仓一体平台(一):LakeSoul
|
SQL 存储 OLAP
FFA 2023 「核心技术」专场: Flink 核心技术动向深度解读
完整议程已公开,期待 12 月 8-9 日与你 Flink Forward Asia 2023 相会!
451 0
FFA 2023 「核心技术」专场: Flink 核心技术动向深度解读
|
存储 SQL Cloud Native
离在线一体化云原生数仓发展思考
OLAP是一个很卷的赛道,创业公司也众多。基于笔者10+年的大数据与数据仓库的工作经验,就目前的数据仓库主流趋势:离在线一体化、引擎一体化、云原生化等写一些思考,抛砖引玉。
345 0
|
SQL 机器学习/深度学习 存储
FFA 2022 专场解读 - 流批一体 & 平台建设 & AI 特征工程
Flink Forward Asia 2022 流批一体 & 平台建设 & AI 特征工程专场内容节选
FFA 2022 专场解读 - 流批一体 & 平台建设 & AI 特征工程
|
SQL 存储 机器学习/深度学习
流批一体架构在快手的实践和思考
快手技术专家、Apache Flink & Apache Calcite Committer 张静,在 FFA 流批一体专场的分享。
流批一体架构在快手的实践和思考
|
存储 Web App开发 Kubernetes
FFA 2022 专场解读 - Flink 核心技术
核心技术专场,一线技术专家解析 Flink 技术动向与应用实践。
FFA 2022 专场解读 - Flink 核心技术