开发者社区> 阿里云实时计算Flink> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

回顾|Apache Flink Meetup · 北京站(附问题解答 & PPT 下载)

简介: 9月24日,Apache Flink Meetup 线上问题解答 + PPT 获取方式
+关注继续查看

img

Flink 1.16、Flink Batch、更轻量的 Checkpoint、Table Store 0.2、 Streaming Warehouse 、流批一体...这些都是 9 月 24 日 Apache Flink Meetup 的关键词。

活动现场照片:https://live.photoplus.cn/live/pc/91397712/#/live

活动视频回顾 & PPT 获取

PC 端

建议前往 Apache Flink 学习网:
https://flink-learning.org.cn/activity/detail/f30571911e47478ddf4047eeb518d796

移动端

PPT:关注 Apache Flink 公众号,回复 0924
视频:关注 ApacheFlink 视频号,查看直播回放

线上问题解答

01《更快更稳更易用 -- Flink 批处理能力演进》

问:自适应这个是默认开启吗?

答:目前没有默认开启,需要用户配置使用自适应批处理调度器来启用。具体可以参考社区文档
https://nightlies.apache.org/flink/flink-docs-release-1.15/zh/docs/deployment/elastic_scaling/#adaptive-batch-scheduler

问:自适应能不能解决数据倾斜问题?

答:当前版本还不能。但是 Adaptive Batch Scheduler 的实现已经为数据倾斜的解决提供了基础。后续我们会根据各个数据分区的大小,对其进行分组,使得各个下游消费的数据尽可能均衡。当然,这样解决不了非常严重的热点 key 问题。不过动态执行拓扑的引入,使得引入子拓扑来对热点 key 进行拆分整合成为了可能,从而解决热点 key 的问题,我们会持续关注这方面的需求并考虑完善的解决方案。

02《Flink 1.16:Hive SQL 如何平迁到 Flink SQL》

问:能不能把一些额外的组件和 flink 项目分开。感觉和 flink 版本绑定了,用 sqlclient 等组件就必须用那个版本的 flink。

答:目前Flink仓库的一些 connector 正在搬出 Flink 主仓库,之后 Flink 项目会瘦身。SQL Client 正在重构并通过 REST API 对接到 SQL Gateway。届时 SQL Client 可以与 Flink 版本解耦,可以同时对接多个版本的 SQL Gateway 和 Flink 集群版本。

问:sql gateway 后续会支持 spark/trino 引擎吗?

答:SQL Gateway 目前只面向 Flink 引擎。外部的生态系统可以通过 SQL Gateway 搭建多引擎平台。

问:sql gateway 与 kyuubi 的定位是否类似?

答:两者的定位和作用是类似的,都是为查询引擎提供 SQL 服务。但两者又有所不同, Kyuubi 起源于为 Spark/Hive 提供 SQL 服务,主要面向批场景。但是 Flink SQL Gateway 主要面向的是 Flink 引擎,从一开始就将流批一体的能力设计进去了,能同时很好地支撑Streaming SQL和Batch SQL的用户场景。

问:sqlgateway 和 kyuubi flink 引擎有什么不同?有哪些优势吗?

答:目前 SQL Gateway 在功能上对 JDBC 的支持更为完善(getPK,getColumns),支持同步/异步执行SQL,能无缝对接主流 Hive 生态工具。第二个就是 kyuubi 主要依赖 Hive 接口来暴露服务,Hive 的纯批语义无法支持 CDC 的 DELETE、UPDATE_BEFORE、UPDATE_AFTER 等消息类型,但是我们的 SQL Gateway 还提供了 REST API,对Streaming SQL提供了原生支持。第三,SQL Gateway 的 HiveServer2 Endpoint 与 Hive 做了深度集成,便于用户直接将 Hive 作业无缝迁移到 Flink。

问:sqlgateway 支持哪几种模式?三种模式都支持吗?

答:目前只支持 session, per-job 模式,但还不支持 application 模式。

问:未来会支持 spark/presto sql 方言么?

答:其实 spark 方言和 hive 方言比较类似。一些 spark sql 任务也可以使用 Hive dialect 来解析然后通过 Flink 来运行。presto sql 方言目前还没规划。

问:sqlgateway 是否提供多租户能力,是否能支持鉴权功能、HA功能?

答:目前支持多租户,但还不支持鉴权功能和 HA 功能,将来后续版本中支持。

03《基于Log的通用增量Checkpoint》

问:这是什么版本的优化

答:1.15开始支持,1.16做了一些性能优化和状态特性的兼容等,基本生产可用,可以参照1.16的文档使用

问:有没有一种场景是要获取上一个成功的任务的状态,接着下一个开始,又不想查数据,可以直接获取到。不想使用流任务占资源。

答:是说在多个任务之间共享状态吗?这个的话可以考虑下State Processor API

问:基于 log 的 checkpoint 是如何影响 flink table store 的?整个过程是怎么样的?

答:可以把table store当成事务性sink来看,目前table store推荐的cp interval是1 mins,近实时,但是否实际cp能在1 mins完成,或者是否能配置更低的interval来让table stroe中的数据更实时,取决于cp完成得多快,changelog是可以在这方面做提升的

问:这个通用增量 checkpoint 是以 rocksdb 为 state backend 时设置增量 checkpoint 的另一选择吗?

答:两者是正交的,可以在state.backend.incremental设置为true的基础上再打开changelog

04《基于 Flink CDC + Kafka 加速业务实时化》

问:如果仅仅是一个库的多张表呢?只能多条语句吗?

答:可以使用 CREATE DATABASE AS (CDAS) 同步同一数据库中的多张表

问:除了 mysql&kafka 数据同步外,schema 能同步到 registry 吗?

答:暂不支持该功能

问:flink cdc 全量和增量利用 watermark 是怎么切换的?具体是怎么配置的?

答:这里的 watermark 与 Flink watermark 概念不同。为避免全量读取过程中数据发生变化产生不一致,在进行全量读取之前首先会记录当前 binlog 的位点,记为 low watermark,在全量读取结束后再记录一次 binlog 位点作为 high watermark,然后再将 low / high watermark 之间对全量数据产生的变更 binlog 合并到全量读取的数据中,实现全量数据的完全一致。

问:cdc 将不同数据源同步到 kafka 中,有没有对消息体数据格式做统一,消息体是否带 schema?

答:Kafka 消息统一使用 JSON 格式,不会单独记录 Schema。

问:kafka catalog 在哪里记录的 topic schema 呢?

答:Topic schema 不会单独记录。Kafka JSON Catalog 在读取表时会通过探测的方式首先读取多条数据、解析 JSON 来确定 schema。

问:demo 里用的什么版本的 kafka

答:Demo 使用了 Kafka 2.4.1,但该功能不绑定于某个 Kafka 版本。

问:作业启动后中途要添加一张表的同步要怎么处理?

答:暂时无法处理新表,MySQL CDC source 后续会增加动态加表的能力

问:flink cdc 整库除了入 kafka 外,能入湖和入仓吗?

答:商业版已支持数据同步到 Hologres,其他数据湖/仓库会陆续支持。

问:flink cdc&kafka 同一个库下大表和小表同步资源使用上有什么不同策略么?

答:默认不会对不同表的资源做特殊处理,但用户可以在平台上手动配置算子并发。

O1CN01gJeFjl20KeJFPI0qp_!!6000000006831-0-tps-828-1068.jpg

05《Flink Table Store 典型应用场景》

问:flink table store 什么版本可用?

答:flink table store 0.1.0 是 beta 版本,0.2.1 是生产可用版本。支持 flink 1.14 和 1.15 版本。

问:宽表合并中若两条流没有公共 pk 怎么办?

答:0.3会考虑这种场景的打宽,后续会有单独设计

问:fts 会有小文件问题么?

答:flink table store 在写数据的同时异步 compaction

问:flink sql gateway 的进度能介绍下吗?

答:flink-sql-gateway 会在1.16发布

问:目前 table store 不支持流读是么?还没有changelog

答:支持流读,数据库cdc可以配置changlog-producer=input来优化读取性能

O1CN01lFtKjf22ZsiDoFrPy_!!6000000007135-0-tps-1170-1530.jpg


Flink Forward Asia 2022 正式启动

img

img

活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算Flink版现开启活动:
99 元试用 实时计算Flink版(包年包月、10CU)即有机会获得 Flink 独家定制卫衣;另包 3 个月及以上还有 85 折优惠!
了解活动详情:https://www.aliyun.com/product/bigdata/sc

image.png

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
《零基础入门:从0到1学会 Apache Flink》下载
大数据实时计算及 Apache Flink 年度Flink 年度学习资料大礼包,300+页实战应用精华总结!
11 0
为什么要学习 Apache Flink| 学习笔记
快速学习为什么要学习 Apache Flink。
27 0
《零基础入门:从0到1学会 Apache Flink》电子版下载
大数据实时计算及 Apache Flink 年度Flink 年度学习资料大礼包,300+页实战应用精华总结!
17 0
Apache Flink不止于计算,数仓架构或兴起新一轮变革
Apache Flink不止于计算,数仓架构或兴起新一轮变革
87 0
深度剖析阿里巴巴对Apache Flink的优化与改进
本文主要从两个层面深度剖析:阿里巴巴对Flink究竟做了哪些优化? 取之开源,用之开源 一、SQL层 为了能够真正做到用户根据自己的业务逻辑开发一套代码,能够同时运行在多种不同的场景,Flink首先需要给用户提供一个统一的API。
1448 0
一文了解 Apache Flink 核心技术
Apache Flink (以下简称Flink)是近年来越来越流行的一款开源大数据计算引擎,它同时支持了批处理和流处理,也能用来做一些基于事件的应用。使用官网的语句来介绍 Flink 就是 "Stateful Computations Over Streams"。
2108 0
Apache Flink实战(一) - 简介
1 功能 2 用户 国际 国内 3 特点 ◆ 结合Java、Scala两种语言◆ 从基础到实战◆ 系统学习Flink的核心知识◆ 快速完成从入门到上手企业开发的能力提升 4 安排 ◆ 初识Flink ◆ 编程模型及核心概念 ◆ DataSet API编程 ◆ DataStream AP.
2902 0
1月28日云栖精选夜读 | 终于等到你!阿里正式向 Apache Flink 贡献 Blink 源码
如同我们去年12月在 Flink Forward China 峰会所约,阿里巴巴内部 Flink 版本 Blink 将于 2019 年 1 月底正式开源。今天,我们终于等到了这一刻。
4130 0
终于等到你!阿里正式向 Apache Flink 贡献 Blink 源码
如同我们去年12月在 Flink Forward China 峰会所约,阿里巴巴内部 Flink 版本 Blink 将于 2019 年 1 月底正式开源。今天,我们终于等到了这一刻。
26363 0
文章
问答
来源圈子
更多
实时计算 Flink 版(Alibaba Cloud Realtime Compute for Apache Flink,Powered by Ververica)是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统,由 Apache Flink 创始团队官方出品,拥有全球统一商业化品牌,完全兼容开源 Flink API,提供丰富的企业级增值功能。
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
Apache Spark 中文实战攻略上册
立即下载
Apache Spark 中文实战攻略下册
立即下载
贺小令|Apache Flink 1.16 简介
立即下载