Flink Weekly | 每周社区动态更新-20200429

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 大家好,本文为 Flink Weekly 的第十四期,由李本超整理,伍翀 Review。本期主要内容包括:近期社区开发进展、邮件问题答疑、Flink 最新社区动态及技术文章推荐等。

大家好,本文为 Flink Weekly 的第十四期,由李本超整理,伍翀 Review。本期主要内容包括:近期社区开发进展、邮件问题答疑、Flink 最新社区动态及技术文章推荐等。

Flink 开发进展

1.Release

■ Dian Fu 宣布 1.9.3 发布。

[1]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/ANNOUNCE-Apache-Flink-1-9-3-released-td40730.html

■ Yu Li 发起了 1.10.1 RC1 的投票。

[2]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/VOTE-Release-1-10-1-release-candidate-1-td40724.html

■ Piotr Nowojski 和 Zhijiang 同步了一下 1.11 的开发进度。

[3]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/ANNOUNCE-Development-progress-of-Apache-Flink-1-11-td40718.html

2.FLIP

■ [table api] Xuannan Su 发起了 “FLIP-36 - 在 Flink Table API 中支持交互式编程” 的讨论,Becket Qin 反馈了一些意见并进行了讨论。

[4]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-FLIP-36-Support-Interactive-Programming-in-Flink-Table-API-td40592.html

■ [table api] Dawid 发起了 FLIP-124 的投票,FLIP-124 旨在增强(反)序列化接口,增加 open/close 接口、支持返回多条数据等,投票已经通过。

[5]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/VOTE-FLIP-124-Add-open-close-and-Collector-to-De-SerializationSchema-td40318.html

■ [table api] Aljoscha 发起了 FLIP-126 的讨论,旨在简化 watermark 生成的逻辑,减少代码重复,并且能够做到 per partition 的 idle 检测。Timo 认为这是个比较有用的 feature。

[6]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-FLIP-126-Unify-and-separate-Watermark-Assigners-td40525.html

■ [runtime] Yangze Guo 宣布 FLIP-118 投票通过,FLIP-118 旨在提升 Flink 内部的 ID 的可读性。

[7]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/RESULT-VOTE-FLIP-118-Improve-Flink-s-ID-System-td40553.html

3.Discuss

■ [doc] David Anderson 发起了将 http://training.ververica.com 的一些培训材料贡献到 Flink 社区的讨论,讨论通过,并且会将这些培训材料放到 https://github.com/apache/flink-training,并且在 Jira 中新建了一个“Documentation / Training”的 component。

[8]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Integration-of-training-materials-into-Apache-Flink-td40299.html

■ [SQL] Konstantin 发起了用 DDL 支持定义 Temporal Table Function 的讨论,大家比较认可这个需求,但是对于具体支持的方式发起了讨论,暂时还没有完全确定用哪种 DDL 方式来做。

[9]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-FLINK-16824-Creating-Temporal-Table-Function-via-DDL-td40333.html

■ [develop] Stephan Ewen 发起了将 1.11 Feature Freeze 的时间延长半个月的讨论,大家都比较赞成,目前定于 5 月中旬为最终 Feature Freeze 的时间。

[10]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Exact-feature-freeze-date-td40624.html

■ [state] Stephan Ewen 发起了删除 state 中过时的方法的讨论,大家也都比较赞成,会在 1.11 中删除 state 中标记为过时的那些方法。

[11]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Removing-deprecated-state-methods-in-1-11-td40651.html

■ [docker] Chesnay Schepler 发起了将 docker 的开发放到每个 Flink 版本的发布的讨论,David 认为可以这样做:

[12]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Move-docker-development-into-versioned-branches-td40646.html

■ [runtime] Robert Metzger 发起了支持 Hadoop 3 以及删除 flink-shaded-hadoop 的讨论,大家比较支持这个提议,但是提出了一些潜在的问题,并进行了讨论。

[13]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Adding-support-for-Hadoop-3-and-removing-flink-shaded-hadoop-td40570.html

■ [docker] Ismaël Mejía 发起了是否可以在 Flink 正式 release 之外发布 docker 镜像的讨论,Chesnay Schepler 认为可以发布,但是每次发布都需要有一个正式的发布流程。

[14]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Intermediary-releases-of-the-flink-docker-images-td40602.html

■ [develop] Yangze Guo 发起了关于带有 max/min 的配置的名字的讨论,目前多数人倾向于使用 XXX.max/XXX.min 这种形式。

[15]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Should-max-min-be-part-of-the-hierarchy-of-config-option-td40578.html

4.Other

■ [annonce] Hequn Cheng 成为 Flink PMC 成员。恭喜军长~

[16]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/ANNOUNCE-New-Apache-Flink-PMC-Member-Hequn-Chen-td40374.html

邮件问题答疑

■ Matyas 提问:如何在 query 或者 view 上定义 watermark。Jark 回答了他的问题,可以使用在 1.11 中的 LIKE 语法来在已有的 Table 上添加 watermark 定义;也可以用 Table API 将 Table 转成 DataStream,然后用 assignTimestampAndWatermark 来重新定义 watermark。

[17]http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/define-WATERMARKS-in-queries-views-td34610.html

■ Lasse Nedergaard 提问:升级到 1.10 之后容易出现 OOM 的问题。Xintong 和 Stephan 进行了解答,可能是因为 native memory 使用的比较多导致的。Zhhid Rahman 也帮忙回答了一下问题,贴了一下 Youtube 链接的视频,但是 Stephan 不是很建议这样子来帮助用户解决问题。

[18]http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/Flink-1-10-Out-of-memory-td34406.html

■ Oleg Vysotsky 提问:为什么时候 Kafka Source 的 checkpoint size 会到55GB。Yun Tang 对问题进行了解答,最后定位是因为用户在切换 Kafka 和 Kinesis Source 的时候,用了同一个 UUID,导致 Source Operator 的 state 变大,只要是在切换 Source 的时候用不同的 UUID,就不会出现这个问题。

[19]http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/Checkpoints-for-kafka-source-sometimes-get-55-GB-size-instead-of-2-MB-and-flink-job-fails-during-rest-td34312.html

■ Utopia 提问:关于日志里汇报”类构造器没有默认的构造函数,所以不能用作 POJO 类型,只能用 GenericType 来处理”的信息。他用的是 Scala 的 case class。Timo 进行了解答,他应该是在 Java API 中使用了 Scala 的 case class,如果是用 Scala API 就不应该会有这个问题。

[20]http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/Question-about-Scala-Case-Class-and-List-in-Flink-td32139.html

■ Eyal Peer 提问:在使用 StreamingFileSink+local filesystem 的时候,在任务重启的时候无法恢复的问题。Dawid 进行了解答,认为这是一种不正确的使用方式,这个是没法做到真正的 Exactly-Once 的,因为 Flink 重启的时候任务不会保证调度到之前同样的 slot 里,所以没法恢复。需要使用分布式文件系统,例如 HDFS 等。

[21]http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/Fault-tolerance-in-Flink-file-Sink-td34613.html

■ Lu Niu 提问:checkpoint 写入 S3AFileSystem 文件系统的时候报错。Congxian 和 Robert 认为这个应该是文件系统本身的问题,不是 Flink 的问题。并且认为 presto s3 filesystem 是比较推荐的方式,并且建了一个 Jira 来跟踪 StreamingFileSink 支持 presto s3 filesystem。

[22]http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/Checkpoint-Error-Because-quot-Could-not-find-any-valid-local-directory-for-s3ablock-0001-quot-td34138.html

■ Vinay Patil 提问:如何避免两个流 Join 的时候发出重复的结果。Konstantin 认为他可以使用 Temporal Table Function 的方式来做 Join,这样可以避免重复输出的问题,但是如果用的是事件时间,并且一个流的输入很低频,会导致 watermark 前进的慢,输出有很大的延迟。用户最后选择自己用 DataStream API 自己去实现这个功能了。

[23]http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/Handling-stale-data-enrichment-td34617.html

■ Flavio 提问:是否有方法可以用参数来指定读取 jdbc 的时候的并行读取方式。Jingsong 对此进行了回复并进行了讨论,认为这是个合理的场景,filter 下推跟这个需求并不冲突,filter 下推只能降低从 source 读取的数据量,但是没法定制并行读取的方法。Flavio 建了三个 Jira issue 来跟踪这个问题。

[24]http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/JDBC-Table-and-parameters-provider-td34544.html

■ Benchao Li 提问:是否有计划支持 batch range sort 的计划,Jingsong 进行了回答。目前还缺少比较明确的应用场景来推动这个 feature 的落地。暂时先建了 Jira issue 来跟踪这件事。

[25]http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/batch-range-sort-support-td34600.html

■ liujianggang 提问:使用 UDAF 的时候遇到 checkpoint 的时候会有序列化的问题。这个问题是由于在 serializer.duplicate 中有 bug 导致的,已经在 FLINK-16242 中修复。

[26]http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/Blink-SQL-java-lang-ArrayIndexOutOfBoundsException-td34467.html

■ seeksst 提问:升级到 1.10 后 JSON_VALUE 函数不能注册的问题,Jark 和 Danny 进行了回答,是因为在 Calcite 中 JSON_VALUE 是直接 hard code 在 parser 中的,用户是无法注册一个同名函数来覆盖掉的,这个已经由 Danny 在 Calcite 社区去 push 解决了。

[27]http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/Flink-upgrade-to-1-10-function-td34366.html

■ Gyula 提问:为什么 Kafka Join Hive 的时候为什么不能保留 Kafka 流的时间属性。Kurt 和 Timo 对此进行了回答,因为现在还没有办法在 streaming 模式下区分一个 source 是否是 bounded,而且 join 的时候可能会有 join 到一个比较老的数据的情况,所以当前不能有时间属性参与 regular join。

[28]http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/Joining-table-with-row-attribute-against-an-enrichment-table-td34464.html

■ dingxingxing 提问:为什么两层 group by 的时候,输出的结果会忽大忽小。Benchao Li 对此进行了回答,因为 group by 会输出 retract 结果,所以如果是两层的话,就会导致下游的 group by 会放大这个 retract 的影响,导致会短暂输出老的结果。Jark 认为可以用 mini batch 来缓解一下这个问题。

[29]http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/Flink-streaming-sql-group-by-td34412.html

■ lec ssmi 提问:关于 Flink SQL 中的 retract 机制,Benchao Li 对 retract 机制进行了解答。当前官方文档中的确是缺少这块内容的介绍,已经创建了一个 Jira issue FLINK-17343 来跟踪这个事情。

[30]http://apache-flink.147419.n8.nabble.com/retract-td2672.html

■ 宇张提问:为什么找不到正确的 SourceTableFactory,Jingsong 和 tison 进行了解答,原因是现在 TableFactory 是采用 SPI 加载的,这就涉及到用户在打包的时候,是否把正确的 SPI 配置文件打包、是否处理好了多个 TableFactory 的时候的冲突问题。这个一般在打 shade 包的时候,需要特殊配置一下 shade 插件,使用起来不是特别友好。

[31]http://apache-flink.147419.n8.nabble.com/Flink1-10-Standalone-td2650.html

■ 酷酷的混蛋提问:关于 Flink SQL 中的 state 的 TTL 的处理的原理,Benchao Li 进行了解答。在之前的确是有些设置不合理,首先在 1.9.3 之前没有开启 state 的 background 清理,可能会导致有些 state 到期了仍然没有被清理,这个会在 1.9.3 以及 1.10 以后可以解决;第二个问题是之前使用的过期策略是允许读到过期但是没有清理的数据,这个行为会在 1.11 中修改成不允许读到过期的数据的策略。

[32]http://apache-flink.147419.n8.nabble.com/TTL-td2482.html

活动 / 博客文章 / 其他

■ 1.10 中内存管理的改进

[33]https://flink.apache.org/news/2020/04/21/memory-management-improvements-flink-1.10.html

■ Flink 序列化调优(一):如何选择 Serializer

[34]https://flink.apache.org/news/2020/04/15/flink-serialization-tuning-vol-1.html

■ Stateful Functions 在有状态的无服务应用中的使用

[35]https://www.ververica.com/blog/session-preview-stateful-functions-for-stateful-serverless-applications

■ Adobe 基于Flink实现实时身份图谱

[36]https://www.ververica.com/blog/adobe-realtime-identity-graph-with-flink

■ Flink 消息聚合处理方案-微博

[37]https://ververica.cn/corporate_practice/flink-message-aggregation-processing-scheme/

2 分钟快速订阅 Flink 中文邮件列表

Apache Flink 中文邮件列表订阅流程:

  1. 发送任意邮件到 user-zh-subscribe@flink.apache.org
  2. 收到官方确认邮件
  3. 回复该邮件 confirm 即可订阅

订阅成功后将收到 Flink 官方的中文邮件列表的消息,您可以向 user-zh@flink.apache.org 发邮件提问也可以帮助别人解答问题,动动手测试一下!

Flink Weekly 周报计划每周更新一期,内容涵盖邮件列表中用户问题的解答、社区开发和提议的进展、社区新闻以及其他活动、博客文章等,欢迎持续关注。

作者介绍:

李本超,硕士毕业于北京大学,现就职于字节跳动基础架构流式计算工程师。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
4月前
|
Nacos 流计算
flink动态更新作业
flink动态更新作业
|
运维 大数据 Apache
|
18天前
|
机器学习/深度学习 监控 Serverless
Serverless 应用的监控与调试问题之Flink在内部使用的未来规划,以及接下来有什么打算贡献社区的创新技术
Serverless 应用的监控与调试问题之Flink在内部使用的未来规划,以及接下来有什么打算贡献社区的创新技术
|
4月前
|
SQL Oracle 关系型数据库
实时计算 Flink版产品使用合集之社区版有没有办法多张表公用server_id,达到数据源的复用
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
4月前
|
消息中间件 SQL Kafka
如何高效接入 Flink: Connecter / Catalog API 核心设计与社区进展
本文整理自阿里云实时计算团队 Apache Flink Committer 和 PMC Member 任庆盛在 FFA 2023 核心技术专场(二)中的分享。
428 1
如何高效接入 Flink: Connecter / Catalog API 核心设计与社区进展
|
4月前
|
NoSQL Java 关系型数据库
Flink 动态更新配置,不需要重启作业
Flink 动态更新配置,不需要重启作业
222 1
|
消息中间件 存储 SQL
Flink Connector 社区新动向与开发指南
阿里巴巴开发工程师 Apache Flink Committer 任庆盛,阿里巴巴技术专家 Apache Flink Contributor 罗根,在 Flink Forward Asia 2022 核心技术专场的分享。
1020 1
Flink Connector 社区新动向与开发指南
|
NoSQL Java Apache
说出你和 Flink 社区的小故事,首场线下 ASF 亚洲峰会 10 张门票免费送!
说出你和 Apache Flink 社区的故事,讲述这五年来你的经历和感悟,10 张 Apache 软件基金会(ASF)的官方全球系列大会 CommunityOverCode (原 ApacheCon)门票免费送!
329 0
说出你和 Flink 社区的小故事,首场线下 ASF 亚洲峰会 10 张门票免费送!
|
SQL 机器学习/深度学习 算法
Apache Flink 社区 2022 年度报告:Evolution, Diversity, Connection
通过 Evolution、Diversity、Connection 三个关键词,从年度最佳实践、核心技术演进、开源技术生态等多维度盘点过去一年的成果,与各位开发者一同见证社区成长。
Apache Flink 社区 2022 年度报告:Evolution, Diversity, Connection
|
SQL 机器学习/深度学习 分布式计算
会议总结 | 首次 Flink Batch 社区开发者会议
2023 年 2 月 8 日 Flink Batch 社区开发者会议会议总结。
会议总结 | 首次 Flink Batch 社区开发者会议

热门文章

最新文章

相关产品

  • 实时计算 Flink版