回顾|Streaming Lakehouse Meetup · 北京站(附问题解答 & PPT 下载)

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: Streaming Lakehouse Meetup · 北京站活动回顾(附问题解答 & PPT 下载)

更多活动现场照片:https://live.photoplus.cn/live/pc/53265145/#/

7 月 29 日 Streaming Lakehouse Meetup 邀请了来自阿里巴巴、字节跳动的七位技术专家,围绕 CDC 数据入湖实践、Flink 一站式湖仓一体构建、流式数据湖关键特性以及统一的 RSS 等,全方位解析 Streaming Lakehouse 最前沿的技术,最新的产业实践!Flink、Paimon、Celeborn、Flink CDC、StarRocks 多个开源项目汇聚在一起,与现场的百余位开发者展开交流。

点击查看活动视频 & 演讲PPT

活动视频回顾 & PPT 获取

PC 端

建议前往 Apache Flink 学习网

https://flink-learning.org.cn/activity/detail/69d2ec07bc2f664d000a954f49ed33aa

视频回顾:

https://developer.aliyun.com/live/252125

移动端

视频回顾/PPT 下载:关注 Apache Flink 公众号,回复 0729

线上问题解答

问:湖仓一体架构和 MPP 架构有什么区别?

答疑:最大的区别就是数据湖保存了所有数据,具有查询的灵活性。而 MPP 架构由于需要极高的查询性能,它的存储成本较昂贵,不能保存所有数据。

问:对象存储下,如何平衡小文件、高性能 CDC 写入速度和下游尽可能实时流读表三个诉求?Paimon 表的参数要怎么调整?

答疑:Paimon 会自动合并小文件。如果你在意文件系统上小文件你可以调小 Snapshot retain。 https://paimon.apache.org/docs/master/maintenance/manage-files/ https://paimon.apache.org/docs/master/maintenance/write-performance/

问:存储底层查询效率可以用类似于 Alluio 加速吗?

答疑:可以对接 Alluio 来加速,Paimon本身不做文件的缓存,但是下面使用的文件系统可以是缓存的文件系统。

问:Flink CDC 的调参有哪些好的建议?

答疑:可以看下 Flink CDC github wiki 里的一些文章,一些最佳实践文章有介绍。

问:Tag 能在数据链路上所有 Paimon 表上同时打吗?

答疑:目前不能,是单独对每个表打的。 你可以通过 watermark 来完成类似的事情。 https://paimon.apache.org/docs/master/maintenance/manage-tags/#automatic-creation https://paimon.apache.org/docs/master/how-to/querying-tables/#consumer-id

问:对于替代消息队列,如果要求秒级查询,Paimon 如何能够做到?

答疑:不行哦,目前只能是 1 分钟左右的时延,社区后续有计划搞 embedded queue 来支持秒级。

问:Flink 怎么实现增量开窗?

答疑:不太明确增量开窗的具体含义,Flink SQL 有三种聚合,over window、window agg、普通 group by,我们一般推荐普通 group by + state TTL。

问:Flink CDC 什么时候会支持阿里云 Hologres?

答疑:Hologres 不是开源产品,这块 SDK 社区同学都不太熟悉,目前 Hologres 没有小伙伴来社区贡献,所以短期不会支持。

问:Checkpoint 丢失后如何防止从新处理化处理大表重算?

答疑:Checkpoint 丢失后对所有Flink作业来说都需要无状态重做,可以保留最近几天的 Checkpoint,这样恢复时从最近某天的一个 Checkpoint 恢复,代价不会很大,也不会重新读取大表。

问:Paimon 替代消息队列其延迟时长跟 Snapshot 产生周期一样么?

答疑:对

问:Flink CDC 全量和增量并行度要如何独立设置?

答疑:目前只需要设置全量阶段的并发,进入增量后,可以修改下 CDC Source 并发,然后从最近的 Checkpoint 重启下作业就可以。2.4.1 版本之后,全量阶段的资源可以自动释放,所以全量进入增量后,不把并发改下资源也可以在一定程度上回收。

问:请教 Oracle CDC,Oracle 归档日志爆满,可以怎么解决?

答疑:需要判断下归档的日志是不是下游消费慢,可以调节下游作业让消费跟上,另外如果可以确认下游作业不再使用,可以清理掉归档日志。

问:请教一下老师,Flink CDC 直接进行聚合,比如 sum 的值在删除的时候会将 sum 的值减掉吗?

答疑:会的,Flink CDC 吐出的 CDC 数据和 Flink SQL 里的 Changelog 是严格对应的,所以Flink SQL 的聚合是会回撤掉你 db 中的删除条目对应的值。

问:下游小时任务需要等待 Flink 某小时数据全部到达后再执行,有什么好的方法监控前一个的小时数据全部到达?

答疑:这个需要自己做下二次开发,在 Sink 里做下埋点,判断满足条件后调用自定义逻辑(通知下游调度系统)。

更多

进入社区交流钉钉群:搜索群号⬇️,参与讨论技术并得到实时的支持。

Apache Paimon 交流群:10880001919

Flink CDC 钉钉交流群:33121212

Flink Batch 钉钉交流群:34817520

Celeborn 钉钉用户群:41594456

点击查看活动视频 & 演讲PPT


更多内容

img


活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动:
0 元试用 实时计算 Flink 版(5000CU*小时,3 个月内)
了解活动详情:https://free.aliyun.com/?pipCode=sc

image.png

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
2月前
|
存储 分布式计算 数据挖掘
活动预告|8月3日 Streaming Lakehouse Meetup · Online 与你相约!
Apache Paimon & StarRocks, 强强联合, 打造极速湖仓解决方案。8月3日14:00, 大咖云集, 包括Apache Paimon PMC, 阿里云, 饿了么等, 分享最佳实践与技术原理。预约直播, 不容错过!
151 12
活动预告|8月3日 Streaming Lakehouse Meetup · Online 与你相约!
|
1月前
|
消息中间件 人工智能 Java
活动回顾丨云原生开源开发者沙龙上海站回放 & PPT 下载
8 月 2 日,云原生开源开发者沙龙 AI 原生应用架构专场在上海举办,现场围绕 AI 应用开发和 Agent 编排、API 网关、可观测、智能编程、消息队列等视角分享了我们的开源成果和进展,以及落地实践。以下为分享回顾。
175 13
|
4月前
|
存储 分布式计算 大数据
活动预告 | 5月16日 Streaming Lakehouse Meetup · Online 与你相约!
5月16日 Streaming Lakehouse Meetup · Online 与你相约!
345 1
活动预告 | 5月16日 Streaming Lakehouse Meetup · Online 与你相约!
|
4月前
|
安全 Dubbo 应用服务中间件
活动回顾丨云原生开源开发者沙龙北京站回放 & PPT 下载
4 月 13 日,云原生开源开发者沙龙在北京顺利开展。阿里云一线工程师围绕《微服务面临的安全挑战、趋势与解决方案》、《通过 Dubbo 构建零信任安全体系》、《零信任策略下 K8s 安全监控》、《如何构建零信任的网关》、《RocketMQ ACL 2.0 全新升级》、《Nacos安全零信任实践》6 个当下热门议题与现场的百余位开发者展开交流。
577 14
|
存储 SQL 分布式计算
活动预告|7月29日 Streaming Lakehouse Meetup·北京站
Streaming Lakehouse 首个 Meetup 来啦! 7 月 29 日 | 北京 | 线下,来一场 Streaming Lakehouse 实时数据湖的体验之旅!
789 0
活动预告|7月29日 Streaming Lakehouse Meetup·北京站
|
SQL 监控 安全
回顾 | Apache Flink Meetup · 线上(附 PPT 下载)
8.7 线上 Meetup 视频和 PPT 分享来啦~另外,下一期实时数仓 Meetup 议题征集中!
回顾 | Apache Flink Meetup · 线上(附 PPT 下载)
|
SQL 消息中间件 分布式计算
回顾|Apache Flink Meetup · 北京站(附问题解答 & PPT 下载)
9月24日,Apache Flink Meetup 线上问题解答 + PPT 获取方式
回顾|Apache Flink Meetup · 北京站(附问题解答 & PPT 下载)
|
人工智能 大数据 数据挖掘
重磅下载 |2019 Flink Forward 大会37+演讲PDF合辑,不容错过!
Flink Forward 2019 于今年11月28日在北京举行,规模2000人。本文收录了5大专场,38篇大咖演讲资料的 FFA 2019 资料合辑,精彩内容一次性打包给你!
27430 0
重磅下载 |2019 Flink Forward 大会37+演讲PDF合辑,不容错过!
|
存储 人工智能 分布式计算
开发者社区精选直播合集(十九)|走进开源大数据平台 EMR
主要介绍EMR产品历史、选择理由、产品形态介绍,核心组件简介和使用、常用引擎使用示例、数据开发等
开发者社区精选直播合集(十九)|走进开源大数据平台 EMR
|
机器学习/深度学习 SQL 人工智能
开发者社区精选直播合集(十三)| Apache Flink Meetup 直播回顾合集
Apache Flink Meetup 已在全国举办多场,本期合集带大家回顾以往精彩视频,并欢迎大家观看8月7日线上直播!
开发者社区精选直播合集(十三)| Apache Flink Meetup 直播回顾合集