Flink SQL 在快手实践问题之表示 Mini-Batch hint如何解决

简介: Flink SQL 在快手实践问题之表示 Mini-Batch hint如何解决

问题一:为什么统计每个省份的 UV 时,复用 distinct key 没有收益?


为什么统计每个省份的 UV 时,复用 distinct key 没有收益?


参考回答:

统计每个省份的 UV 时,由于不同省份的访客通常没有交集,因此复用 distinct key 无法带来状态上的节约。每个省份的 UV 计算都需要独立的状态来存储不同省份的访客信息,所以此时复用 distinct key 没有收益。


关于本问题的更多问答可点击原文查看:

https://developer.aliyun.com/ask/667041



问题二:窗口函数必须满足什么条件才能应用状态复用优化?


窗口函数必须满足什么条件才能应用状态复用优化?


参考回答:

窗口函数必须具有行语义,才能应用状态复用优化。对于行语义的窗口,当前数据属于哪个窗口仅取决于数据本身。而对于集合语义的窗口,数据所属窗口不仅取决于数据本身,还取决于窗口收到的历史数据集合,这会影响每个窗口收到的数据集合,因此不适用于状态复用优化。


关于本问题的更多问答可点击原文查看:

https://developer.aliyun.com/ask/667044



问题三:为什么 Flink SQL 不采用 Calcite 的 pivot/unpivot 语法进行行转列和列转行?


为什么 Flink SQL 不采用 Calcite 的 pivot/unpivot 语法进行行转列和列转行?


参考回答:

Flink SQL 不采用 Calcite 的 pivot/unpivot 语法主要有两个原因:一是条件不具备,因为 Flink 从 1.12 版本至今都是依赖 Calcite 1.26,而 pivot/unpivot 分别在 Calcite 的 1.26 和 1.27 版本中引入;二是使用 pivot/unpivot 语法会使 SQL 语句比现有的表达方式长得多,增加了编写的复杂性。


关于本问题的更多问答可点击原文查看:

https://developer.aliyun.com/ask/667046



问题四:Mini-Batch hint 的主要作用是什么?


Mini-Batch hint 的主要作用是什么?


参考回答:

Mini-Batch hint 的主要作用是减少 RPC 的调用次数,通过攒一批数据后调用维表的批量查询接口来提高性能。它有两个参数:一个表示多长时间攒一批,一个表示多少条数据攒一批。Mini-Batch hint 设计得很通用,不仅可用于维表关联,还可用于聚合的攒批优化。


关于本问题的更多问答可点击原文查看:

https://developer.aliyun.com/ask/667048


问题五:在 Flink SQL 中,如何表示 Mini-Batch hint?


在 Flink SQL 中,如何表示 Mini-Batch hint?


参考回答:

在 Flink SQL 中,Mini-Batch hint 不是一个具体的 SQL 语法,而是一个在查询语句后添加的提示(hint),用于指导底层算子的行为。它通常通过特定的语法或配置方式添加到查询语句中,以指示系统按照指定的时间和/或数据量进行数据的攒批处理。


关于本问题的更多问答可点击原文查看:

https://developer.aliyun.com/ask/667049

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
|
5月前
|
SQL 人工智能 JSON
Flink 2.1 SQL:解锁实时数据与AI集成,实现可扩展流处理
简介:本文整理自阿里云高级技术专家李麟在Flink Forward Asia 2025新加坡站的分享,介绍了Flink 2.1 SQL在实时数据处理与AI融合方面的关键进展,包括AI函数集成、Join优化及未来发展方向,助力构建高效实时AI管道。
926 43
|
5月前
|
SQL 人工智能 JSON
Flink 2.1 SQL:解锁实时数据与AI集成,实现可扩展流处理
本文整理自阿里云的高级技术专家、Apache Flink PMC 成员李麟老师在 Flink Forward Asia 2025 新加坡[1]站 —— 实时 AI 专场中的分享。将带来关于 Flink 2.1 版本中 SQL 在实时数据处理和 AI 方面进展的话题。
389 0
Flink 2.1 SQL:解锁实时数据与AI集成,实现可扩展流处理
|
9月前
|
存储 监控 数据挖掘
京东物流基于Flink & StarRocks的湖仓建设实践
本文整理自京东物流高级数据开发工程师梁宝彬在Flink Forward Asia 2024的分享,聚焦实时湖仓的探索与建设、应用实践、问题思考及未来展望。内容涵盖京东物流通过Flink和Paimon等技术构建实时湖仓体系的过程,解决复杂业务场景下的数据分析挑战,如多维OLAP分析、大屏监控等。同时,文章详细介绍了基于StarRocks的湖仓一体方案,优化存储成本并提升查询效率,以及存算分离的应用实践。最后,对未来数据服务的发展方向进行了展望,计划推广长周期数据存储服务和原生数据湖建设,进一步提升数据分析能力。
918 1
京东物流基于Flink & StarRocks的湖仓建设实践
|
6月前
|
SQL 消息中间件 Kafka
Flink SQL 详解:流批一体处理的强大工具
Flink SQL 是 Apache Flink 提供的 SQL 引擎,支持流批一体处理,统一操作流数据与批数据,具备高性能、低延迟、丰富数据源支持及标准 SQL 兼容性,适用于实时与离线数据分析。
1043 1
|
7月前
|
资源调度 Kubernetes 流计算
Flink在B站的大规模云原生实践
本文基于哔哩哔哩资深开发工程师丁国涛在Flink Forward Asia 2024云原生专场的分享,围绕Flink On K8S的实践展开。内容涵盖五个部分:背景介绍、功能及稳定性优化、性能优化、运维优化和未来展望。文章详细分析了从YARN迁移到K8S的优势与挑战,包括资源池统一、环境一致性改进及隔离性提升,并针对镜像优化、Pod异常处理、启动速度优化等问题提出解决方案。此外,还探讨了多机房容灾、负载均衡及潮汐混部等未来发展方向,为Flink云原生化提供了全面的技术参考。
465 9
Flink在B站的大规模云原生实践
|
8月前
|
SQL 存储 NoSQL
Flink x Paimon 在抖音集团生活服务的落地实践
本文整理自抖音集团数据工程师陆魏与流式计算工程冯向宇在Flink Forward Asia 2024的分享,聚焦抖音生活服务业务中的实时数仓技术演变及Paimon湖仓实践。文章分为三部分:背景及现状、Paimon湖仓实践与技术优化。通过引入Paimon,解决了传统实时数仓开发效率低、资源浪费、稳定性差等问题,显著提升了开发运维效率、节省资源并增强了任务稳定性。同时,文中详细探讨了Paimon在维表实践、宽表建设、标签变更检测等场景的应用,并介绍了其核心技术优化与未来规划。
892 10
Flink x Paimon 在抖音集团生活服务的落地实践
|
8月前
|
资源调度 Kubernetes 调度
网易游戏 Flink 云原生实践
本文分享了网易游戏在Flink实时计算领域的资源管理与架构演进经验,从Yarn到K8s云原生,再到混合云的实践历程。文章详细解析了各阶段的技术挑战与解决方案,包括资源隔离、弹性伸缩、自动扩缩容及服务混部等关键能力的实现。通过混合云架构,网易游戏显著提升了资源利用率,降低了30%机器成本,小作业计算成本下降40%,并为未来性能优化、流批一体及智能运维奠定了基础。
535 9
网易游戏 Flink 云原生实践
|
5月前
|
存储 分布式计算 数据处理
「48小时极速反馈」阿里云实时计算Flink广招天下英雄
阿里云实时计算Flink团队,全球领先的流计算引擎缔造者,支撑双11万亿级数据处理,推动Apache Flink技术发展。现招募Flink执行引擎、存储引擎、数据通道、平台管控及产品经理人才,地点覆盖北京、杭州、上海。技术深度参与开源核心,打造企业级实时计算解决方案,助力全球企业实现毫秒洞察。
604 0
「48小时极速反馈」阿里云实时计算Flink广招天下英雄
|
运维 数据处理 数据安全/隐私保护
阿里云实时计算Flink版测评报告
该测评报告详细介绍了阿里云实时计算Flink版在用户行为分析与标签画像中的应用实践,展示了其毫秒级的数据处理能力和高效的开发流程。报告还全面评测了该服务在稳定性、性能、开发运维及安全性方面的卓越表现,并对比自建Flink集群的优势。最后,报告评估了其成本效益,强调了其灵活扩展性和高投资回报率,适合各类实时数据处理需求。