文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

有什么办法让flink只查询cache的数据？

使用flink sql 的lookup join，一边是kafka流表，一边是mysql维表，我启用了cache，有什么办法让flink只查询cache的数据，如果查不到就直接输出join结果，不要再去mysql里查数据？

展开

收起

三分钟热度的鱼 2023-12-13 18:14:23 359 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

Star时光
在Flink SQL中，当使用lookup join时，如果启用了cache，那么Flink会尝试先从缓存中查找数据。如果在缓存中找不到匹配的记录，则Flink默认的行为是去源数据库（例如MySQL）查询。

要实现您描述的需求，即只查询缓存中的数据，如果查不到就直接输出join结果，而不再去源数据库查询，通常需要在代码层面进行定制。因为Flink本身并不提供这样的配置选项。不过，您可以考虑以下两种策略来接近您的需求：
1. 设置较短的缓存失效时间：
  通过设置较短的缓存失效时间，可以尽量保证大部分情况下，维表数据都能在缓存中找到。但是请注意，这种方法并不能确保所有情况下都不会去源数据库查询，因为它依赖于数据的更新频率和查询请求的时间点。
2. 自定义LookupFunction：
  可以考虑自定义一个LookupFunction，并在其中实现所需的逻辑。这个自定义函数可以在查询缓存未命中时返回一个特定的值，而不是去源数据库查询。这样就可以确保所有的查询都只依赖于缓存数据。
以下是关于如何创建自定义LookupFunction的简要说明：
- 创建一个新的类，实现org.apache.flink.table.connector.source.LookupFunction接口。
- 在getOrLookup方法中，首先尝试从缓存中获取数据。如果找到了匹配的记录，就直接返回；否则，返回一个特殊的标记或默认值，表示没有找到匹配的数据。
2023-12-13 19:43:39

赞同展开评论
圆不溜秋的小猫猫

mysql的 lookup.cache.strategy. 设置为all 。此回答整理自钉群“实时计算Flink产品交流群”

2023-12-13 18:31:38

赞同展开评论

问答分类：

流计算关系型数据库 MySQL 消息中间件 Kafka SQL 云消息队列 Kafka 版云数据库 RDS MySQL 版实时计算 Flink版

问答标签：

办法实时计算 Flink版

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

Flink CDC 3.6要同步多个集合，有没有办法起一个程序，同步多个集合？

241

1

0

为什么在Flink 取查询数据一直转圈圈？

243

1

0

在Flink CDC中，查询一下是否可以在flinksql中查询到hivedefault库的表？

257

1

0

在Flink CDC中，有没有办法获取毫秒级的时间吗

300

1

0

Flink batch模式下这两个source都是加载同一张表没有办法优化成一个读取任务么？

203

0

0

Flink ui中，查询不到作业日志，history server服务再启动怎么办？

554

1

0

对于Flink CDC，pipeline有主键也是直接用createtime查询嘛？

190

1

0

对于Flink CDC，cdc快照阶段可以配置索引键，然后设定的索引进行查询吗？

181

1

0

在Flink CDC中两种消息需要一起收到才可以往下面执行流程。有没有什么好的办法啊？

210

1

0

flink cdc 导致GC超时 tm 心跳丢失这个问题有处理办法么？

441

7

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

从 Google BigQuery 迁移到阿里云怎么选型？AnalyticDB MySQL 迁移实战指南

AI Agent 数据分析平台是什么？与BI、传统分析工具有何不同？

Google BigQuery 在阿里云上最接近什么产品？AnalyticDB MySQL Serverless 与 MaxCompute 如何选

预约上门服务系统开发需要哪些功能？全面解析平台核心模块

阿里把内部用了两年的 AI 代码审查工具开源了——我跑了一遍 Open Code Review

相关解决方案

更多

基于数据闪回，快速恢复数据

PolarDB 列存索引加速复杂查询

海量异构数据预处理破局之道

分析 Agent 实现一键 AI 数据洞察

多模态数据信息提取

热门讨论

热门文章

Flink cdc sqlserver 希望不同步某些数据行

Flink CDC 能适配达梦不？

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

大佬们，我目前的场景是flinkcdc 用sql将mongo数据同步到es，有人做过这样的场景吗？

flinkcdc在IDEA运行正常，打包就报错

有用flink cdc同步mysql到hive这样搞过的源码吗?

Flink CDC taskManager 一直再报下面信息，不知道是不是有什么问题？

如何用实时数据同步打破企业数据孤岛？

Flink On Docker 启动 jm 时报这个错误请问有知道这个错误的原因吗？

Flink CDC中这边需要做一个mysql到mysql的整库实时同步有什么好的第三方工具推荐吗？

展开全部

Flink Checkpoint 问题排查实用指南

Apache Flink 漫谈系列(04) - State

趣头条基于 Flink 的实时平台建设实践

阿里重磅开源全球首个批流一体机器学习平台Alink，Blink功能已全部贡献至Flink

用Flink取代Spark Streaming！知乎实时数仓架构演进

Apache Flink 进阶（四）：Flink on Yarn/K8s 原理剖析及实践

监控系统哪家强？eBay 在监控系统上的实践应用！

Apache Flink Meetup 北京站，可能有你最想听的技术干货！

Flink 完美搭档：数据存储层上的 Pravega

Flink Weekly | 每周社区动态更新 - 20200313

展开全部

还有其他疑问?