开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

有什么办法让flink只查询cache的数据?

使用flink sql 的lookup join,一边是kafka流表,一边是mysql维表,我启用了cache,有什么办法让flink只查询cache的数据,如果查不到就直接输出join结果,不要再去mysql里查数据?

展开
收起
三分钟热度的鱼 2023-12-13 18:14:23 45 0
2 条回答
写回答
取消 提交回答
  • 在Flink SQL中,当使用lookup join时,如果启用了cache,那么Flink会尝试先从缓存中查找数据。如果在缓存中找不到匹配的记录,则Flink默认的行为是去源数据库(例如MySQL)查询。

    要实现您描述的需求,即只查询缓存中的数据,如果查不到就直接输出join结果,而不再去源数据库查询,通常需要在代码层面进行定制。因为Flink本身并不提供这样的配置选项。不过,您可以考虑以下两种策略来接近您的需求:

    1. 设置较短的缓存失效时间
      通过设置较短的缓存失效时间,可以尽量保证大部分情况下,维表数据都能在缓存中找到。但是请注意,这种方法并不能确保所有情况下都不会去源数据库查询,因为它依赖于数据的更新频率和查询请求的时间点。

    2. 自定义LookupFunction
      可以考虑自定义一个LookupFunction,并在其中实现所需的逻辑。这个自定义函数可以在查询缓存未命中时返回一个特定的值,而不是去源数据库查询。这样就可以确保所有的查询都只依赖于缓存数据。

    以下是关于如何创建自定义LookupFunction的简要说明:

    • 创建一个新的类,实现org.apache.flink.table.connector.source.LookupFunction接口。
    • getOrLookup方法中,首先尝试从缓存中获取数据。如果找到了匹配的记录,就直接返回;否则,返回一个特殊的标记或默认值,表示没有找到匹配的数据。
    2023-12-13 19:43:39
    赞同 展开评论 打赏
  • mysql的 lookup.cache.strategy. 设置为all 。此回答整理自钉群“实时计算Flink产品交流群”

    2023-12-13 18:31:38
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    Flink CDC Meetup PPT - 龚中强 立即下载
    Flink CDC Meetup PPT - 王赫 立即下载
    Flink CDC Meetup PPT - 覃立辉 立即下载