开发者社区> 问答> 正文

pyflink query 语句执行获取数据速度很慢,where子句不过滤数据么?

connector 从数据库读取整张表格,执行:  env.sql_query("select a , b, c from table1 left join table2 on a = d where b = '103' and c = '203' and e = 'AC' and a between 20160701 and 20170307 order by biz_date")  其中表 a 的数据量很大,能有1千万条,但匹配出来的数据只有250条,本机执行要10分钟!  了解到 flink 1.11存在where子句不会先过滤数据,请问flink1.12 仍存在这个问题么?怎么优化呢?*来自志愿者整理的flink邮件归档

展开
收起
CCCC 2021-12-02 14:43:16 517 0
1 条回答
写回答
取消 提交回答
  • 表a 在 sql 语句的哪里呢? 

    关心的真的是过滤问题么? 如果你对你的业务十分熟悉,且了解到 flink1.11 不过 过滤,那为什么 不自行过滤 优化下呢? 

    如果,不是过滤问题,是大数 join 小数 问题,或者 大数 join 大数问题,是不是可以考虑 广播传播 或者 并行度 的优化方向? 

    是不是应该 先分析好业务问题,在去看 flink1.12 能否解决问题。*来自志愿者整理的FLINK邮件归档

    2021-12-02 16:06:49
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
PolarDB NL2SQL: 帮助您写出准确、优化的SQL 立即下载
低代码开发师(初级)实战教程 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载