备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

win10 pyflink1.12 本机env.sql_query()执行表关联sql, 时间过长

win10 使用pyflink1.12 利用DDL在流环境中定义两张源表：一个1千万行，一个7千行。利用env.sql_query执行表关联操作获取所需的250条数据。问题：获取数据的速度很慢，本机执行需要9mins, 再加上稍复杂一些的udaf函数，就会跑30分钟以上。请问本地利用python执行pyflink时,是需要配置python的相关执行参数么？本人小白，看了官网的开发文档也没找到相关的指导？求路过的大佬们，指导一下，拜托啦！！！小白先谢过啦。

（另：pyflink1.11中进行过同样测试，由于pyflink1.11中支持connector read.query参数，sql交由数据库部分执行，所以获取数据速度很快。）

附代码： from pyflink.table import StreamTableEnvironment, EnvironmentSettings from pyflink.datastream import StreamExecutionEnvironment

s_env = StreamExecutionEnvironment.get_execution_environment()
s_env.set_parallelism(8)
env = StreamTableEnvironment.create(s_env, environment_settings=EnvironmentSettings.new_instance().in_streaming_mode().use_blink_planner().build())
env.get_config().get_configuration().set_boolean("python.fn-execution.memory.managed", True)
（700行表table1） source_ddl1_2 = """CREATE TABLE table1 (DAY_ID VARCHAR(8),IS_EXCH_DAY DECIMAL) WITH ( 'connector' = 'jdbc', 'url' = 'jdbc:mysql://ip:port/db?useSSL=False', 'driver' = 'com.mysql.cj.jdbc.Driver', 'username' = 'root', 'password' = 'xxx', 'table-name' = 'table1') """
(1千万行表table2) source_ddl2_2 = """CREATE TABLE table2 (PF_ID VARCHAR(10),SYMBOL_ID VARCHAR(20),BIZ_DATE VARCHAR(8),CCY_TYPE VARCHAR(10),YLDRATE DECIMAL(18,12)) WITH ( 'connector' = 'jdbc', 'url' = 'jdbc:mysql://ip:port/yss_datamiddle_newrisk?useSSL=False', 'driver' = 'com.mysql.cj.jdbc.Driver', 'username' = 'root', 'password' = 'xxx', 'table-name' = 'table2') """
env.execute_sql(source_ddl1_2)
env.execute_sql(source_ddl2_2)
sql = "SELECT YLDRATE, PF_ID, SYMBOL_ID FROM table1 JOIN table2 ON DAY_ID = BIZ_DATE WHERE PF_ID = '123' AND SYMBOL_ID = '456' AND CCY_TYPE = 'AC' AND BIZ_DATE BETWEEN '20160701' AND '20170307'"
query_table = env.sql_query(sql)
query_table.to_pandas()

展开

收起

游客oaxmz3gavjlqk 2021-03-01 09:41:41 1363 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

开心老黄

Hi, 1. 关于sql_query的话本质都是跑的也是java代码，你这边在没有使用的Python udaf跑更慢的原因是你用了to_pandas这个sink，to_pandas的一般是用来本地调试用的，在性能上是不行的。 2. 关于用了udaf的30分钟的问题，我在社区邮件也回复你了，我猜测是你pandas udaf的实现上不够高效导致的。 http://apache-flink.147419.n8.nabble.com/flink1-12-sql-query-pyflink-9min-java-3s-td10994.html

2021-03-09 10:51:44

赞同展开评论

问答分类：

SQL Java 关系型数据库 MySQL 数据库连接数据库 Python 实时计算 Flink版云数据库 RDS MySQL 版

问答标签：

win10 SQL SQL表关联 SQL执行 SQL时间

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

flink sql 监听表关联维表的时候报这个错，这是为什么

111

1

0

flink sql作业流表关联不上

202

1

0

flink sql用做hive维表关联，一共3张hive维表，这块儿有什么问题，应该怎么排查？

131

1

0

ADB相同的表，数据也一样，同样的sql，2个表关联count查询，在ads上要比mysql中少一般

217

1

0

DataWorks中是maxcompute的CU，因为看到一个表关联sql操作就申请CU达到2000

183

1

0

jdbc_2.12-1.14.4 sink支持回撤流吗？似乎flink sql中-D的数据并不能执行

1741

3

0

pg里有类似oracle v$sql的视图吗，保存执行过的SQL的相关信息？

1001

1

0

使用java SDK中的sqltask查询非常慢，但是同样的sql在dataworks执行很快，请问

1540

1

0

，jdbc sink支持回撤流吗？似乎flink sql中-D的数据并不能执行删除的mysql的对应

3711

18

0

请问下全量同步数据的时候如果日志不全，是做快照执行sql拉取数据吗？

868

0

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

收录在圈子:

阿里云实时计算Flink

199212

+ 订阅

实时计算 Flink 版（Alibaba Cloud Realtime Compute for Apache Flink，Powered by Ververica）是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统，由 Apache Flink 创始团队官方出品，拥有全球统一商业化品牌，完全兼容开源 Flink API，提供丰富的企业级增值功能。

相关文章

Spring Boot配置优化：Tomcat+数据库+缓存+日志，全场景教程

玩转n8n测试自动化：核心节点详解与测试实战指南

解锁AI检索的7大Embedding技术：从稀疏到多向量，一文掌握！

RFID究竟是如何实现快速盘点？

性能优化与架构能力复盘报告

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

请问如何用flink sql客户端用yarn application模式提交任务呢？

请问下大家有没有遇到过这个错:Caused by: java.lang.ClassNotFoundE

FlinkCDC MySQL 中 scan.startup.mode 用的是什么模式啊？

在斗鱼，实时计算发展的历程如何？

Flink CDC中，有哪位大佬有flink 版本和cdc版本的适配统计啊？

flink-CDC-3.0 mysql to doris 数据同步任务经常报错

flink怎么能够快速消费kafka数据，需要设置什么参数呢？

Flink CDC里用jdbc往达梦dm8推数据，老是显示字符被截断是咋回事？有人碰到过嘛？

flink的1cu是指1cpu还是1cpu+4g存储？

展开全部

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

实时计算 Flink SQL 核心功能解密

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

阿里云实时计算产品案例&解决方案汇总

接着！！Apache Flink 全领域干货合集（持续更新）

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

基于实时计算（Flink）打造一个简单的实时推荐系统

Flink Checkpoint 问题排查实用指南

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

如何正确使用 Flink Connector？

展开全部

还有其他疑问?