备案控制台

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

大佬们，请教，pyflink pandas udf如何提高并行度

已解决

我目前尝试使用pyflink做离线处理，flink版本是1.14.6。逻辑里用到了pyflink特有的函数pandas udf,了解到这是个批处理调用的函数，通过python.fn-execution.arrow.batch.size可以控制进入函数pd.Dataframe的数据量，这个我已经通过本地应用验证的确生效，但是我设置了这些参数，将作业提交到集群上执行，通过yarn per job的形式提交。

可以在执行图上看到pandas的调用作业并行度是1而后续的作业并行度是1000，所以-p 1000是生效的。提交指令如下

flink run -yd -m yarn-cluster \
-ys 8 -p 1000 - yjm 4G - ytm 8G \
-ynm app_pf \
-yD yarn.taskmanager.env.JAVA_HOME=/usr/java8/jdk \
-yD containerized.master.env.JAVA_HOME=/usr/java8/jdk \
-yD containerized.taskmanager.env.JAVA_HOME=/usr/java8/jdk \
-pyarch venv.zip \
-pyexec venv.zip/venv/bin/python \
-pyclientexec venv.zip/venv/bin/python \
-py /opt/modules/packages/scripts/app_pf.py

而且由于是用的table API,用的map算子调用pandas udf，并不能直接设置并行度。只能这样全局设置或者在代码里写死，这个效果应该是一样的。所以请教各位开发者，我该怎么提高pandas udf处理逻辑的并行度。

此外，我使用的是Hive的catalog数据源，使用这个pandas udf前面的逻辑几乎不能有任何其他处理，包括取数的SQL逻辑，SQL嵌套结构、查询字段语句有函数操作（if语句），只要有逻辑，都会报两个奇葩的错误。takes 1 positional argument but x were given,这个x是map算子输入数据table对象的字段个数。或者某一列不存在，这一列通常是做了函数操作，当数据量小的时候（1w以下）as（a as b）的逻辑可以运行，数据量大的时候，as的操作也会报错某一列不存在。

展开

收起

AceMars9527 2024-04-09 19:39:41 48 0

1 条回答

写回答

取消提交回答

AceMars9527

采纳回答

这个问题，我自问自答吧，这两个问题，在使用table的row函数和pandas函数，都会遇到。估计这个是当前版本的问题，我通过将table对象转成datastream对象，然后使用stream的map算子调用row函数，可以指定并行度，处理完成后再转回table对象，这样处理后，这两个问题（并行度问题和map函数前有数据处理问题）都能得到解决

2024-04-25 15:57:24

赞同展开评论打赏

问答分类：

Python Java SQL 流计算 HIVE API 资源调度实时计算 Flink版

问答标签：

Pandas udf pyflink Pandas

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

机器学习PAI有没有 udf 用pandas的教程？像这种详细一点的，

58

1

0

在MaxCompute如果我新建一个udf，需要用到pandas,资源列表就要加上下面这个吗？

63

1

0

在MaxCompute中想在udf中使用pandas,该怎样操作呢？

45

1

0

DataWorks有没有 udf 用pandas的文档？

41

2

0

pyflink sql固定窗口流输出转pandas未见输出

727

3

0

PyFlink中通过to_pandas写出结果数据的说明是什么？

286

1

0

PyFlink中通过to_pandas写出结果数据的方法是什么？

688

1

0

Pandas UDF处理过的数据sink问题

739

1

0

pandas中从SQL表/库导入数据的方法是什么？

442

1

0

如何导入pandas库和查询相应版本的信息？

524

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

热门讨论

热门文章

flink1.15启动后无法访问webui的问题有人遇到过吗

Flink CDC3.x版本依赖flink哪个版本？

Flink CDC有遇见这个问题的吗？

FlinkCDC MySQL 中 scan.startup.mode 用的是什么模式啊？

Flink这个未授权访问漏洞有什么解决方案吗？

Caused by: org.apache.kafka.common.errors.TimeoutE

阿里云实时计算的资源单位是什么？

Flink CDC中我使用了自定义聚合函数，但是报错这个需要怎么解决呢？

Flink sql将数组炸开，实现hive的explode函数的效果，还有什么其他好的方式？

yarn集群资源是充足的，为什么提交任务失败呢

展开全部

数据仓库介绍与实时数仓案例

权威详解 | 阿里新一代实时计算引擎 Blink，每秒支持数十亿次计算

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

实时计算 Flink SQL 核心功能解密

Flink SQL 功能解密系列 —— 维表 JOIN 与异步优化

通过Flink实时构建搜索引擎的索引

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

阿里云实时计算产品案例&解决方案汇总

回顾 | Kafka x Flink Meetup 与世界人工智能大会大数据 AI 专场精彩回顾（附PPT下载）

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

展开全部

相关课程

更多

Python 数据分析库 Pandas 快速入门

42098

22

去学习

相关电子书

更多

中文：即学即用的Pandas入门与时间序列分析 立即下载

即学即用的Pandas入门与时间序列分析 立即下载

低代码开发师（初级）实战教程 立即下载