备案控制台

开发者社区大数据与机器学习大数据计算 MaxCompute 正文

云原生大数据计算服务 MaxCompute中，PyODPS DataFrame是什么？

已解决

云原生大数据计算服务 MaxCompute中，PyODPS DataFrame是什么？

展开

收起

詹姆斯邦德00 2022-10-17 11:01:29 1109 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

胡嘞嘞

推荐回答

为什么需要单独来谈PyODPS DataFrame（以下简写为DF，此处特指PyODPSDataFrame，请注意和Pandas DataFrame区分）?因为在同一段PyODPS代码中，需要特别留意区分普通代码脚本和DF相关脚本。在开发者看来明明是同一套代码，但是其中的DF部分却是在不同的环境里执行的，下面借助这张图进一步阐释。

总体上看，可以简单地这么记忆：DF代码会在上图框选的MaxCompute内部执行，非DF代码则会在紫色部分（“本地环境”）执行。

以DataStudio为例，如果是在DataWorks的DataStudio创建了PyODPS2/PyODPS3节点，实际跑这段代码的环境是DataWorks的调度资源组机器（gateway机器），DataWorks已经帮用户配置好了相应的runtime（pyodps依赖、python interpreter等）。因而，这些代码在执行时，行为与普通Python code的执行行为类似，import第三方包时，引用的是“本地”的包，如果您使用的是独享调度资源组，则可通过DataWorks控制台的调度资源组运维助手，进行pip命令的下发来安装必要的三方依赖。

PyODPS DF支持对所有Sequence实现调用map方法，传入自定义函数闭包，实现对于MaxCompute表中某一列的每一个元素逐个调用自定义函数进行处理。如上述代码片段的handle函数。handle函数传入map方法时，会被提取为闭包和字节码，DF使用闭包和字节码生成一个MaxCompute的UDF，在执行时实际等效于：

select this_handle_udf(pyodps_iris.sepal_length)

由此可见，此部分的DF代码执行，发生在了MaxCompute集群内部了，即上图中的MaxCompute Executor机器上执行。

进一步来说说如果在自定义函数里使用到了三方包，因为自定义函数在Max-Compute Executor机器上执行，所以无法引用“本地环境”的包，import建议放在自定义函数内部进行，并且在DataWorks上上传三方包资源后，需要点击“提交”确保资源被正确上传到MaxCompute集群内部。

以上内容摘自《企业级云原生白皮书项目实战》电子书，点击https://developer.aliyun.com/ebook/download/7774可下载完整版

2022-10-17 19:04:03

赞同展开评论

问答分类：

分布式计算 Cloud Native 大数据 MaxCompute 云原生大数据计算服务 MaxCompute

问答标签：

云原生大数据云原生大数据计算服务 MaxCompute大数据云原生计算云原生大数据计算服务 MaxCompute MaxCompute 云原生大数据计算服务 MaxCompute计算

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

相关问答

如何将py文件资源传入ODPS DataFrame的map/apply方法的resources参数？

488

3

0

大数据计算MaxCompute py odps文件里面可以直接使用吗？

124

2

0

云原生架构下，如何自动化地解决服务实例下线过程中的流量有损问题？

79

1

0

大数据计算MaxCompute使用pyODPS读取文件，再写入 ODPS，需要指定列名吗？

134

2

0

在大数据计算MaxCompute中使用pyODPS读取文件，再写入 ODPS，需要指定列名吗？

381

10

0

在大数据计算MaxCompute如何使用pyodps 改写 WTIH RECURSIVE ？

104

0

0

大数据计算MaxCompute中dataframe怎么转成pandas的dataframe？

123

1

0

odps DataFrame写入表的具体步骤是什么？

69

0

0

在ODPS DataFrame中，要改变列的数据类型（dtype），可以采用几种方法？

70

0

0

odps DataFrame groupby支持多个key吗？

60

0

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

收录在圈子:

开发者社区官方技术圈

70115

+ 订阅

阿里云开发者社区官方技术圈，用户产品功能发布、用户反馈收集等。

相关文章

深度探讨“云+智能计算”，智算新基础设施分论坛议程揭晓 | 2025 龙蜥大会

志愿者招募 | 一起为 2025 龙蜥操作系统大会“打 call”

基于python大数据的图书推荐和分析系统

别光努力发内容了，先把“数据眼”睁开：用数据放大你的社交媒体影响力

别等系统挂了才想起数据：智能运维里“数据可用性”才是根本功

热门讨论

热门文章

阿里云和腾讯云服务器哪个好！

sparksql中cte物化方式是怎样的

MaxCompute这个正则一直报这个错，该怎么处理?

大数据计算MaxCompute新增列，表提交生产环境失败，提示列已存在，如何解决？

ODPS 的下一个15年，大数据将迎来春天还是寒冬？

大数据计算MaxCompute阿里云一个CU对应多少cpu和内存？

大数据计算MaxCompute的datawork做数据同步的时候，可以解决源系统表名不固定的情况嘛？

大数据计算MaxCompute时间字符串格式记录的数据，不知道有没有什么解决办法？

请问中断执行报错FAILED: ODPS-0130161是怎么回事？

请问MaxCompute和DataWorks有啥区别？

展开全部

大数据环境下该如何优雅地设计数据分层

odps是什么?

阿里云MaxCompute（大数据）公开数据集---带你玩转人工智能

品《阿里巴巴大数据实践-大数据之路》一书（上）

使用 MaxCompute Studio 开发大数据应用

MaxCompute常见错误汇总（更新ing）

大数据阿里云产品的简单介绍理解

阿里云机器学习平台的思考

如何有效降低大数据平台安全风险

企业大数据平台下数仓建设思路

展开全部

还有其他疑问?