高效使用 PyODPS 最佳实践

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 以更清晰的认知 PyODPS,DataWorks PyODPS 节点以及 PyODPS 何时在计算集群运行,开发者如何利用 PyODPS 更高效地进行数据开发。

PyODPS 是 MaxCompute(ODPS) Python SDK,为 MaxCompute 对象提供了 Python 端的操作接口,同时,对于熟悉 Pandas 的用户来说,它提供了 DataFrame API 来用类似 Pandas 的接口进行大规模数据分析以及处理,并能够方便的将 MaxCompute 的分布式 DataFrame 向本地 Pandas DataFrame 转换。正因为如此的方便灵活,在实际使用过程中,不少用户容易把 PyODPS 用成单机处理模式,没有最大限度发挥 MaxCompute 分布式运算的性能。本文主要介绍如何高效地使用 PyODPS 处理数据。

概念

首先介绍基本概念。PyODPS 作为一个 SDK,本身运行于各种客户端,如下图所示,PyODPS 位于紫色部分,可以在是个人 PC,也可以是 DataWorks 的调度节点,或者 PAI Notebooks 的运行环境。需要注意的是,DataWorks 中的 PyODPS 节点也是一个资源非常受限的客户端运行容器,内置了 PyODPS 包以及必要的 Python 环境,并不使用 MaxCompute 资源,有较强的内存限制。因此合理利用 PyODPS 提供的分布式 DataFrame 功能,将主要的计算提交到 MaxCompute 分布式执行而不是在 PyODPS 客户端节点下载处理,是正确使用 PyODPS 的关键。这篇文章详细介绍了 PyODPS 代码跑在哪里
image.png

尽量避免数据下载

很多用户习惯于用 Pandas 处理数据。PyODPS 提供了 to_pandas 接口,可以直接将 MaxCompute 数据转化成 Pandas DataFrame 数据结构,这个接口很受欢迎。但这个接口只应该被用于获取小规模数据做本地开发调试使用,而不是用来大规模处理数据。使用这个接口会触发下载行为,将位于 MaxCompute 中的海量数据下载到本地,如果后续操作的都是本地的 DataFrame,则丧失了 MaxCompute 的大规模并行计算能力。而且,数据量稍大,单机内存就很容易产生 OOM。

正确的使用方式,是使用 PyODPS DataFrame 接口来完成数据处理。常见的需求,比如需要对每一行数据处理然后写回表,或者一行数据要拆成多行,都可以通过 PyODPS DataFrame 中的 map 或者 apply 实现,有的甚至只需要一行代码,足够高效与简洁。使用这些接口我们最终都会翻译成 SQL 到 MaxCompute 计算集群做分布式计算,并且本地几乎没有任何的内存消耗,显然相比于单机有很大的性能提升。下面我们以一个实际的例子来说明。

一个例子:分词

用户需要通过分析每天产生的日志字符串来提取一些信息,有一个只有一列的表,它的类型是 string,通过 jieba 分词可以将中文语句分词,然后再找到想要的关键词存储到信息表里。很多人会习惯于单机处理数据的思维,一行一行的读出数据,然后一行一行地处理数据,然后再一行一行的写入目标表,所以代码会变成这样:

import jieba
t = o.get_table('word_split')
out = []
with t.open_reader() as reader:
    for r in reader:
        words = list(jieba.cut(r[0]))
        #
        # 处理逻辑,产生出 processed_data
        #
        out.append(processed_data)
out_t = o.get_table('words')
with out_t.open_writer() as writer:
    writer.write(out)
AI 代码解读

我们分析一下整个流程,下载上传数据消耗了大量的时间,并且在执行脚本的机器上需要很大的内存处理所有的数据,特别对于 DataWorks 用户,很容易超过默认分配的内存值,导致 OOM 运行报错。所以这样的问题应该怎么解决呢?答案就是利用 MaxCompute 的分布式能力,PyODPS 就能帮你做到这一点。

高效的分词

当我们提出用 PyODPS DataFrame 改写时,很多人望而却步,现实情况中,我上面代码中隐去的逻辑可能非常非常复杂,有的甚至上千行,用户会觉得改起来是不是太复杂了,改写成本是不是太多,其实大可不必担心,中间的处理过程大部分是不需要动的,我们利用 apply接口就能做到分布式的执行:

from odps.df import output
out_table = o.get_table('words')
df = o.get_table('word_split').to_df()
@output(out_table.schema.names, out_table.schema.types)
def handle(row):
    import jieba
    words = list(jieba.cut(r[0]))
    #
    # 处理逻辑,产生出 processed_data
    #
    yield processed_data
df.apply(handle, axis=1).persist(out_table)
AI 代码解读

我们可以看到复杂逻辑都可以放在 handle 这个函数里,这个函数会被自动序列化到服务端作为 UDF 使用,在服务端调用执行,而且因为 handle 在服务端实际执行时也是对每一行进行处理的,所以逻辑上是没有区别的,不同的是,这样写的程序在提交到 MaxCompute 端执行时可以有多台机器帮你同时处理数据,可想而知时间上会节约很多,最后调用 persist 接口会将产生的数据直接写到另一张 MaxCompute 表中,所有的数据产生与消费都在 MaxCompute 集群完成,也节约了本地的网络与内存。另外在这个例子中我们也使用到了三方包,MaxCompute 是支持自定义函数中使用三方包的,可以参考文章所以,用户大可不必担心代码改动带来的成本,事实上主要逻辑几乎不要改动就可以享受到 MaxCompute 的大规模计算能力。

总结

利用 PyODPS,我们有很多种更高效操作 MaxCompute 数据的方式,大家有自己在实践过程中获得的感悟也可以积极分享出来,共同提升 MaxCompute Python 生态。最后,分享一句 Pandas 作者的一句话:精通面向数组的编程和思维方式是成为 Python 科学计算牛人的一大关键步骤。多多使用 apply, map 接口,让我们的数据飞起来!

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
玉温
+关注
目录
打赏
0
6
3
0
4
分享
相关文章
高效使用 PyODPS 最佳实践
以更清晰的认知 PyODPS,DataWorks PyODPS 节点以及 PyODPS 何时在计算集群运行,开发者如何利用 PyODPS 更高效地进行数据开发。
2900 1
高效使用 PyODPS 最佳实践
PyODPS开发中的最佳实践
PyODPS支持用 Python 来对 MaxCompute 对象进行操作,它提供了 DataFrame API 来用类似 pandas 的接口进行大规模数据分析以及预处理,并且可以用 ml 模块来执行机器学习算法。
11199 0
数据治理中 PyODPS 的正确使用方式
表饱和度(字段是否为空)、字段阈值(数值类字段取值是否超出有效边界)是评估数据质量的关键指标,由于是单表内字段级别的校验和统计,并且几乎涉及所有表,范围大、逻辑简单、重复性强,结合 Python 开发效率高的特点,很多数据工程师会使用 PyODPS 进行相关功能的开发。本文基于 PyODPS 分别使用 3 种方式实现了“饱和度统计”功能,展示了它们的执行效率,并分析了原因。
1038 0
优化Python数据处理性能的最佳实践
在数据科学和大数据时代,优化Python数据处理性能变得至关重要。通过探讨数据处理瓶颈、内存管理、并行计算以及高效库的使用,本篇文章旨在提供切实可行的最佳实践,以帮助开发者提升数据处理效率。
基于MaxCompute分布式Python能力的大规模数据科学分析
如何利用云上分布式 Python 加速数据科学。 如果你熟悉 numpy、pandas 或者 sklearn 这样的数据科学技术栈,同时又受限于平台的计算性能无法处理,本文介绍的 MaxCompute 可以让您利用并行和分布式技术来加速数据科学。也就是说只要会用 numpy、pandas 和 scikit-learn 之一,就会用 MaxCompute 分布式 Python 的能力。
1593 0
基于MaxCompute分布式Python能力的大规模数据科学分析
航测数据处理教程(超详细)
航测数据处理教程(超详细)
226 1
MaxCompute MaxFrame评测 | 分布式Python计算服务MaxFrame(完整操作版)
在当今数字化迅猛发展的时代,数据信息的保存与分析对企业决策至关重要。MaxCompute MaxFrame是阿里云自研的分布式计算框架,支持Python编程接口、兼容Pandas接口并自动进行分布式计算。通过MaxCompute的海量计算资源,企业可以进行大规模数据处理、可视化数据分析及科学计算等任务。本文将详细介绍如何开通MaxCompute和DataWorks服务,并使用MaxFrame进行数据操作。包括创建项目、绑定数据源、编写PyODPS 3节点代码以及执行SQL查询等内容。最后,针对使用过程中遇到的问题提出反馈建议,帮助用户更好地理解和使用MaxFrame。
MaxCompute产品使用合集之大数据计算MaxCompute的PyODPS API相比ODPSSQL那个数据清洗的效率高
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
MaxFrame在工作、生活中的应用
MaxFrame作为阿里云自研的Python分布式计算框架,专为连接大数据与AI而设计,能够在我所在的公司、工作以及学习中发挥显著作用。
74 1
MaxCompute产品使用合集之作业性能优化的规范包括哪些
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。