用MaxCompute Studio开发Python UDF(附采坑记录)

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

1.环境

系统:MacOS 
系统自带Python版本(/usr/bin/python):2.7.10
Anaconda Python版本:2.7.14
Maxcompute Studio版本: 2.9.1

2.安装Python|Pyodps|Python插件

MaxCompute studio能支持用户在intellij idea里完成python相关的开发,包括UDF和pyodps脚本,但是使用前必须安装python, pyodps和idea的python插件。

2.1安装Python

2.2安装Pyodps

pyodps是MaxCompute的python sdk,安装命令:
pip install pyodps 。请确保是给/usr/bin/python安装的,后面在create function时会检查/usr/bin/python是否安装了pyodps(Studio同学说3.0.0会增加指定Python路径的特性,当前版本没有)。由于我的mac上安装了anaconda,pyodps默认安装到了anaconda对应的Python,所以给/usr/bin/python安装pyodps需要运行命令:sudo /usr/bin/python -m pip install pyodps
注意:如果此命令报错提示没有pip这个模块,说明/usr/bin/python下没有安装pip,解决方法见附录4.1.

2.3安装Python插件

在Intellij IDEA的插件仓库中搜索Python Community Edition插件并安装。
image.png

2.4配置Python依赖

配置studio module对python的依赖,这样就可以使用进行MaxCompute python开发了。

  • File -> Project structure,添加python sdk:
    image.png
  • File -> Project structure,添加python facets:
    image.png
  • File -> Project structure,配置module依赖python facets:
    image.png

3.开发Python UDF

3.1 开发

  1. 右键 new | MaxCompute Python,如果没有MaxCompute Python选项说明没有安装好Python插件,参考前文所述的安装指引。
    image.png
  2. 输入类名,如hello,选择类型,这里我们选择UDF,点击OK。
    image.png
  3. 模板已自动填充框架代码,您只需要编写UDF的入参出参,以及函数逻辑。
    image.png

3.2 测试

UDF开发好后,下一步就是要测试自己的代码,看是否符合预期。我们支持下载表的部分sample数据到本地运行,进行debug,步骤如下:

  1. 在Editor中UDF类上右键,点击”运行”菜单,弹出run configuration对话框。UDF|UDAF|UDTF一般作用于select子句中表的某些列,此处需配置MaxCompute project,table和column(元数据来源于project explorer窗口和warehouse下的Mock项目):
    image.png

注意:图中Table columns是UDF的入参,如果是加法函数,则这里需要输入两个字段。

2.点击OK后,通过tunnel自动下载用户指定表的sample数据到本地warehouse目录(若之前已下载过,则不会再次重复下载,否则利用tunnel服务下载数据。默认下载100条,如需更多数据测试,请自行使用console的tunnel命令或者studio的表下载功能)。下载完成后,用户可以在warehouse目录看到下载的sample数据。这里用户也可以使用Mock data(即warehouse里的数据自己mock,具体可参考java udf开发中的“关于本地运行的warehouse目录”部分)。
image.png

3.然后本地运行框架会根据用户指定的列,获取data文件里指定列的数据,调用UDF本地运行。(本地运行是通过pyodps的pyou脚本实现的,命令类似如下pyou hello.Plus < data。安装完pyodps后可以检查下该脚本是否存在,windows: ${python}/../Scripts/pyou, mac:${python}/../pyou)。用户可以在控制台看到结果打印,也可以在UDF上打断点调试,如下图:
image.png

3.3 注册发布

Python UDF测试通过后,就可以注册发布到生产上使用了,先Add Resource,然后Create Function即可。

3.3.1上传py文件

1.在MaxCompute菜单选择Add Resource菜单项:
image.png

2.选择要上传到哪个MaxCompute project上,py文件路径,要注册的资源名,以及当资源或函数已存在时是否强制更新,然后点击OK。
屏幕快照 2018-05-03 上午10.08.19.png

3.上传成功后,可以在project explorer窗口的resources节点下看到该资源。
屏幕快照 2018-05-03 上午10.11.14.png

3.3.2注册UDF

py文件上传完成后,就可以注册UDF函数了。
1.在MaxCompute菜单选择Create Function菜单项。
image.png

2.选择需要使用的资源py文件,py文件的主类,输入函数名,然后点击OK。
屏幕快照 2018-05-03 上午10.16.00.png
图中函数名处可以自己给函数取一个名字。类名是.py资源名去掉后缀的部分和python代码中的类名,本例中为"hello.hello",使用的资源即是python文件名hello.py。

3.注册成功后,可以在project explorer窗口的functions节点下看到该函数。
屏幕快照 2018-05-03 上午10.18.40.png

3.4 使用UDF

接下来就可以在SQL中使用新编写的UDF完成后续开发。
屏幕快照 2018-05-03 上午10.21.54.png

4.附录

4.1.安装pip(给/usr/bin/python)

用easy_install pip安装每次都安装到了anaconda Python下面,没有安装到/usr/bin/python下面。最终用get-pip.py文件成功给/usr/bin/python安装上了pip,具体的操作是:下载get-pip.py文件: wget bootstrap.pypa.io/get-pip.py 。 如果没有wget, 那么brew install wget。如果没有brew 安装brew:https://brew.sh/
接着安装pip: sudo /usr/bin/python ~/get-pip.py 。至此/usr/bin/python的pip就安装成功了。如果要安装pyodps,可以运行: sudo /usr/bin/python -m pip install pyodps

4.2.创建函数时提示/usr/bin/python没有安装pyodps的问题

在create function时如果弹出窗口提示:/usr/bin/python没有安装pyodps,如下图所示:
图片.png
需要按照2.2中所述的指引给/usr/bin/python安装pyodps,然后再重复创建函数即可。
(当前版本的studio在create function时会默认检查/usr/bin/python没有安装pyodps,不能指定其他路径的Python,比如anaconda python。studio同学说自后续发布的3.0.0版本中会加入可以选择Python路径的新特性。)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
目录
相关文章
|
15天前
|
算法 测试技术 开发者
性能优化与代码审查:提升Python开发效率
【10月更文挑战第12天】本文探讨了Python开发中性能优化和代码审查的重要性,介绍了选择合适数据结构、使用生成器、避免全局变量等性能优化技巧,以及遵守编码规范、使用静态代码分析工具、编写单元测试等代码审查方法,旨在帮助开发者提升开发效率和代码质量。
31 5
|
2天前
|
算法 测试技术 开发者
性能优化与代码审查:提升Python开发效率
探讨了Python开发中性能优化和代码审查的重要性,介绍了选择合适数据结构、使用生成器、避免全局变量等性能优化技巧,以及遵守编码规范、使用静态代码分析工具、编写单元测试等代码审查方法,旨在帮助开发者提升开发效率和代码质量。
20 8
|
2天前
|
算法 测试技术 开发者
在Python开发中,性能优化和代码审查至关重要。性能优化通过改进代码结构和算法提高程序运行速度,减少资源消耗
在Python开发中,性能优化和代码审查至关重要。性能优化通过改进代码结构和算法提高程序运行速度,减少资源消耗;代码审查通过检查源代码发现潜在问题,提高代码质量和团队协作效率。本文介绍了一些实用的技巧和工具,帮助开发者提升开发效率。
8 3
|
3天前
|
算法 测试技术 开发者
性能优化与代码审查:提升Python开发效率
性能优化与代码审查:提升Python开发效率
7 1
|
6天前
|
数据处理 Apache 数据库
将 Python UDF 部署到 Apache IoTDB 的详细步骤与注意事项
【10月更文挑战第21天】将 Python UDF 部署到 Apache IoTDB 中需要一系列的步骤和注意事项。通过仔细的准备、正确的部署和测试,你可以成功地将自定义的 Python UDF 应用到 Apache IoTDB 中,为数据处理和分析提供更灵活和强大的支持。在实际操作过程中,要根据具体情况进行调整和优化,以确保实现最佳的效果。还可以结合具体的代码示例和实际部署经验,进一步深入了解和掌握这一过程。
11 2
|
11天前
|
人工智能 IDE 测试技术
使用通义灵码提升Python开发效率:从熟悉代码到实现需求的全流程体验
作为一名Python开发者,我最近开始使用通义灵码作为开发辅助工具。它显著提高了我的工作效率,特别是在理解和修改复杂代码逻辑方面。通过AI编码助手,我能够在短时间内快速上手新项目,实现新需求,并进行代码优化,整体效率提升了60%以上。通义灵码不仅加快了代码生成速度,还增强了代码的健壮性和稳定性。
|
21天前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
22天前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
44 3
|
2天前
|
存储 安全 大数据
大数据隐私保护:用户数据的安全之道
【10月更文挑战第31天】在大数据时代,数据的价值日益凸显,但用户隐私保护问题也愈发严峻。本文探讨了大数据隐私保护的重要性、面临的挑战及有效解决方案,旨在为企业和社会提供用户数据安全的指导。通过加强透明度、采用加密技术、实施数据最小化原则、加强访问控制、采用隐私保护技术和提升用户意识,共同推动大数据隐私保护的发展。
|
6天前
|
SQL 存储 大数据
大数据中数据提取
【10月更文挑战第19天】
15 2