MaxCompute Studio使用心得系列6——一个工具完成整个Python UDF开发-阿里云开发者社区

MaxCompute Studio使用心得系列6——一个工具完成整个Python UDF开发

2017-12-21 7619

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

简介： 2017/12/20 北京云栖大会上阿里云MaxCompute发布了最新的功能Python UDF，万众期待的功能终于支持啦，我怎么能不一试为快，今天就分享如何通过Studio进行Python udf开发。

2017/12/20 北京云栖大会上阿里云MaxCompute发布了最新的功能Python UDF，万众期待的功能终于支持啦，我怎么能不一试为快，今天就分享如何通过Studio进行Python udf开发。

前置条件

了解到，虽然功能发布，不过还在公测阶段，如果想要使用，还得申请开通：https://page.aliyun.com/form/odps_py/pc/index.htm。这里我就不介绍申请开通具体流程了。

环境准备

MaxCompute Studio支持Python UDF开发，前提需要安装python, pyodps和idea的python插件。

安装Python：可以Google或者百度搜索下如何安装。
安装pyodps：可以参考python sdk文档的安装步骤。即，在 Python 2.6 以上（包括 Python 3），系统安装 pip 后，只需运行下 pip install pyodps，PyODPS 的相关依赖便会自动安装。
Intellij IDEA中安装Python插件。搜索Python Community Edition插件并安装
配置studio module对python的依赖。
- File -> Project structure，添加python sdk:
- File -> Project structure，添加python facets:
- File -> Project structure，配置module依赖python facets:

开发Python UDF

环境都准备好后，既可在对应依赖的module里创建进行python udf开发。

新建python脚本。

右键 new | MaxCompute Python，弹框里输入脚本名称，选择类型为python udf：

生成的模板已自动填充框架代码，只需要编写UDF的入参出参，以及函数逻辑：

本地调试

代码开发好后，可以在Studio中进行本地调试。Studio支持下载表的部分sample数据到本地运行，进行debug，步骤如下:

右键python udf类，点击”运行”菜单，弹出run configuration对话框。UDF|UDAF|UDTF一般作用于select子句中表的某些列，此处需配置MaxCompute project，table和column（元数据来源于project explorer窗口和warehouse下的example项目）:
点击OK后，通过tunnel自动下载指定表的sample数据到本地warehouse目录（若之前已下载过，则不会再次重复下载，否则利用tunnel服务下载数据。默认下载100条，如需更多数据测试，可自行使用console的tunnel命令或者studio的表下载功能）。下载完成后，可以在warehouse目录看到下载的sample数据。这里用户也可以使用warehouse里的数据进行调试，具体可参考java udf开发中的关于本地运行的warehouse目录”部分）。
然后本地运行框架会根据指定的列，获取data文件里指定列的数据，调用UDF本地运行。

注册发布Python UDF

代码调试好后，将python脚本添加为MaxCompute的Resource：

注意此处选择的MaxCompute project必须是已经申请开通python udf的project。

注册python 函数：
在sql脚本中编辑MaxCompute sql试用python udf:

好了，一个简单完整的python UDF通过Studio开发实践分享完成。

更多python UDF可以参考其他文章:

使用MaxCompute的pyodps和Studio有疑惑可以工单咨询，更多探讨可以加入对应钉钉群一起畅聊：

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

MaxCompute Studio使用心得系列6——一个工具完成整个Python UDF开发

环境准备

开发Python UDF

新建python脚本。

本地调试

注册发布Python UDF

大数据计算 MaxCompute

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景

推荐镜像