北京云栖大会MaxCompute又出大招,Python UDF抢先体验!

简介: 2017/12/20 北京云栖大会上阿里云MaxCompute发布了最新的功能Python UDF。 小编第一时间申请到了公测资格,下面就为大家做个简单演示,通过DataWorks注册MaxCompute Python UDF(字符串大小写转换),完成数据处理。

2017/12/20 北京云栖大会上阿里云MaxCompute发布了最新的功能Python UDF。


b51ec4adb2cddb2884b7c1c839a1f39e011bf99f


小编第一时间申请到了公测资格,下面就为大家做个简单演示,通过DataWorks注册MaxCompute Python UDF(字符串大小写转换),完成数据处理。


前提条件:

1、申请开通https://page.aliyun.com/form/odps_py/pc/index.htm

注意:公测阶段请使用测试Project,不要使用生产Project。

2、开通MaxCompute/Dataworks。

3、Python 脚本,test_udf.py。实现方法请参考Python实现MaxCompute UDF


# -*- coding:utf-8 -*-
from odps.udf import annotate #函数签名,SQL执行前所有函数的参数类型和返回值类型必须确定;
@annotate("string->string")#参数为string,返回值为string;
class Upper2Lower(object):
   def evaluate(self, arg):#实现 evaluate 方法;
       return arg.lower()

操作演示:

step1,通过Dataworks数据开发添加.py资源。操作如下,数据开发->资源管理->上传资源。

465e518b606bec060f7bb1859ed1215c097b22a3


step2,通过Dataworks数据开发任务创建.py资源。

--@resource_reference{"test_udf.py"}
add py test_udf.py;

268623dbf93d6b9cbbf3717503ed7dabcc826af8

7ceb991b6f45dc06b622e56ff530d4578eeb170d


06c49a825599bdcc9b3638fef076398deba80131


0e6f7324937499c425c31174bdd5654a979aabb4


step3,数据开发任务注册函数。

create function upper2lower as 'test_udf.Upper2Lower'
    using test_udf.py 

45a159f56dc3857b70ed43bdc36144085cc8725a

 

step4,通过list命令查看函数是否注册成功。

list functions ;

8093bcda0edda5a2cdf92d80c95d9034e3fc2c34


step5,完成udf测试。

select upper2lower('AA');

a9c08ad3d11bae7b288c26bee715ae0945c0e308


相关资料参考:

通过MaxCompute Console 运行Python UDF:https://yq.aliyun.com/articles/304494

通过MaxCompute Studio运行Python UDF:https://yq.aliyun.com/articles/304646

通过Pyodps 运行Python UDF :https://yq.aliyun.com/articles/307577

Python SDK :https://help.aliyun.com/document_detail/34615.html


欢迎加入“数加·MaxCompute购买咨询”钉钉群(群号: 11782920)进行咨询,群二维码如下:

IMG_3471

9386564c728d252b47446fb4dca021f3db48ad4a

image

阿里巴巴大数据-玩家社区 https://yq.aliyun.com/teams/6/

---阿里大数据博文,问答,社群,实践,有朋自远方来,不亦说乎……

bba01b493e1c5d904e882b1c380673c6ebe49a98


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
3天前
|
关系型数据库 Java 分布式数据库
实时计算 Flink版操作报错合集之在使用 Python UDF 时遇到 requests 包的导入问题,提示 OpenSSL 版本不兼容如何解决
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
23 5
|
5天前
|
SQL Java 数据处理
实时计算 Flink版产品使用合集之怎么热加载Java和Python的UDF
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
11 1
|
6天前
|
分布式计算 DataWorks 数据管理
DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
29 0
|
6天前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之在 DataWorks 中的 ODPS UDF(User-Defined Function,用户自定义函数)中,支持不定长参数如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
16 0
|
6天前
|
分布式计算 DataWorks Java
DataWorks产品使用合集之阿里云DataWorks专有云环境下,上传MaxCompute的UDF(用户自定义函数)的JAR包的步骤如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
24 0
|
6天前
|
分布式计算 DataWorks 关系型数据库
MaxCompute产品使用合集之我需要在MaxCompute客户端添加Python第三方包,我该怎么操作
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
6天前
|
分布式计算 DataWorks Java
MaxCompute操作报错合集之DataWorks中udf开发完后,报错了,如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
6天前
|
机器学习/深度学习 分布式计算 数据挖掘
阿里云 MaxCompute MaxFrame 开启免费邀测,统一 Python 开发生态
阿里云 MaxCompute MaxFrame 正式开启邀测,统一 Python 开发生态,打破大数据及 AI 开发使用边界。
757 1
|
6天前
|
分布式计算 DataWorks MaxCompute
PyODPS是MaxCompute的Python SDK
PyODPS是MaxCompute的Python SDK
51 2
|
7月前
|
SQL 分布式计算 Java
阿里云MaxCompute-Hive UDF(Java)迁移上云实践
阿里云MaxCompute-Hive UDF(Java)迁移上云实践

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute