DataWorks百问百答35:有哪些odps spark的主python样例?-阿里云开发者社区

开发者社区> DataWorks> 正文
登录阅读全文

DataWorks百问百答35:有哪些odps spark的主python样例?

简介: odps spark的主python样例

odps spark节点不仅可以使用java代码进行数据处理,也可以使用python进行数据处理。
注意:由于python资源是针对Python udf
进行开发,其所能获取到的直接依赖的三方包非常有限,故而python资源使用局限性比较大,很多三方包在python资源里都没有支持,自定义添加步骤、操作繁复。
python资源引用三方依赖可仿照此文档:https://yq.aliyun.com/articles/591478

而在pyodps2/pyodps3节点内支持性比较丰满,支持性更好。

以下是python样例:

dataworks35-3.png

1.简单demo示例(非数据业务处理逻辑,简单案例进行校验数值判断)
创建python文件:
dataworks35-2.png

样例demo(仅做参考使用):
def is_number(s):
try:
float(s)
return True
except ValueError:
pass

try:
import unicodedata
unicodedata.numeric(s)
return True
except (TypeError, ValueError):
pass

return False

print(is_number('foo'))
print(is_number('1'))
print(is_number('1.3'))
print(is_number('-1.37'))
print(is_number('1e3'))

python文件保存提交发布即为odps/dataworkspy资源文件,这时候已经可以使用spark节点引用了。

2.创建odps spark节点并加载刚刚提交的python资源:
dataworks35-1.png



发布后即可执行测试

DataWorks百问百答历史记录 请点击这里查看>>

更多DataWorks技术和产品信息,欢迎加入【DataWorks钉钉交流群】

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
DataWorks
使用钉钉扫一扫加入圈子
+ 订阅

DataWorks作为飞天大数据平台操作系统,对接各种大数据计算引擎,以all in one box的方式提供专业高效、安全可靠的全域智能大数据平台,高效率完成数据全链路研发流程,建设企业数据治理体系。 从2009年飞天大数据平台写下第一行代码开始,DataWorks历经10年发展,形成一套成熟的产品功能体系,满足企业数据中台搭建需求。

官方博客
DataWorks产品官网