在DataWorks中使用PyODPS调用第三方库,可遵循以下步骤:
预置三方包使用:DataWorks的PyODPS节点已预置了一些三方包,直接在代码中引用即可。对于未预置的包,利用load_resource_package方法加载。
创建Python资源:
进入数据开发页面,新建Python资源文件(如pyodps_packagetest.py),在此文件中编写或引用需要的第三方包代码。
上传第三方包:
若需使用自定义三方包,需手动上传wheel格式的包文件到DataWorks,并确保提交成功。对于特定情况,如自定义Numpy版本,需设置odps.df.supersede_libraries = True,并将该包作为libraries的第一个参数。
在PyODPS节点中调用:
创建PyODPS 2节点,编写任务代码,通过options.df.libraries全局配置或在具体方法(如execute、map)调用时,指定所需的第三方库列表(如['six.whl', 'python_dateutil.whl'])。
注意事项:
代码中不要直接import或打开DataWorks显示的文件路径,因这非真实文件系统路径。
确保所有使用的第三方包兼容MaxCompute运行环境,且无文件操作或二进制代码依赖,除非在支持这些特性的MaxCompute服务版本下。
通过以上步骤,您可以在DataWorks的PyODPS任务中有效利用第三方库进行数据处理。
PyODPS使用第三方包 在PyODPS DataFrame中使用三方包
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。