开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks中pyodps如何使用第三方库?

DataWorks中pyodps如何使用第三方库?

展开
收起
cuicuicuic 2024-05-03 07:53:39 14 0
1 条回答
写回答
取消 提交回答
  • 某政企事业单位运维工程师,主要从事系统运维工作,同时兼顾教育行业、企业等src安全漏洞挖掘,曾获全国行业网络安全大赛二等奖。

    在DataWorks中使用PyODPS调用第三方库,可遵循以下步骤:

    预置三方包使用:DataWorks的PyODPS节点已预置了一些三方包,直接在代码中引用即可。对于未预置的包,利用load_resource_package方法加载。

    创建Python资源:

    进入数据开发页面,新建Python资源文件(如pyodps_packagetest.py),在此文件中编写或引用需要的第三方包代码。

    上传第三方包:

    若需使用自定义三方包,需手动上传wheel格式的包文件到DataWorks,并确保提交成功。对于特定情况,如自定义Numpy版本,需设置odps.df.supersede_libraries = True,并将该包作为libraries的第一个参数。

    在PyODPS节点中调用:

    创建PyODPS 2节点,编写任务代码,通过options.df.libraries全局配置或在具体方法(如execute、map)调用时,指定所需的第三方库列表(如['six.whl', 'python_dateutil.whl'])。

    注意事项:

    代码中不要直接import或打开DataWorks显示的文件路径,因这非真实文件系统路径。

    确保所有使用的第三方包兼容MaxCompute运行环境,且无文件操作或二进制代码依赖,除非在支持这些特性的MaxCompute服务版本下。

    通过以上步骤,您可以在DataWorks的PyODPS任务中有效利用第三方库进行数据处理。

    PyODPS使用第三方包 在PyODPS DataFrame中使用三方包

    在PyODPS节点中调用第三方包 依赖普通的Python脚本

    PyODPS DataFrame的代码运行环境 使用第三方包

    2024-05-03 14:47:21
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关电子书

更多
DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载

相关实验场景

更多