开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks中pyodps如何使用第三方库?

DataWorks中pyodps如何使用第三方库?

展开
收起
真的很搞笑 2024-05-03 07:53:39 119 0
1 条回答
写回答
取消 提交回答
  • 某政企事业单位安全运维工程师,主要从事系统运维及网络安全工作,多次获得阿里云、华为云、腾讯云征文比赛一二等奖;CTF选手,白帽,全国交通行业网络安全大赛二等奖,全国数信杯数据安全大赛银奖,手握多张EDU、CNVD、CNNVD证书,欧盟网络安全名人堂提名,联合国网络安全名人堂提名

    在DataWorks中使用PyODPS调用第三方库,可遵循以下步骤:

    预置三方包使用:DataWorks的PyODPS节点已预置了一些三方包,直接在代码中引用即可。对于未预置的包,利用load_resource_package方法加载。

    创建Python资源:

    进入数据开发页面,新建Python资源文件(如pyodps_packagetest.py),在此文件中编写或引用需要的第三方包代码。

    上传第三方包:

    若需使用自定义三方包,需手动上传wheel格式的包文件到DataWorks,并确保提交成功。对于特定情况,如自定义Numpy版本,需设置odps.df.supersede_libraries = True,并将该包作为libraries的第一个参数。

    在PyODPS节点中调用:

    创建PyODPS 2节点,编写任务代码,通过options.df.libraries全局配置或在具体方法(如execute、map)调用时,指定所需的第三方库列表(如['six.whl', 'python_dateutil.whl'])。

    注意事项:

    代码中不要直接import或打开DataWorks显示的文件路径,因这非真实文件系统路径。

    确保所有使用的第三方包兼容MaxCompute运行环境,且无文件操作或二进制代码依赖,除非在支持这些特性的MaxCompute服务版本下。

    通过以上步骤,您可以在DataWorks的PyODPS任务中有效利用第三方库进行数据处理。

    PyODPS使用第三方包 在PyODPS DataFrame中使用三方包

    在PyODPS节点中调用第三方包 依赖普通的Python脚本

    PyODPS DataFrame的代码运行环境 使用第三方包

    2024-05-03 14:47:21
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载