开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks中python自定义函数如何引入第三方模块?

DataWorks中python自定义函数如何引入第三方模块?

展开
收起
cuicuicuic 2023-08-08 16:21:59 56 0
2 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    在DataWorks中开发Python自定义函数,有两种引入第三方模块的方式:

    在函数定义中使用import语句
    示例:

    python
    Copy
    def func(params):
    import csv
    import numpy as np
    ...

    return result
    这样每次执行函数时,都会动态导入相应的第三方模块。

    通过requirements.txt定义依赖
    创建requirements.txt文件,内容为需要安装的第三方库:

    Copy
    numpy
    matplotlib
    pandas
    ...
    然后在函数配置中,勾选"使用依赖配置",并选择该requirements.txt文件。

    DataWorks会在部署函数时自动安装这些依赖库。

    以上两种方法各有优缺点:

    import语句:执行效率高,但会重复导入模块
    requirements.txt:只导入一次依赖,但部署时间长
    建议:

    少量/内置模块使用import语句
    较多/复杂模块使用requirements.txt
    发布新版本函数时,升级requirements.txt里的依赖版本
    DataWorks在解析Python函数逻辑时,会解析import语句自动构建依赖关系。
    并在函数运行前,安装requirements.txt里定义的所有依赖。

    2023-08-09 14:25:49
    赞同 展开评论 打赏
  • 怎么调在PyODPS任务中调用第三方包?
    方法一:如果您的是source文件,没有压缩,您可以参考下面文档:https://help.aliyun.com/document_detail/94159.html
    方法二:在odps使用自定义函数及Python第三方库 https://help.aliyun.com/document_detail/90716.html,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-08-08 23:53:01
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载