开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

dataworks pyodps中如何使用python第三方外源包?

dataworks pyodps中如何使用python第三方外源包?我按照官方文档操作,外源包已上传且发布了,但是无法调用?

展开
收起
cuicuicuic 2024-03-04 09:06:29 58 0
4 条回答
写回答
取消 提交回答
  • 本文为您介绍在依赖普通的Python脚本和开源第三方包的场景下,如何使用DataWorks PyODPS节点调用第三方包。

    使用限制
    在PyODPS节点中调用第三方包仅支持使用独享调度资源组。创建及使用独享调度资源组,详情请参见独享调度资源组。

    DataWorks建议您在PyODPS节点内获取到本地处理的数据不超过50 MB,该操作受限于DataWorks执行资源的不同规格(包括公共调度资源组和独享调度资源组),处理的本地数据过多并超出操作系统阈值时可能发生OOM(Got killed)错误。请避免在PyODPS节点中写入过多的数据处理代码。详情请参见高效使用PyODPS最佳实践。

    如果您发现有Got killed报错,即表明内存使用超限,进程被中止。因此,请尽量避免本地的数据操作。通过PyODPS发起的SQL和DataFrame任务(除to_pandas外)不受此限制。

    非自定义函数代码可以使用平台预装的NumPy和Pandas。不支持其他带有二进制代码的第三方包。

    由于兼容性原因,在DataWorks中,options.tunnel.use_instance_tunnel默认设置为False。如果需要全局开启instance tunnel,需要手动将该值设置为True。
    image.png

    参考https://help.aliyun.com/zh/dataworks/use-cases/use-a-pyodps-node-to-reference-a-third-party-package?spm=a2c4g.11186623.0.i26

    2024-03-31 11:34:11
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在DataWorks的PyODPS中使用Python第三方外源包,您可以按照以下步骤操作:

    1. 上传第三方包:将所需的第三方包上传到OSS(对象存储服务)或者通过DataWorks的控制台直接上传。
    2. 安装第三方包:在DataWorks的“数据开发”模块中,您可以通过编写代码来安装这些包。例如,使用oss2库来从OSS下载并安装包。
    3. 引用资源:在新建的PyODPS节点中,右键点击已上传的文件,选择“引用资源”,系统会自动生成引入文件的代码。
    4. 使用pyodps-pack命令行工具:自PyODPS V0.11.3版本起,提供了pyodps-pack命令行工具,用于制作符合PyODPS及DataWorks PyODPS节点标准的三方包。您可以使用该工具将所有依赖项目制作成一个后缀为.tar.gz的压缩包。
    5. 加载资源包:在PyODPS节点中,可以使用load_resource_package方法来引用其他的包。
    6. 独享调度资源组:如果需要依赖开源第三方包,建议使用独享调度资源组,并通过运维助手进行安装。

    请注意,确保您已经正确配置了ODPS实例,并且拥有相应的访问权限。如果在操作过程中遇到问题,可以查看官方文档或联系技术支持获取帮助。

    2024-03-04 14:32:25
    赞同 展开评论 打赏
  • 需要在独享资源组上安装一下三方包 ,方法一:如果您的是source文件,没有压缩,您可以参考下面文档:https://help.aliyun.com/document_detail/94159.html
    方法二:在odps使用自定义函数及Python第三方库 https://help.aliyun.com/document_detail/90716.html ,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2024-03-04 10:08:21
    赞同 展开评论 打赏
  • 2024-03-04 09:19:54
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载
    基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载