DataWorks pyodps节点引用三方包
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
● DataWorks支持可视化创建Python资源,如果需要在PyODPS节点中调用第三方包,请使用独享调度资源组并通过运维助手进行安装。
● DataWorks运维助手中安装的Python第三方包,仅支持在DataWorks独享调度资源组本地运行PyODPS任务代码时引用,如果需要在MaxCompute的Python UDF中引用Python第三方包,详情请参见Python UDF使用第三方包。
● 如果PyODPS任务需要访问特殊的网络环境(如VPC网络或IDC网络中的数据源或服务等),请使用独享调度资源组,并参考网络连通解决方案打通独享资源组与目标环境的网络连通(独享调度资源组网络连通与独享数据集成资源组网络连通一致)。
使用说明
● 勿直接import 资源,否则会报错“ DataStudio中的“目录结构”并非文件系统中真实存在的目录结构,直接import或者打开DataStudio中显示的文件路径会导致执行失败,即便该文件已被上传为MaxCompute资源。
● DataWorks建议在PyODPS节点内获取到本地处理的数据不超过50 MB,该操作受限于DataWorks执行资源的不同规格(包括公共调度资源组和独享调度资源组),处理的本地数据过多并超出操作系统阈值时可能发生OOM(Got killed)错误。请避免在PyODPS节点中写入过多的数据处理代码。详情请参见高效使用PyODPS最佳实践。
相关文档
● pyodps语法
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。