在DataWorks上使用PyODPS,为了防止对DataWorks的Gate Way造成压力,系统对内存和CPU都进行了限制,这个限制由DataWorks统一管理。如果出现"Got killed"的错误,即表示内存使用超过了限制,此时进程会被中止。因此,在使用PyODPS时,需要尽量避免进行大量的本地数据操作。
另外,对于需要在PyODPS节点内获取并处理的本地数据,建议其大小不超过50 MB。这一限制是根据DataWorks执行资源的不同规格设定的,包括公共调度资源组和独享调度资源组。如果处理的本地数据过多并超出操作系统阈值,可能会发生OOM(内存溢出)错误,导致进程被中止。
此外,通过PyODPS发起的SQL和DataFrame任务(除to_pandas外)并不会受到这些限制的影响。然而由于Python沙箱的限制,第三方库只支持所有的纯粹Python库以及Numpy,因此不能直接使用Pandas。
在DataWorks中使用PyODPS时,由于内存和CPU的限制,对线程的使用有一定的限制。具体来说,PyODPS节点的本地处理数据不能超过50 MB,节点运行时占用的内存不能超过1 GB。如果超出这些限制,节点任务会被系统中止。
此外,为了防止对DataWorks的Gate Way造成压力,PyODPS还对线程的使用进行了限制。具体来说,PyODPS在DataWorks上使用的线程数量是有限制的,这个限制由DataWorks统一管理。
需要注意的是,PyODPS发起的SQL和DataFrame任务(除to_pandas外)不受上述限制。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。