开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks中pyodps 线程限制是什么?

DataWorks中pyodps 线程限制是什么?

展开
收起
真的很搞笑 2023-12-17 16:09:09 47 0
2 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在DataWorks上使用PyODPS,为了防止对DataWorks的Gate Way造成压力,系统对内存和CPU都进行了限制,这个限制由DataWorks统一管理。如果出现"Got killed"的错误,即表示内存使用超过了限制,此时进程会被中止。因此,在使用PyODPS时,需要尽量避免进行大量的本地数据操作。

    另外,对于需要在PyODPS节点内获取并处理的本地数据,建议其大小不超过50 MB。这一限制是根据DataWorks执行资源的不同规格设定的,包括公共调度资源组和独享调度资源组。如果处理的本地数据过多并超出操作系统阈值,可能会发生OOM(内存溢出)错误,导致进程被中止。

    此外,通过PyODPS发起的SQL和DataFrame任务(除to_pandas外)并不会受到这些限制的影响。然而由于Python沙箱的限制,第三方库只支持所有的纯粹Python库以及Numpy,因此不能直接使用Pandas。

    2023-12-17 18:26:09
    赞同 展开评论 打赏
  • 在DataWorks中使用PyODPS时,由于内存和CPU的限制,对线程的使用有一定的限制。具体来说,PyODPS节点的本地处理数据不能超过50 MB,节点运行时占用的内存不能超过1 GB。如果超出这些限制,节点任务会被系统中止。

    此外,为了防止对DataWorks的Gate Way造成压力,PyODPS还对线程的使用进行了限制。具体来说,PyODPS在DataWorks上使用的线程数量是有限制的,这个限制由DataWorks统一管理。

    需要注意的是,PyODPS发起的SQL和DataFrame任务(除to_pandas外)不受上述限制。

    2023-12-17 16:59:21
    赞同 1 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 热门讨论

    热门文章

    相关电子书

    更多
    DataWorks高效数据分析最佳实践-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    多IO线程优化版 立即下载

    相关实验场景

    更多