开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

在DataWorks上使用PyODPS使用限制是什么?

在DataWorks上使用PyODPS使用限制是什么?

展开
收起
cuicuicuic 2023-07-31 11:04:13 67 0
3 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    在DataWorks上使用PyODPS进行MaxCompute任务开发和调度是非常常见的一种方法,但是也有一些使用限制需要注意:

    安装依赖库:在使用PyODPS时,需要安装相应的依赖库,如requests、six、pytz等,需要确保这些依赖库与DataWorks环境兼容。在DataWorks中,可以使用Python依赖包管理功能来安装和管理依赖库。

    存在调度并发数限制:在DataWorks中,同一个项目下的任务并发数是有限制的,如果任务数量过多或者任务执行时间过长,可能会导致任务等待或者执行失败。因此,建议您在任务设计时考虑任务并发数、任务执行时间等因素,以避免任务并发数过多或者任务执行时间过长的问题。

    存在计算资源限制:在DataWorks中,计算资源是有限的,如果任务需要消耗大量的计算资源,可能会导致其他任务无法正常执行。因此,建议您在任务设计时考虑计算资源的使用情况,尽量减少对计算资源的占用。

    受到数据安全限制:在DataWorks中,数据安全是非常重要的,因此对于一些敏感数据或者机密信息,可能会受到访问限制。如果任务需要访

    2023-07-31 23:39:42
    赞同 展开评论 打赏
  • 在阿里云的DataWorks平台上使用PyODPS库进行数据处理时,存在一些使用限制和注意事项。以下是一些常见的PyODPS使用限制:

    1. 资源配额限制:DataWorks平台会对每个项目和用户设定资源配额,包括计算资源、存储资源等。请确保您的项目和用户的资源配额足够满足您的需求,以免因资源不足而无法正常执行任务或操作。

    2. 并发限制:DataWorks平台对并发任务数有一定限制。如果您同时运行的任务数超过了平台的限制,可能会导致任务等待执行或执行失败。请注意管理并控制好任务的并发数。

    3. 网络访问限制:DataWorks平台的网络环境可能会受到一些限制,例如对外部网络请求的限制,防火墙规则等。请确保您的代码在DataWorks环境中能够正常访问所需的外部资源(例如API服务、数据库等)。

    4. 文件大小限制:DataWorks平台对上传文件的大小有一定限制。如果您需要上传较大的文件进行数据处理,可能需要将文件拆分成合适的大小或采用其他方式进行处理。

    5. 访问权限限制:根据DataWorks平台管理员的配置,您的账号可能具有一定的访问权限限制。请确保您具备访问所需数据源、表和其他资源的权限。

    请注意,具体的使用限制可能会因DataWorks的配置和版本而有所不同。建议参考阿里云官方文档或联系阿里云技术支持,以获取最准确和最新的信息。

    2023-07-31 11:32:32
    赞同 展开评论 打赏
  • PyODPS节点获取本地处理的数据不能超过50 MB,节点运行时占用内存不能超过1 GB,否则节点任务会被系统中止。请避免在PyODPS任务中写额外的Python数据处理代码。在DataWorks上编写代码并进行调试效率较低,为提升运行效率,建议本地安装IDE进行代码开发。在DataWorks上使用PyODPS时,为了防止对DataWorks的Gate Way造成压力,对内存和CPU都有限制,该限制由DataWorks统一管理。如果您发现有Got killed报错,即表明内存使用超限,进程被中止。因此,请尽量避免本地的数据操作。通过PyODPS发起的SQL和DataFrame任务(除to_pandas外)不受此限制。由于缺少matplotlib等包,如下功能可能受限:DataFrame的plot函数。DataFrame自定义函数需要提交到MaxCompute执行。由于Python沙箱限制,第三方库只支持所有的纯粹Python库以及Numpy,因此不能直接使用Pandas。DataWorks中执行的非自定义函数代码可以使用平台预装的Numpy和Pandas。不支持其他带有二进制代码的三方包。由于兼容性原因,在DataWorks中,options.tunnel.use_instance_tunnel默认设置为False。如果需要全局开启instance tunnel,需要手动将该值设置为True。由于实现的原因,Python的atexit包不被支持,请使用try-finally结构实现相关功能。
    https://help.aliyun.com/document_detail/90444.html,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-07-31 11:09:52
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载

    相关实验场景

    更多