开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

请问大数据计算MaxCompute dw上的python3使用的是哪个资源组的资源?

请问大数据计算MaxCompute dw上的python3使用的是哪个资源组的资源? 假如我es没有有3000w数据需要做分词, 我看这个案例不推荐使用python一条条处理,会oom, 推荐使用mc分布式, 是怎么实现的?写完代码打成utf包在sql里使用吗?https://developer.aliyun.com/article/745029?spm=a2c4g.11186623.0.0.46c4aae3AD0StM

展开
收起
真的很搞笑 2024-01-16 13:21:05 38 0
2 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在DataWorks中,Python3任务使用的是MaxCompute的计算资源组。如果您的任务需要处理大量数据,建议使用分布式计算方式,如MaxCompute的MC(MaxCompute Distributed)服务。

    MC服务可以将任务拆分成多个子任务,并在多个节点上并行执行。这样可以避免单个任务处理大量数据时出现内存溢出(OOM)的问题。MC服务支持多种编程语言,包括Python3。

    要将代码打包成UTF包并在SQL中使用,您可以按照以下步骤操作:

    1. 将您的Python代码打包成一个ZIP文件。
    2. 将ZIP文件上传到MaxCompute的OSS(对象存储服务)。
    3. 在DataWorks中创建一个Python3任务,并将OSS中的ZIP文件作为代码包引入。
    4. 编写SQL语句,调用Python3任务中的函数或方法来处理数据。

    具体实现可以参考官方文档:https://help.aliyun.com/document_detail/745029?spm=a2c4g.11186623.0.0.46c4aae3AD0StM

    2024-01-16 14:13:18
    赞同 展开评论 打赏
  • PyODPS Python类的开发目前是用的DW的资源,如果要用MC的资源可以封装Python UDF ,此回答整理自钉群“MaxCompute开发者社区2群”

    2024-01-16 13:55:25
    赞同 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 相关电子书

    更多
    Data+AI时代大数据平台应该如何建设 立即下载
    大数据AI一体化的解读 立即下载
    极氪大数据 Serverless 应用实践 立即下载