请问大数据计算MaxCompute dw上的python3使用的是哪个资源组的资源? 假如我es没有有3000w数据需要做分词, 我看这个案例不推荐使用python一条条处理,会oom, 推荐使用mc分布式, 是怎么实现的?写完代码打成utf包在sql里使用吗?https://developer.aliyun.com/article/745029?spm=a2c4g.11186623.0.0.46c4aae3AD0StM
在DataWorks中,Python3任务使用的是MaxCompute的计算资源组。如果您的任务需要处理大量数据,建议使用分布式计算方式,如MaxCompute的MC(MaxCompute Distributed)服务。
MC服务可以将任务拆分成多个子任务,并在多个节点上并行执行。这样可以避免单个任务处理大量数据时出现内存溢出(OOM)的问题。MC服务支持多种编程语言,包括Python3。
要将代码打包成UTF包并在SQL中使用,您可以按照以下步骤操作:
具体实现可以参考官方文档:https://help.aliyun.com/document_detail/745029?spm=a2c4g.11186623.0.0.46c4aae3AD0StM
PyODPS Python类的开发目前是用的DW的资源,如果要用MC的资源可以封装Python UDF ,此回答整理自钉群“MaxCompute开发者社区2群”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。