开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

MaxCompute里为什么mc跑没shuffle的数据,分段跑的时间比一次性跑大量数据的时间要短?

为什么mc跑没shuffle的数据,分段跑的时间比一次性跑大量数据的时间要短?如果shuffle了我理解,但是没shuffle的情况下,不都是批量跑吗?跑完一批跑下一批,我感觉时间上应该没什么区别才对,但是实测是分批跑的时间之和会比一次性跑完快,这个任务我跑了14个小时还没跑完,然后他们和我说分段一个月一个月跑会更快,实测过。但是这个任务我只调用了一个简单的处理string的udf,所以我不太理解原理上为什么会分段更快1a165e2a9ad413875268f776980907c6.png我一次性跑了五个月的,他们说分一个月一次,跑五次会更快,我不理解的地方是跑1T跑5次为什么会比跑5T跑一次要快

展开
收起
饭也太好吃了 2023-06-09 14:54:44 71 0
1 条回答
写回答
取消 提交回答
  • "MaxCompute的SQL作业跑的快与慢,大概有几个影响因素 1. 当前作业申请到的资源。 按量付费就要看当时作业是不是正好赶上了高峰期,集群是不是有很多作业在跑,比如你在凌晨0点跑作业很慢,很有可能是按量付费集群下当时集群内有很多作业在跑,整个公共资源池无法支撑那么多作业,就会比较慢。按量付费没办法直面的看到公共资源池的作业多少,只能看当时是不是作业启动的高峰来评估。 包年包月就要看当时作业时间段内包年包月的资源是不是足够支持你的作业跑,比如你跑作业的时候,有当前project内的作业很多都在跑,也有可能导致你的作业很慢。包年包月的资源使用情况,可以在MaxCompute管家查看:https://help.aliyun.com/document_detail/66565.html?spm=a2c4g.278738.0.i4#section-tfg-xpl-2pd

    1. SQL复杂度以及udf的逻辑。 需要看你的SQL是不是本身写的有问题,处理逻辑很繁琐,产生了很多join这些,需要优化SQL。SQL调优可以参考:https://help.aliyun.com/document_detail/102614.html?spm=a2c4g.92299.0.i1

    2. 数据量 如果你的数据量很大的话也会导致作业较慢,就需要减少数据来跑,比如你说的分批跑比较快。

    3. 通过log view可以诊断慢作业,先分析出阶段。参考一下:https://help.aliyun.com/document_detail/278738.html?spm=a2c4g.102614.0.i4#section-1zn-y7c-7qv,MaxCompute是分布式计算,每一次计算的算子不一定都是在一台机器上面。 也没办法控制同一个场景的计算时间。 跑五次跟一次跑完的时间不一定是 相同的 或者更快的。 ,此回答整理自钉群“MaxCompute开发者社区2群(答疑@机器人)”"

    2023-06-09 15:41:59
    赞同 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 相关电子书

    更多
    Data+AI时代大数据平台应该如何建设 立即下载
    大数据AI一体化的解读 立即下载
    极氪大数据 Serverless 应用实践 立即下载