MaxCompute里为什么mc跑没shuffle的数据，分段跑的时间比一次性跑大量数据的时间要短？

为什么mc跑没shuffle的数据，分段跑的时间比一次性跑大量数据的时间要短？如果shuffle了我理解，但是没shuffle的情况下，不都是批量跑吗？跑完一批跑下一批，我感觉时间上应该没什么区别才对，但是实测是分批跑的时间之和会比一次性跑完快，这个任务我跑了14个小时还没跑完，然后他们和我说分段一个月一个月跑会更快，实测过。但是这个任务我只调用了一个简单的处理string的udf，所以我不太理解原理上为什么会分段更快我一次性跑了五个月的，他们说分一个月一次，跑五次会更快，我不理解的地方是跑1T跑5次为什么会比跑5T跑一次要快

"MaxCompute的SQL作业跑的快与慢，大概有几个影响因素 1. 当前作业申请到的资源。按量付费就要看当时作业是不是正好赶上了高峰期，集群是不是有很多作业在跑，比如你在凌晨0点跑作业很慢，很有可能是按量付费集群下当时集群内有很多作业在跑，整个公共资源池无法支撑那么多作业，就会比较慢。按量付费没办法直面的看到公共资源池的作业多少，只能看当时是不是作业启动的高峰来评估。包年包月就要看当时作业时间段内包年包月的资源是不是足够支持你的作业跑，比如你跑作业的时候，有当前project内的作业很多都在跑，也有可能导致你的作业很慢。包年包月的资源使用情况，可以在MaxCompute管家查看：https://help.aliyun.com/document_detail/66565.html?spm=a2c4g.278738.0.i4#section-tfg-xpl-2pd

SQL复杂度以及udf的逻辑。需要看你的SQL是不是本身写的有问题，处理逻辑很繁琐，产生了很多join这些，需要优化SQL。SQL调优可以参考：https://help.aliyun.com/document_detail/102614.html?spm=a2c4g.92299.0.i1
数据量如果你的数据量很大的话也会导致作业较慢，就需要减少数据来跑，比如你说的分批跑比较快。
通过log view可以诊断慢作业，先分析出阶段。参考一下：https://help.aliyun.com/document_detail/278738.html?spm=a2c4g.102614.0.i4#section-1zn-y7c-7qv，MaxCompute是分布式计算，每一次计算的算子不一定都是在一台机器上面。也没办法控制同一个场景的计算时间。跑五次跟一次跑完的时间不一定是相同的或者更快的。，此回答整理自钉群“MaxCompute开发者社区2群(答疑@机器人)”"

MaxCompute里为什么mc跑没shuffle的数据，分段跑的时间比一次性跑大量数据的时间要短？

大数据计算 MaxCompute

相关文章

相关解决方案

热门讨论

热门文章