Shuffle在大数据计算中的重要性主要体现在三个方面:首先,其覆盖率高,超过50%的作业都包含至少一个Shuffle;其次,资源消耗大,例如阿里内部平台Shuffle的CPU占比超过20%;第三,稳定性差,硬件资源的稳定性中磁盘和网络相对较弱,而Shuffle的资源消耗正是这些方面,容易导致OutOfMemory和Fetch Failure等错误。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。