开发者社区 问答 正文

Shuffle在大数据计算中的重要性体现在哪些方面?

Shuffle在大数据计算中的重要性体现在哪些方面?

展开
收起
萝卜丝丸子 2024-07-29 15:44:19 50 分享 版权
1 条回答
写回答
取消 提交回答
  • Shuffle在大数据计算中的重要性主要体现在三个方面:首先,其覆盖率高,超过50%的作业都包含至少一个Shuffle;其次,资源消耗大,例如阿里内部平台Shuffle的CPU占比超过20%;第三,稳定性差,硬件资源的稳定性中磁盘和网络相对较弱,而Shuffle的资源消耗正是这些方面,容易导致OutOfMemory和Fetch Failure等错误。

    2024-07-29 16:15:57
    赞同 展开评论