mapreduce的数据处理过程中,shuffle出于map和Reduce之间。
Shuffle:洗牌或弄乱。
Collections.shuffle(List):随机地打乱参数list里的元素顺序。
MapReduce里Shuffle:描述着数据从map task输出到reduce task输入的这段过程。
mapreduce处理过程 input --> map --> shuffle --> reduce -->output
MapReduce shuffle
MapReduce优化
- 分区Partitioner
- 排序Sort
- 合并Combiner(可选)
- 压缩Compress(可选)
- 分组Group
- Reduce Task Number
- Map Task 输出压缩
- Shuffle Phase 参数